On-Premise vs. EU-Cloud pre AI Agents: Rozhodovacia matica pre DACH
On-Premise vs. EU-Cloud pre AI Agents opisuje voľbu prevádzkového modelu pre produkčných AI agentov: dedikovaný vlastný hardvér v nemeckom, rakúskom alebo švajčiarskom dátovom centre (On-Premise), suverénni EU-Cloud poskytovatelia alebo hybridná kombinácia. Rozhodujúce sú citlivosť dát, GDPR-suverenita, náklady, latencia, škálovanie a existujúce prevádzkové know-how.
Key Takeaways
- ✓Frankfurt-región sa nerovná suverenite: EU-lokalita amerického hyperscalera poskytuje dátovú rezidenciu (fyzické miesto uloženia), ale nie dátovú suverenitu - materská spoločnosť zostáva podriadená americkému CLOUD Act (2018).
- ✓Pravidlo o nákladovom crossovere: Od trvalej inferenčnej záťaže približne 8-12 GPU ekvivalentných H100 sa self-hosting na token typicky stáva lacnejším než managed API - avšak so 6-9 mesiacmi engineeringového predstihu (stav 2026).
- ✓Pre väčšinu DACH workloadov je hybrid dominujúcim vzorom: citlivé dokumenty a vektorový store on-premise, iba generačný krok volá EU-región alebo suverénny cloud.
- ✓Regulácia poháňa architektúru: BSI C5 Typ 2 je od 1. júla 2025 povinný pre cloudové spracovanie pacientskych dát (DigiG, § 393 SGB V); BFSI, verejný sektor a obrana často vyžadujú odolnosť voči CLOUD Act.
- ✓Latencia diskvalifikuje transatlantik: Agent vo Frankfurte k americkému východnému API stojí približne 80-120 ms na jednu cestu - pri viacerých kolách tool-call je sub-sekundové UX dosiahnuteľné iba s ko-lokalizovanou EU-inferenciou.
- ✓Odporúčanie podľa scenára: MSP zvyčajne začínajú s EU-Cloud-hybridom, regulované odvetvia so suverénnym cloudom (STACKIT, Open Telekom Cloud), koncerny s multi-cloudom plus suverénnym tierom.
On-Premise vs. EU-Cloud pre AI Agents opisuje voľbu prevádzkového modelu pre produkčných AI agentov: dedikovaný vlastný hardvér v nemeckom, rakúskom alebo švajčiarskom dátovom centre (On-Premise), suverénni EU-Cloud poskytovatelia alebo hybridná kombinácia oboch. Rozhodujúcich je šesť kritérií: citlivosť dát a compliance (GDPR, odvetvové právo), náklady (CapEx/OpEx, GPU oproti tokenovej ekonomike), latencia, škálovanie, prevádzková náročnosť a know-how, ako aj dostupnosť modelov. Tento článok poskytuje rozhodovaciu maticu a konkrétne odporúčania pre každý scenár.
Tri kľúčové tvrdenia na úvod:
- Lokalita nie je suverenita. Frankfurt-región amerického hyperscalera poskytuje dátovú rezidenciu, nie dátovú suverenitu. Materská spoločnosť zostáva podriadená americkému CLOUD Act (2018). Pre regulované odvetvia to spravidla nestačí.
- Hybrid je dominujúci DACH vzor. Citlivé dokumenty, embeddingy a vektorový store zostávajú on-premise alebo v suverénnom cloude, iba generačný krok volá EU-región alebo suverénne API.
- Nákladový crossover leží približne pri 8-12 GPU H100. Pod ním dominujú managed API, nad ním sa self-hosting na token stáva lacnejším, avšak so 6-9 mesiacmi engineeringového predstihu (stav 2026).
Dátová rezidencia verzus dátová suverenita: zásadné rozlíšenie
Najčastejšia konceptuálna zámena v DACH zákazníckych rozhovoroch sa týka dvoch pojmov, ktoré neznamenajú to isté. Dátová rezidencia je fyzické miesto, kde sa dáta ukladajú a spracúvajú. Dátová suverenita je právna jurisdikcia, ktorá vládne nad dátami, vrátane extrateritoriálneho dosahu ako americký CLOUD Act z roku 2018. Suverénny cloud spĺňa oboje: prevádzkovateľ, infraštruktúra a právna kontrola sídlia vo zvolenej jurisdikcii. Rezidencia je teda nutná, ale nie postačujúca.
Prakticky to znamená: Aj keď dáta ležia výlučne vo Frankfurte, prevádzkovateľ amerického hyperscalera zostáva americkým právnym subjektom pod CLOUD Act. Suverenita v prísnom, voči CLOUD Act odolnom zmysle si vyžaduje jeden z troch modelov: dedikovaný suverénny cloud hyperscalera (napríklad AWS European Sovereign Cloud v Brandenbursku so štartom koncom roka 2025, alebo Microsoft Sovereign Cloud s prístupom kontrolovaným prevádzkovateľom), partnerom prevádzkovaný stack (T-Systems s Google, Bleu s Microsoftom vo Francúzsku) alebo neamerického poskytovateľa.
K tomu pristupuje DACH špecifikum: On-Premise v strednom segmente zriedka znamená server v kancelárii, ale zvyčajne dedikované prostredie v carrier-neutrálnom kolokačnom dátovom centre v Nemecku, Rakúsku alebo Švajčiarsku (Equinix Frankfurt, Interxion, Digital Realty Zürich, NTT Vienna). Skutočný bare-metal vo vlastníctve zákazníka zostáva relevantný pre veľké priemyselné skupiny, organizácie blízke obrane a BFSI zákazníkov s explicitným dohľadovým príkazom.
Šesť rozhodovacích kritérií
1. Citlivosť dát a compliance
Kmeňové zákaznícke dáta, dáta zamestnancov, zdravotnícke záznamy alebo exportne kontrolované IP posúvajú architektúru smerom k suverénnemu alebo on-premise. Popri GDPR a švajčiarskom FADP/revDSG (účinný od 1. septembra 2023) pôsobia odvetvové pravidlá: BaFin/FINMA pre BFSI, KRITIS/NIS2 pre kritickú infraštruktúru, TISAX pre automotive, ako aj DigiG a § 393 SGB V pre zdravotné dáta. Konkrétny, záväzný dátum: Od 1. júla 2025 je BSI C5 Typ 2 povinný pre cloudové spracovanie pacientskych dát. Niektoré služby hyperscalerov túto atestáciu ešte nedrží, čo treba pri obstarávaní preveriť. Táto poznámka nenahrádza právne poradenstvo.
2. Náklady: CapEx/OpEx, GPU oproti tokenu
Self-hosting pri trvalej záťaži je na token lacnejší, managed API sú lacnejšie pre špičkové, exploratívne workloady. Nečinné GPU je najdrahší CapEx. Architektonickými nákladovými poháňačmi on-premise sú odpis GPU serverov (typicky 3-4 roky), elektrina (DACH priemyselné tarify približne 0,18-0,35 EUR/kWh), chladenie (PUE 1,2-1,4 v moderných DACH dátových centrách), konektivita, prevádzka a softvérové licencie. Jediný 130-kW rack ťahá rádovo približne 1,1 GWh za rok pri plnej záťaži.
3. Latencia
Ko-lokalizovaná inferencia (engine v rovnakom regióne ako orchestrácia agentov) poskytuje jednociferné milisekundy sieťovej latencie. Transatlantické volania pridávajú približne 80-130 ms na jednu cestu plus TLS-handshake, a pri viacstupňových agentoch volajúcich tool sa to násobí. Pre sub-sekundové UX s viacerými kolami tool-call nie sú transatlantické volania praktické.
Cesta | Približná latencia (jedna cesta) |
|---|---|
Azure Amsterdam ↔ Azure Frankfurt | 8-12 ms |
Azure Frankfurt ↔ Azure Zürich | 10-15 ms |
AWS Frankfurt ↔ AWS Zürich (eu-central-2) | 8-15 ms |
Frankfurt-agent → OpenAI API (US-Východ) | 80-110 ms |
Frankfurt-agent → Anthropic API (US-Východ) | 85-120 ms |
On-Prem-rack → používateľ na rovnakom kampuse | < 2 ms |
4. Škálovanie
Managed API škálujú elasticky bez plánovania kapacity. Self-hosted stacky potrebujú predzásobenie: GPU-memory-math určuje hardvér. Model 70 B potrebuje pri BF16 približne 140 GB iba na váhy, pri FP8 približne 70 GB, pri AWQ-INT4 približne 35 GB. Pre nízku concurrency stačí 1x H200 (141 GB); pre produkčné batch-veľkosti sú typicky potrebné 2x H100 alebo 2x MI300X. Modely triedy 405 B vyžadujú multi-GPU tenzorovú paralelitu (napríklad 8x H200 alebo jeden GB200-NVL72 uzol). Modely s biliónmi parametrov ležia mimo takmer všetkých footprintov DACH stredného segmentu, tu vedie cesta cez managed API alebo suverénny GPU-bursting.
5. Prevádzková náročnosť a know-how
Prevádzka vLLM, SGLang, Triton alebo NVIDIA NIM v produkčnom škálovaní si vyžaduje hĺbku platform-engineeringu, ktorú väčšina DACH stredných firiem nemá in-house. Tím pohotovosti 24x7, ktorý ovláda NCCL-stally a režimy zlyhania GPU, je v DACH vzácny. Poznámka k voľbe inference-engine: Hugging Face previedol TGI 11. decembra 2025 do maintenance-režimu a odkazuje nové deploymenty na vLLM alebo SGLang (stav 2026).
6. Dostupnosť modelov
Managed API vyhrávajú, keď je kritická rôznorodosť modelov. Samotný Azure AI Foundry doplnil v roku 2025 okrem iného DeepSeek R1, GPT-4.1, Mistral Large 3, Claude Opus 4.5 a Llama 4. Suverénne API (IONOS AI Model Hub, Open Telekom Cloud AI Foundation Services, Swisscom Swiss AI Platform, Infomaniak) obsluhujú open-source modely ako Teuken-7B, Llama 3/4, Mistral, DeepSeek a otvorený švajčiarsky Apertus (EPFL/ETH/CSCS, zverejnený 2. septembra 2025). Kto potrebuje určitý model ako permisívny open weight, môže ho identicky prevádzkovať cez NIM- alebo OCI-kontajner naprieč cloudmi a on-premise.
Rozhodovacia matica: kritérium oproti prevádzkovému modelu
Kritérium | On-Premise | EU-Cloud (suverénny/región) | Hybrid |
|---|---|---|---|
Citlivosť dát | Najvyššia trieda, IP-/regulačne kritická | Nízka až stredná (región) resp. vysoká (suverénny) | Citlivé zostáva lokálne, zvyšok v cloude |
GDPR-suverenita | Maximálna, odolná voči CLOUD Act | Suverénny cloud: silná; hyperscaler-región: iba rezidencia | Suverénne jadro plus EU-generovanie |
Nákladový profil | Vysoký CapEx, lacný pri vysokej trvalej záťaži | OpEx, lacný pri špičkovej záťaži | Zmiešaný, optimalizovateľný |
Latencia | < 2 ms na kampuse | 8-15 ms v rámci EU | Nízka pre lokálnu časť |
Škálovanie | Vopred plánované, viazané na GPU | Elastické | Steady-state lokálne, špičky cez bursting |
Prevádzková náročnosť | Vysoká, potrebný platform-tím | Nízka až stredná | Vysoká, dva svety na prevádzku |
Dostupnosť modelov | Obmedzená (1-2 open modely) | Vysoká (frontier plus nika) | Frontier v cloude, open lokálne |
Time-to-Value | 6-18 mesiacov | Týždne | Stredne |
Doplňujúca heuristika pre hĺbkové rozhodnutie: Managed posúva pri verejných/interných dátach, špičkovej záťaži, vysokej rôznorodosti modelov a chýbajúcom platform-tíme. Self-hosting posúva pri dôverných/regulovaných dátach, vysokej trvalej záťaži, tail-latencii pod 500 ms a prísnej suverenite.
Konkrétny príklad výpočtu: nákladový crossover
Pravidlo kolujúce v DACH platformových tímoch robí rozhodnutie uchopiteľným (stav 2026): Od trvalej inferenčnej záťaže približne 8-12 GPU ekvivalentných H100 sa self-hosting v suverénnom cloude alebo on-premise na token typicky stáva lacnejším než ekonomika managed API. Nad približne 30 ekvivalentmi H100 sa medzera rýchlo otvára.
Migrácia z managed API na self-hosting má zmysel, ak platia aspoň dve z nasledujúcich podmienok:
```text
AK mesačné výdavky na managed API > run-rate ~10 H100 v suverénnom cloude
ALEBO nový dohľadový príkaz (BaFin/FINMA/BSI) vyžaduje nepreukázateľnú kontrolu
ALEBO závislý model sa stane dostupným ako permisívny open weight (Llama, Mistral, Apertus)
ALEBO roadmapa vyžaduje fine-tuning, ktorý na managed API nie je možný
ALEBO legal-review identifikuje poskytovateľa ako koncentračné riziko (DORA)
POTOM (pri >= 2 splnených podmienkach) plánovať migráciu, ~6-9 mesiacov predstihu
```
Pod touto hranicou dominujú managed API na báze TCO. Konkrétne ceny tokenov a výpočet H100 oproti H200 oproti B200 patria do samostatnej FinOps analýzy.
Odporúčanie pre každý scenár
MSP (200-2 000 zamestnancov, zmiešaná citlivosť dát, M365-prostredie, žiadny ML-platform-tím): Hybridný model pokrýva skúsenostne cez 70 percent DACH greenfield projektov stredného segmentu. Odporúčanie: Azure West Europe alebo Germany West Central s Azure OpenAI v Data-Zone-EUR-deploymente, on-prem alebo kolokačná RAG-vrstva s vektorovou DB pre dôverné dokumenty, napojená cez ExpressRoute a Private Endpoint. Dôverné chunky nikdy neopustia Nemecko, iba už redigované snippety sa stanú súčasťou LLM-promptu. Vlastne hostovaná LiteLLM-gateway-vrstva riadi rozpočty a umožňuje fallback na EU-platformu ako Mistral La Plateforme. Nevhodné pre BFSI core-systémy, klasifikované IP alebo pacientske dáta po 1. júli 2025.
Regulované odvetvie (BFSI, healthcare, verejný sektor, blízke obrane, plná suverenita): suverénny cloud ako primárna cesta. Odporúčanie: STACKIT alebo Open Telekom Cloud / T Cloud Public so zmluvou s nemeckým právnym subjektom a prevádzkovateľskou kontrolou. LLM cez PhariaAI-as-a-Service na STACKIT alebo otvorené modely (Llama 3/4, Mistral, Teuken-7B, Apertus) cez vLLM/NIM na dedikovaných GPU-inštanciách. Vektorová DB (Weaviate, Qdrant, pgvector) v rovnakom suverénnom cloude, secrets v HashiCorp Vault s HSM-seal voči Utimaco-HSM, egress deny-by-default s allowlistom. Pre najvyššiu dátovú triedu voliteľne on-prem inferencia cez NVIDIA NIM na Red Hat OpenShift AI v zákazníckom DC. Reálny trade-off: ešte existujúca feature-medzera voči hyperscalerom, ktorú chce T-Systems uzavrieť do konca roka 2026 (prísľub z roadmapy).
Koncern (DAX 40, SMI 20, ATX prime, formálna cloud-exit-policy pod DORA/MaRisk/FINMA): Multi-cloud-rezilencia so suverénnym tierom. Primárny cloud (Azure Germany/EU) pre väčšinu, sekundárny cloud (AWS alebo Google) pre rezilenciu, model-API abstrahované cez AI-gateway. Prenositeľnosť modelov cez otvorené modely (Llama 4, Mistral, Apertus, Teuken) ako NIM-/OCI-kontajnery, ktoré bežia identicky naprieč všetkými cloudmi a on-premise. Voliteľný suverénny tier (STACKIT alebo T Cloud Public) pre najcitlivejšie workloady s dokumentovanými migračnými cestami. Najvyššia nákladová trieda, takmer nikdy nesedí strednému segmentu.
Poznámka pre Švajčiarsko: FADP/revDSG nie je GDPR a nesmie sa miešať. Sprísnenie švajčiarskeho dohľadu z novembra 2025 ("privatim") odporúča verejným inštitúciám medzinárodné SaaS pre citlivé dáta iba s end-to-end šifrovaním a kľúčmi držanými zákazníkom. Expozícia voči CLOUD Act zostáva pre amerických poskytovateľov aj pri švajčiarskej dátovej rezidencii.
Pre agentúry a B2B rozhodovateľov
Voľba medzi On-Premise, EU-Cloud a hybridom nie je čisto IT-otázka, ale obchodné a compliance rozhodnutie, ktoré padá včas v projekte a formuje architektúru, náklady a predajnú schopnosť na roky. Pre agentúry, ktoré budujú AI agentov pre DACH zákazníkov, je čisté oddelenie dátovej rezidencie a dátovej suverenity najsilnejším argumentom v diskusii o obstarávaní s nákupom a právnym oddelením.
Blck Alpaca sprevádza DACH B2B firmy od rozhodovacej matice až po produkčný stack s EU-dátovou rezidenciou a preukázateľnou suverenitou. V kompaktnom proof of concept objasníme na vašom reálnom use case dátové triedy, latenčný rozpočet, nákladový crossover a vhodný prevádzkový model, skôr než investujete do infraštruktúry. Oslovte nás pre B2B-PoC.
Často kladené otázky
Stačí Frankfurt-región hyperscalera pre GDPR-konformných AI Agents?
Odkedy sa oplatí On-Premise oproti EU-Cloud API?
Aký je rozdiel medzi dátovou rezidenciou a dátovou suverenitou?
Ktorí suverénni EU-Cloud poskytovatelia sú vhodní pre AI Agents v DACH?
Čo znamená On-Premise v DACH strednom segmente konkrétne?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.