10.2Pokročilý7 min

On-Premise vs. EU-Cloud pre AI Agents: Rozhodovacia matica pre DACH

Blck Alpaca·9. júna 2026

Definition

Key Takeaways

✓Frankfurt-región sa nerovná suverenite: EU-lokalita amerického hyperscalera poskytuje dátovú rezidenciu (fyzické miesto uloženia), ale nie dátovú suverenitu - materská spoločnosť zostáva podriadená americkému CLOUD Act (2018).
✓Pravidlo o nákladovom crossovere: Od trvalej inferenčnej záťaže približne 8-12 GPU ekvivalentných H100 sa self-hosting na token typicky stáva lacnejším než managed API - avšak so 6-9 mesiacmi engineeringového predstihu (stav 2026).
✓Pre väčšinu DACH workloadov je hybrid dominujúcim vzorom: citlivé dokumenty a vektorový store on-premise, iba generačný krok volá EU-región alebo suverénny cloud.
✓Regulácia poháňa architektúru: BSI C5 Typ 2 je od 1. júla 2025 povinný pre cloudové spracovanie pacientskych dát (DigiG, § 393 SGB V); BFSI, verejný sektor a obrana často vyžadujú odolnosť voči CLOUD Act.
✓Latencia diskvalifikuje transatlantik: Agent vo Frankfurte k americkému východnému API stojí približne 80-120 ms na jednu cestu - pri viacerých kolách tool-call je sub-sekundové UX dosiahnuteľné iba s ko-lokalizovanou EU-inferenciou.
✓Odporúčanie podľa scenára: MSP zvyčajne začínajú s EU-Cloud-hybridom, regulované odvetvia so suverénnym cloudom (STACKIT, Open Telekom Cloud), koncerny s multi-cloudom plus suverénnym tierom.

On-Premise vs. EU-Cloud pre AI Agents opisuje voľbu prevádzkového modelu pre produkčných AI agentov: dedikovaný vlastný hardvér v nemeckom, rakúskom alebo švajčiarskom dátovom centre (On-Premise), suverénni EU-Cloud poskytovatelia alebo hybridná kombinácia oboch. Rozhodujúcich je šesť kritérií: citlivosť dát a compliance (GDPR, odvetvové právo), náklady (CapEx/OpEx, GPU oproti tokenovej ekonomike), latencia, škálovanie, prevádzková náročnosť a know-how, ako aj dostupnosť modelov. Tento článok poskytuje rozhodovaciu maticu a konkrétne odporúčania pre každý scenár.

Tri kľúčové tvrdenia na úvod:

Lokalita nie je suverenita. Frankfurt-región amerického hyperscalera poskytuje dátovú rezidenciu, nie dátovú suverenitu. Materská spoločnosť zostáva podriadená americkému CLOUD Act (2018). Pre regulované odvetvia to spravidla nestačí.
Hybrid je dominujúci DACH vzor. Citlivé dokumenty, embeddingy a vektorový store zostávajú on-premise alebo v suverénnom cloude, iba generačný krok volá EU-región alebo suverénne API.
Nákladový crossover leží približne pri 8-12 GPU H100. Pod ním dominujú managed API, nad ním sa self-hosting na token stáva lacnejším, avšak so 6-9 mesiacmi engineeringového predstihu (stav 2026).

Dátová rezidencia verzus dátová suverenita: zásadné rozlíšenie

Najčastejšia konceptuálna zámena v DACH zákazníckych rozhovoroch sa týka dvoch pojmov, ktoré neznamenajú to isté. Dátová rezidencia je fyzické miesto, kde sa dáta ukladajú a spracúvajú. Dátová suverenita je právna jurisdikcia, ktorá vládne nad dátami, vrátane extrateritoriálneho dosahu ako americký CLOUD Act z roku 2018. Suverénny cloud spĺňa oboje: prevádzkovateľ, infraštruktúra a právna kontrola sídlia vo zvolenej jurisdikcii. Rezidencia je teda nutná, ale nie postačujúca.

Prakticky to znamená: Aj keď dáta ležia výlučne vo Frankfurte, prevádzkovateľ amerického hyperscalera zostáva americkým právnym subjektom pod CLOUD Act. Suverenita v prísnom, voči CLOUD Act odolnom zmysle si vyžaduje jeden z troch modelov: dedikovaný suverénny cloud hyperscalera (napríklad AWS European Sovereign Cloud v Brandenbursku so štartom koncom roka 2025, alebo Microsoft Sovereign Cloud s prístupom kontrolovaným prevádzkovateľom), partnerom prevádzkovaný stack (T-Systems s Google, Bleu s Microsoftom vo Francúzsku) alebo neamerického poskytovateľa.

K tomu pristupuje DACH špecifikum: On-Premise v strednom segmente zriedka znamená server v kancelárii, ale zvyčajne dedikované prostredie v carrier-neutrálnom kolokačnom dátovom centre v Nemecku, Rakúsku alebo Švajčiarsku (Equinix Frankfurt, Interxion, Digital Realty Zürich, NTT Vienna). Skutočný bare-metal vo vlastníctve zákazníka zostáva relevantný pre veľké priemyselné skupiny, organizácie blízke obrane a BFSI zákazníkov s explicitným dohľadovým príkazom.

Šesť rozhodovacích kritérií

1. Citlivosť dát a compliance

Kmeňové zákaznícke dáta, dáta zamestnancov, zdravotnícke záznamy alebo exportne kontrolované IP posúvajú architektúru smerom k suverénnemu alebo on-premise. Popri GDPR a švajčiarskom FADP/revDSG (účinný od 1. septembra 2023) pôsobia odvetvové pravidlá: BaFin/FINMA pre BFSI, KRITIS/NIS2 pre kritickú infraštruktúru, TISAX pre automotive, ako aj DigiG a § 393 SGB V pre zdravotné dáta. Konkrétny, záväzný dátum: Od 1. júla 2025 je BSI C5 Typ 2 povinný pre cloudové spracovanie pacientskych dát. Niektoré služby hyperscalerov túto atestáciu ešte nedrží, čo treba pri obstarávaní preveriť. Táto poznámka nenahrádza právne poradenstvo.

2. Náklady: CapEx/OpEx, GPU oproti tokenu

Self-hosting pri trvalej záťaži je na token lacnejší, managed API sú lacnejšie pre špičkové, exploratívne workloady. Nečinné GPU je najdrahší CapEx. Architektonickými nákladovými poháňačmi on-premise sú odpis GPU serverov (typicky 3-4 roky), elektrina (DACH priemyselné tarify približne 0,18-0,35 EUR/kWh), chladenie (PUE 1,2-1,4 v moderných DACH dátových centrách), konektivita, prevádzka a softvérové licencie. Jediný 130-kW rack ťahá rádovo približne 1,1 GWh za rok pri plnej záťaži.

3. Latencia

Ko-lokalizovaná inferencia (engine v rovnakom regióne ako orchestrácia agentov) poskytuje jednociferné milisekundy sieťovej latencie. Transatlantické volania pridávajú približne 80-130 ms na jednu cestu plus TLS-handshake, a pri viacstupňových agentoch volajúcich tool sa to násobí. Pre sub-sekundové UX s viacerými kolami tool-call nie sú transatlantické volania praktické.

Cesta	Približná latencia (jedna cesta)
Azure Amsterdam ↔ Azure Frankfurt	8-12 ms
Azure Frankfurt ↔ Azure Zürich	10-15 ms
AWS Frankfurt ↔ AWS Zürich (eu-central-2)	8-15 ms
Frankfurt-agent → OpenAI API (US-Východ)	80-110 ms
Frankfurt-agent → Anthropic API (US-Východ)	85-120 ms
On-Prem-rack → používateľ na rovnakom kampuse	< 2 ms

4. Škálovanie

Managed API škálujú elasticky bez plánovania kapacity. Self-hosted stacky potrebujú predzásobenie: GPU-memory-math určuje hardvér. Model 70 B potrebuje pri BF16 približne 140 GB iba na váhy, pri FP8 približne 70 GB, pri AWQ-INT4 približne 35 GB. Pre nízku concurrency stačí 1x H200 (141 GB); pre produkčné batch-veľkosti sú typicky potrebné 2x H100 alebo 2x MI300X. Modely triedy 405 B vyžadujú multi-GPU tenzorovú paralelitu (napríklad 8x H200 alebo jeden GB200-NVL72 uzol). Modely s biliónmi parametrov ležia mimo takmer všetkých footprintov DACH stredného segmentu, tu vedie cesta cez managed API alebo suverénny GPU-bursting.

5. Prevádzková náročnosť a know-how

Prevádzka vLLM, SGLang, Triton alebo NVIDIA NIM v produkčnom škálovaní si vyžaduje hĺbku platform-engineeringu, ktorú väčšina DACH stredných firiem nemá in-house. Tím pohotovosti 24x7, ktorý ovláda NCCL-stally a režimy zlyhania GPU, je v DACH vzácny. Poznámka k voľbe inference-engine: Hugging Face previedol TGI 11. decembra 2025 do maintenance-režimu a odkazuje nové deploymenty na vLLM alebo SGLang (stav 2026).

6. Dostupnosť modelov

Managed API vyhrávajú, keď je kritická rôznorodosť modelov. Samotný Azure AI Foundry doplnil v roku 2025 okrem iného DeepSeek R1, GPT-4.1, Mistral Large 3, Claude Opus 4.5 a Llama 4. Suverénne API (IONOS AI Model Hub, Open Telekom Cloud AI Foundation Services, Swisscom Swiss AI Platform, Infomaniak) obsluhujú open-source modely ako Teuken-7B, Llama 3/4, Mistral, DeepSeek a otvorený švajčiarsky Apertus (EPFL/ETH/CSCS, zverejnený 2. septembra 2025). Kto potrebuje určitý model ako permisívny open weight, môže ho identicky prevádzkovať cez NIM- alebo OCI-kontajner naprieč cloudmi a on-premise.

Rozhodovacia matica: kritérium oproti prevádzkovému modelu

Kritérium	On-Premise	EU-Cloud (suverénny/región)	Hybrid
Citlivosť dát	Najvyššia trieda, IP-/regulačne kritická	Nízka až stredná (región) resp. vysoká (suverénny)	Citlivé zostáva lokálne, zvyšok v cloude
GDPR-suverenita	Maximálna, odolná voči CLOUD Act	Suverénny cloud: silná; hyperscaler-región: iba rezidencia	Suverénne jadro plus EU-generovanie
Nákladový profil	Vysoký CapEx, lacný pri vysokej trvalej záťaži	OpEx, lacný pri špičkovej záťaži	Zmiešaný, optimalizovateľný
Latencia	< 2 ms na kampuse	8-15 ms v rámci EU	Nízka pre lokálnu časť
Škálovanie	Vopred plánované, viazané na GPU	Elastické	Steady-state lokálne, špičky cez bursting
Prevádzková náročnosť	Vysoká, potrebný platform-tím	Nízka až stredná	Vysoká, dva svety na prevádzku
Dostupnosť modelov	Obmedzená (1-2 open modely)	Vysoká (frontier plus nika)	Frontier v cloude, open lokálne
Time-to-Value	6-18 mesiacov	Týždne	Stredne

Doplňujúca heuristika pre hĺbkové rozhodnutie: Managed posúva pri verejných/interných dátach, špičkovej záťaži, vysokej rôznorodosti modelov a chýbajúcom platform-tíme. Self-hosting posúva pri dôverných/regulovaných dátach, vysokej trvalej záťaži, tail-latencii pod 500 ms a prísnej suverenite.

Konkrétny príklad výpočtu: nákladový crossover

Pravidlo kolujúce v DACH platformových tímoch robí rozhodnutie uchopiteľným (stav 2026): Od trvalej inferenčnej záťaže približne 8-12 GPU ekvivalentných H100 sa self-hosting v suverénnom cloude alebo on-premise na token typicky stáva lacnejším než ekonomika managed API. Nad približne 30 ekvivalentmi H100 sa medzera rýchlo otvára.

Migrácia z managed API na self-hosting má zmysel, ak platia aspoň dve z nasledujúcich podmienok:

```text
AK mesačné výdavky na managed API > run-rate ~10 H100 v suverénnom cloude
ALEBO nový dohľadový príkaz (BaFin/FINMA/BSI) vyžaduje nepreukázateľnú kontrolu
ALEBO závislý model sa stane dostupným ako permisívny open weight (Llama, Mistral, Apertus)
ALEBO roadmapa vyžaduje fine-tuning, ktorý na managed API nie je možný
ALEBO legal-review identifikuje poskytovateľa ako koncentračné riziko (DORA)
POTOM (pri >= 2 splnených podmienkach) plánovať migráciu, ~6-9 mesiacov predstihu
```

Pod touto hranicou dominujú managed API na báze TCO. Konkrétne ceny tokenov a výpočet H100 oproti H200 oproti B200 patria do samostatnej FinOps analýzy.

Odporúčanie pre každý scenár

MSP (200-2 000 zamestnancov, zmiešaná citlivosť dát, M365-prostredie, žiadny ML-platform-tím): Hybridný model pokrýva skúsenostne cez 70 percent DACH greenfield projektov stredného segmentu. Odporúčanie: Azure West Europe alebo Germany West Central s Azure OpenAI v Data-Zone-EUR-deploymente, on-prem alebo kolokačná RAG-vrstva s vektorovou DB pre dôverné dokumenty, napojená cez ExpressRoute a Private Endpoint. Dôverné chunky nikdy neopustia Nemecko, iba už redigované snippety sa stanú súčasťou LLM-promptu. Vlastne hostovaná LiteLLM-gateway-vrstva riadi rozpočty a umožňuje fallback na EU-platformu ako Mistral La Plateforme. Nevhodné pre BFSI core-systémy, klasifikované IP alebo pacientske dáta po 1. júli 2025.

Regulované odvetvie (BFSI, healthcare, verejný sektor, blízke obrane, plná suverenita): suverénny cloud ako primárna cesta. Odporúčanie: STACKIT alebo Open Telekom Cloud / T Cloud Public so zmluvou s nemeckým právnym subjektom a prevádzkovateľskou kontrolou. LLM cez PhariaAI-as-a-Service na STACKIT alebo otvorené modely (Llama 3/4, Mistral, Teuken-7B, Apertus) cez vLLM/NIM na dedikovaných GPU-inštanciách. Vektorová DB (Weaviate, Qdrant, pgvector) v rovnakom suverénnom cloude, secrets v HashiCorp Vault s HSM-seal voči Utimaco-HSM, egress deny-by-default s allowlistom. Pre najvyššiu dátovú triedu voliteľne on-prem inferencia cez NVIDIA NIM na Red Hat OpenShift AI v zákazníckom DC. Reálny trade-off: ešte existujúca feature-medzera voči hyperscalerom, ktorú chce T-Systems uzavrieť do konca roka 2026 (prísľub z roadmapy).

Koncern (DAX 40, SMI 20, ATX prime, formálna cloud-exit-policy pod DORA/MaRisk/FINMA): Multi-cloud-rezilencia so suverénnym tierom. Primárny cloud (Azure Germany/EU) pre väčšinu, sekundárny cloud (AWS alebo Google) pre rezilenciu, model-API abstrahované cez AI-gateway. Prenositeľnosť modelov cez otvorené modely (Llama 4, Mistral, Apertus, Teuken) ako NIM-/OCI-kontajnery, ktoré bežia identicky naprieč všetkými cloudmi a on-premise. Voliteľný suverénny tier (STACKIT alebo T Cloud Public) pre najcitlivejšie workloady s dokumentovanými migračnými cestami. Najvyššia nákladová trieda, takmer nikdy nesedí strednému segmentu.

Poznámka pre Švajčiarsko: FADP/revDSG nie je GDPR a nesmie sa miešať. Sprísnenie švajčiarskeho dohľadu z novembra 2025 ("privatim") odporúča verejným inštitúciám medzinárodné SaaS pre citlivé dáta iba s end-to-end šifrovaním a kľúčmi držanými zákazníkom. Expozícia voči CLOUD Act zostáva pre amerických poskytovateľov aj pri švajčiarskej dátovej rezidencii.

Pre agentúry a B2B rozhodovateľov

Voľba medzi On-Premise, EU-Cloud a hybridom nie je čisto IT-otázka, ale obchodné a compliance rozhodnutie, ktoré padá včas v projekte a formuje architektúru, náklady a predajnú schopnosť na roky. Pre agentúry, ktoré budujú AI agentov pre DACH zákazníkov, je čisté oddelenie dátovej rezidencie a dátovej suverenity najsilnejším argumentom v diskusii o obstarávaní s nákupom a právnym oddelením.

Blck Alpaca sprevádza DACH B2B firmy od rozhodovacej matice až po produkčný stack s EU-dátovou rezidenciou a preukázateľnou suverenitou. V kompaktnom proof of concept objasníme na vašom reálnom use case dátové triedy, latenčný rozpočet, nákladový crossover a vhodný prevádzkový model, skôr než investujete do infraštruktúry. Oslovte nás pre B2B-PoC.

Často kladené otázky

Stačí Frankfurt-región hyperscalera pre GDPR-konformných AI Agents?

Pre mnohé neregulované workloady je EU-región plus EU Data Boundary obhájiteľný default. Poskytuje dátovú rezidenciu, teda fyzické miesto uloženia v EU. Neposkytuje však dátovú suverenitu v prísnom zmysle: Americká materská spoločnosť naďalej podlieha CLOUD Act (2018). V BFSI, healthcare a verejnom sektore tento default pravidelne stroskotáva na právnom posúdení. Tam je potrebný dedikovaný suverénny cloud, partnerom prevádzkovaný stack-model alebo neamerický poskytovateľ. Toto nie je právne poradenstvo.

Odkedy sa oplatí On-Premise oproti EU-Cloud API?

Pravidlo kolujúce v DACH platformových tímoch: Od trvalej inferenčnej záťaže približne 8-12 GPU ekvivalentných H100 sa self-hosting (suverénny cloud alebo on-premise) na token typicky stáva lacnejším než managed API, nad približne 30 ekvivalentmi H100 sa medzera rýchlo otvára (stav 2026). Pod touto hranicou dominujú managed API na báze TCO, najmä pri špičkových, exploratívnych záťažiach. Self-hosting však prináša 6-9 mesiacov engineeringového predstihu. Konkrétne čísla patria do samostatnej FinOps analýzy.

Aký je rozdiel medzi dátovou rezidenciou a dátovou suverenitou?

Dátová rezidencia je fyzické miesto, kde sa dáta ukladajú a spracúvajú, napríklad dátové centrum vo Frankfurte. Dátová suverenita je právna jurisdikcia, ktorá vládne nad dátami, vrátane extrateritoriálneho dosahu ako americký CLOUD Act z roku 2018. Suverénny cloud spĺňa oboje: prevádzkovateľ, infraštruktúra a právna kontrola ležia vo zvolenej jurisdikcii. Rezidencia je nutná, ale nie postačujúca podmienka pre suverenitu.

Ktorí suverénni EU-Cloud poskytovatelia sú vhodní pre AI Agents v DACH?

Pre Nemecko a Rakúsko sú STACKIT (Schwarz Digits, s DC v Rakúsku) a Open Telekom Cloud / T Cloud Public (Deutsche Telekom / T-Systems) centrálnymi možnosťami, obe s GPU ponukami a suverénnou prevádzkovateľskou kontrolou. IONOS prevádzkuje AI Model Hub s OpenAI-kompatibilným API. Pre Švajčiarsko sú relevantné Swisscom (Swiss AI Platform), Infomaniak (konformný s FADP a GDPR) a Exoscale. T-Systems chce uzavrieť feature-medzeru voči hyperscalerom do konca roka 2026 (prísľub z roadmapy, nie aktuálny stav).

Čo znamená On-Premise v DACH strednom segmente konkrétne?

V DACH strednom segmente On-Premise zvyčajne neznamená server vo vlastnej kancelárii, ale dedikované prostredie v nemeckom, rakúskom alebo švajčiarskom carrier-neutrálnom kolokačnom dátovom centre, napríklad Equinix Frankfurt, Interxion alebo NTT Vienna. Skutočný bare-metal vo vlastníctve zákazníka zostáva relevantný najmä pre veľké priemyselné skupiny s vlastnými dátovými centrami, organizácie blízke obrane a BFSI zákazníkov s explicitným dohľadovým príkazom.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky, alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.

Odoberať newsletter →Naše služby

NextNasadenie AI Agents na Kubernetes: architektúra, škálovanie a kedy sa K8s oplatí →