Pillar 23

Budovanie infraštruktúry AI Agentov

Ako vybudovať produkčnú infraštruktúru AI Agentov: frameworky, RAG, MCP, orchestrácia, monitoring a bezpečnosť.

Pre: DevOps inžinieri, platformové tímy, CTO

Definition

AI-Agent-infraštruktúra zahŕňa celý technický a organizačný základ, na ktorom sú prevádzkované produkčné AI Agenty: topológiu nasadenia (Cloud, On-Prem, Hybrid resp. EÚ-suverénnu), inferenčný a orchestračný stack, sieťovú a identitnú vrstvu, monitoring/observability, ako aj riadenie nákladov a security. Pre DACH-organizácie je to bod, v ktorom sa rozhoduje o dátovej suverenite, latencii, compliance (GDPR, BSI C5, EU AI Act) a o skutočných prevádzkových nákladoch. Na rozdiel od čistého chatbota infraštruktúra určuje, či je Agent regulačne odolný, latenčne schopný a ekonomicky únosný.

Na prvý pohľad

✓„Frankfurt-Region" sa nerovná „suverénny": EÚ-región US-hyperscalera poskytuje Data Residency, nie Data Sovereignty, materská spoločnosť zostáva podriadená US CLOUD Act (2018). Skutočná suverenita si vyžaduje dedikované Sovereign Clouds, partnerské stacky (napr. T-Systems x Google) alebo nie-US poskytovateľov.
✓Hybrid je dominantný DACH-vzor: Citlivé dokumenty, embeddings a Vector-Store zostávajú on-prem alebo v Sovereign Cloud, len krok generovania volá Hyperscaler-API cez egress-kontrolovaný proxy.
✓EÚ-suverénny trh v rokoch 2025/2026 výrazne dozrel: Microsoft uzavrel EU Data Boundary 26.2.2025, AWS spúšťa European Sovereign Cloud v Brandenbursku (investícia 7,8 mld. EUR, nemecká právnická osoba) a DACH-natívni poskytovatelia ako STACKIT, Open Telekom Cloud/T Cloud, IONOS, Swisscom a Infomaniak ponúkajú konkrétne alternatívy.
✓Pri inferencii sa stack posunul: Hugging Face presunul TGI 11.12.2025 do maintenance-módu a odporúča vLLM alebo SGLang; vLLM je v roku 2026 de facto štandardom pre self-hosted produkciu, NIM najpragmatickejšou On-Prem cestou v stredných podnikoch.
✓Nákladový faktor token-ekonomika: Agentic Workflows znásobujú spotrebu tokenov na jednu požiadavku 5- až 50-násobne (Planner, Tool-Calls, kritika, verifikácia); API-tokeny tvoria pri škálovaní typicky menej než polovicu celkového TCO.
✓Caching je najväčšia FinOps-páka v roku 2026: Anthropic dáva 90 % zľavu na Cache-Reads, OpenAI účtuje Cached Input ako 10 % základnej ceny; dobre inštrumentovaný FinOps-program (Caching, Routing, Batch, Open-Weight-Fallback, Eval-riadený výber modelu) znižuje náklady oproti neoptimalizovanému stavu o 60–80 %.
✓Security-baseline pre Agenty: mTLS medzi komponentmi, OIDC/SAML-federácia, Workload Identity (žiadne statické credentials), HYOK proti zákazníckym HSM (Utimaco, Thales) a deny-by-default egress s allowlistom, zvýšený blast radius Agenta vyžaduje samostatný service-account pre každý pár (Agent x Tool).
✓DACH-špecifická prirážka: Suverénny hosting stojí približne 1,5–3x ceny US-cloudu, EÚ-regióny si pri OpenAI a Anthropic vyžadujú 10 % uplift a Compliance-Ops plus spolurozhodovanie zamestnancov ženú celkové náklady oproti porovnateľnému US-workloadu o 15–35 % vyššie; od 1.7.2025 je BSI-C5-Type-2-atestácia pre cloudové spracovanie pacientskych dát povinná.

Čo je AI-Agent-infraštruktúra, a prečo rozhoduje o úspechu alebo zlyhaní

AI-Agent-infraštruktúra je súhrn všetkých technických a organizačných stavebných prvkov, na ktorých bežia produkčné AI Agenty: topológia nasadenia (kde a pod akou právnou suverenitou je Agent prevádzkovaný), inferenčný a orchestračný stack, sieťová a identitná vrstva, monitoring/observability, ako aj riadenie nákladov a security. Na rozdiel od jednoduchého chatbota je Agent viacstupňový systém využívajúci nástroje, ktorý generuje East-West-traffic medzi orchestrátorom, Tool-servermi, Memory- a Vektor-Store, a tým kladie úplne iné nároky na sieť, identitu a pozorovateľnosť.

Pre DACH-rozhodovateľov je infraštruktúra bodom, v ktorom sa rozhoduje o dátovej suverenite, latencii a compliance. Najprv pojmové ujasnenie, pretože ide o najčastejšiu zámenu v DACH-projektoch: Data Residency označuje fyzické miesto uloženia/spracovania, Data Sovereignty právnu jurisdikciu vrátane extrateritoriálneho dosahu (napríklad US CLOUD Act z roku 2018). „Frankfurt-Region\" US-hyperscalera poskytuje Residency, nie Sovereignty. V jazyku DACH-stredných podnikov navyše „On-Prem\" zvyčajne neznamená vlastnú serverovňu, ale dedikované prostredie v nemeckom/rakúskom/švajčiarskom carrier-neutrálnom kolokačnom dátovom centre.

Cloud vs. On-Prem vs. Hybrid: otázka EÚ-suverénnej topológie

Topológia zriedka vychádza z jedinej možnosti, väčšina produkčných stackov zahŕňa minimálne dve. Voľbu určuje päť faktorov, zhruba v tomto poradí dôležitosti: citlivosť dát/regulačná trieda, latenčné SLO, požiadavka na suverenitu, predvídateľnosť nákladov a existujúce in-house platformové know-how.

Topológia	Pozícia suverenity	Typické DACH-nasadenie
Public Cloud (Hyperscaler EÚ-región)	Residency áno, Sovereignty nie (CLOUD Act zostáva)	Greenfield, nízka citlivosť dát
Sovereign Cloud (Hyperscaler-suverénny + DACH-natívny)	CLOUD-Act-rezistentný podľa modelu	BFSI, Public Sector, regulované odvetvia
Private Cloud (managed/self-managed)	„Azure-like bez Azure-jurisdikcie\"	Stredné podniky s Managed-Services-partnerom
On-Prem / Colocation	Plná audítorská suverenita	Priemysel, blízko k Defense, BFSI s nariadením regulátora
Hybrid	Dátová gravitácia oddelene riaditeľná	Dominantný DACH-vzor

EÚ-suverénny trh v rokoch 2025/2026 výrazne dozrel. Microsoft uzavrel EU Data Boundary 26. februára 2025 a zaviazal sa udržiavať end-to-end-AI-spracovanie dát pre EÚ-zákazníkov v rámci tejto hranice, pokiaľ zákazník neurčí inak. AWS spúšťa svoju European Sovereign Cloud s prvým regiónom v Brandenbursku (oznámené koncom roka 2025, investícia 7,8 mld. EUR, prevádzkovaná nemeckou právnickou osobou s občanom EÚ ako konateľom; pri spustení približne 90 z viac než 240 služieb, AWS-whitepaper, september 2025).

Popri tom stojí samostatná DACH-natívna kategória, ktorá v generickej anglojazyčnej Enterprise-AI-literatúre väčšinou chýba: STACKIT (Schwarz Digits, s dátovým centrom aj v Rakúsku; oznámených 11 mld. EUR na rozšírenie AI-DC, cieľom je až 100 000 GPU), Open Telekom Cloud / T Cloud Public (Deutsche Telekom/T-Systems, „Sovereignty by Design\", spoločne s NVIDIA Munich Industrial AI Cloud s až 10 000 Blackwell-GPU od Q1 2026), IONOS (AI Model Hub s Teuken-7B a Llama 3.3, prvá Legal AI Factory s Noxtua), Swisscom (Swiss AI Platform, deployment-partner pre otvorený švajčiarsky LLM Apertus) a Infomaniak (plne švajčiarsky kontrolovaný, v súlade s FADP a GDPR). T-Systems verejne prisľúbil, že do konca roka 2026 uzavrie medzeru vo funkciách voči hyperscalerom, čítať ako roadmapový prísľub, nie ako dnešný stav.

Dominantným DACH-vzorom zostáva Hybrid: Citlivé dokumenty, embeddings a Vector-Store zostávajú on-prem alebo v Sovereign Cloud, len krok generovania volá Hyperscaler-API, často cez egress-kontrolovaný proxy. Doplnkovo sa etablujú Confidential-Computing-vzory (model v EÚ-regióne, zákazník drží kľúče cez HYOK) a Cloud-Bursting pre špičkové záťaže k GPU-špecialistom.

Orchestrácia a inferenčný stack

Inferenčný stack je najvolatilnejšia vrstva. Výrazný signál odvetvia: Hugging Face presunul TGI 11. decembra 2025 do maintenance-módu a nové deploymenty odkazuje na vLLM alebo SGLang. Pre self-hosted produkciu je vLLM (PagedAttention, najširšia hardvérová podpora, OpenAI-kompatibilné endpointy) v roku 2026 de facto štandardom; SGLang boduje pri Multi-Turn-Chat a štruktúrovanom výstupe (podľa reportu približne 29 % vyšší priepustný výkon na 7B–8B-modeloch na H100). NVIDIA NIM, predpripravené, optimalizované mikroslužby, prenosné cez Cloud, dátové centrum a RTX-workstationy, sa považuje za najpragmatickejšiu On-Prem cestu v DACH-stredných podnikoch.

Nad inferenčným enginom sa AI-Gateway etablovala ako samostatný architektonický komponent. Preberá Multi-Provider-Failover, virtuálne kľúče, tímové rozpočty, observability, Guardrails a PII-redakciu. Praktický shortlist: LiteLLM (Open Source, self-hosted, OpenAI-kompatibilný pre 100+ providerov, ideálne, keď záleží na audítorskej suverenite), Portkey (managed a on-prem, silná observability a governance) a Kong AI Gateway (keď je Kong aj tak štandardom). Na úrovni orchestrácie sa rozsah pohybuje od frameworkov ako LangGraph/CrewAI/AutoGen až po vendor-stacky ako Microsoft Foundry Agents alebo suverénnu Pharia-platformu (Aleph Alpha, od v apríli 2026 referovaného spojenia s Cohere súčasť kombinovanej jednotky s ocenením cca 20 mld. USD; názvy produktov k dátumu zverejnenia overiť).

Architektonicky centrálna je latencia: Ko-lokalizovaná inferencia dosahuje jednociferné milisekundy, transatlantické volanie (Frankfurt-Agent k US-východnej API) pridáva podľa reportu približne 80–130 ms jednosmernej trasy. Pri viacerých kolách Tool-Call sa to znásobuje, pre subsekundovú Agent-UX nie sú transatlantické API-Calls realizovateľné.

Monitoring a observability

Agentic Workloads nie sú bez observability produkčne riaditeľné. Vyžadujú sa Trace-štandardy (OpenTelemetry pre LLM, OpenInference), token-presná atribúcia nákladov, ako aj Eval-Harnesses. DACH-residency-konformné backendy sú dostupné, Langfuse self-hosted v EÚ (podľa FinOps-reportu už na VPS za ~50 EUR/mesiac), Datadog EU alebo Honeycomb EU. Nákladovo leží observability typicky na úrovni 2–8 % celkového TCO, od prakticky nuly (Helicone-Free, self-hosted Langfuse) až po 5 000–50 000 EUR/mesiac za Datadog LLM Observability na koncernovej úrovni.

Dva body sú regulačne relevantné (informačné, nie právne poradenstvo): Po prvé, EU AI Act vyžaduje pre systémy klasifikované ako vysokorizikové podľa čl. 12 Event-Logging vstupov, výstupov a rozhodnutí s auditovateľnou granularitou, infraštruktúrne náklady na to report vyčísľuje na 100 000–500 000 EUR koncernovej implementácie plus priebežné náklady na úložisko. Po druhé, verzie modelov by mali byť zapinnuté a opatrené dokumentovaným rollback-plánom, keďže Managed-API menia svoje verzie podľa harmonogramu poskytovateľa.

Náklady, FinOps a token-ekonomika

Rok 2026 je prvým rokom, v ktorom AI-Agent-Workloads vyžadujú skutočnú FinOps-disciplínu. Stretávajú sa dva štrukturálne zlomy: Agentic Workflows znásobujú spotrebu tokenov na jednu požiadavku 5- až 50-násobne (Planner, Tool-Call, kritika, revízia, verifikácia) a cenový rebríček sa rozštiepil, vstupná trieda (Haiku/Mini/Flash) klesla od roku 2023 10- až 100-násobne, zatiaľ čo Frontier-trieda zotrváva na približne 5/25–30 USD za milión tokenov. Dôsledok: Cenníková cena už nekoreluje s mesačným účtom, medzera medzi Vendor-List-Price a produkčným TCO je typicky 2- až 10-násobná.

Rozhodujúce je: API-tokeny tvoria pri škálovaní väčšinou menej než polovicu celkového TCO. Priame náklady na model predstavujú 30–50 %, k tomu pribúdajú Tool-Use-kaskády (+50 % až +200 % na priamu API-líniu), Sub-Agent-Fan-out (3- až 10-násobný multiplikátor), Compute/Sandbox (10–25 %), Vektor-DB/Embedding (5–15 %), observability (2–8 %), Compliance/Governance (5–20 %) a Operations-práca (10–30 %).

Najúčinnejšie páky ležia pod API-líniou:

Caching je najväčšia jednotlivá páka. Anthropic dáva 90 % zľavu na Cache-Reads (Cached Input pri Sonnet 4.6: 0,30 namiesto 3,00 USD/M), OpenAI účtuje Cached Input ako 10 % základnej ceny. Pri 80 % Cache-Hit-Rate klesajú vstupné náklady o 70–80 %.
Model-Routing: lacný model pre jednoduché, drahý len pre komplexné úlohy. Anthropicov Advisor-Tool-benchmark (Sonnet + Opus-Advisor) dosiahol 74,8 % na SWE-bench Multilingual pri 11,9 % nižších nákladoch než Opus samostatne.
Batch-API: paušálne 50 % zľava pri 24-hodinovom SLA, stohovateľné s Cachingom.
Open-Weight-Fallback pre Long-Tail-Workloads (DeepSeek V4 Flash, Mistral Ministral, Qwen 3), v súlade s GDPR len cez EÚ-hostované cesty (Together AI EU, DeepInfra Frankfurt, STACKIT/OVHcloud), nie cez Čínou hostované priame API.

Stohované poskytuje dobre inštrumentovaný FinOps-program 60–80 % zníženie nákladov oproti neoptimalizovanej východiskovej hodnote. DACH-realita navyše predražuje: EÚ-regióny si pri OpenAI a Anthropic vyžadujú 10 % uplift, suverénny hosting stojí približne 1,5- až 3-násobok ceny US-cloudu (SAP Joule AI Units cca 1,5–2x) a Compliance-Ops plus spolurozhodovanie zamestnancov ženú celkové TCO oproti porovnateľnému US-workloadu o 15–35 % vyššie. Na jedného vendora pripadá 5 000–20 000 EUR/rok priebežných nákladov na AVV-/Sub-Processor; čísla Bitkom 2026 podporujú tlak na suverenitu: 68 % Nemcov považuje Nemecko za príliš závislé od USA a Číny v oblasti AI, 60 % si želá menšiu závislosť od US-AI-poskytovateľov.

Security a identita

Správa identít a kľúčov je páka, ktorá z nie-suverénneho Hyperscaler-regiónu robí niečo obhájiteľné pod DACH-compliance (informačné, nie právne poradenstvo; detailné spracovanie GDPR/AVV patrí do sesterských tém). Architektonická baseline:

mTLS medzi všetkými Agent-komponentmi, tiež typický dôkaz pri BSI-C5- a ISO-27001-auditoch.
OIDC/SAML-federácia pre Enterprise-SSO (Entra ID, Okta, KeyCloak); Agent vymieňa používateľský token za krátkožijúce tokeny pre Tool-Calls.
Workload Identity (Azure Managed Identity, AWS IRSA, GCP Workload Identity Federation, v Sovereign Clouds OpenStack Keystone / K8s-Service-Accounts), žiadne statické credentials v kóde.
KMS/HSM s BYOK/HYOK: Pri BYOK prevádzkuje kľúč naďalej provider; pri HYOK volá Cloud zákaznícky HSM (Utimaco/Aachen, Thales) pre každú krypto-operáciu, najsilnejšie tvrdenie o suverenite, ktoré podľa reportu prejde tak právnym preskúmaním, ako aj BSI-C5-/TISAX-auditom.

Agent má nezvyčajne vysoký blast radius, pretože môže volať mnoho nástrojov. Best Practice: jeden service-account pre každý pár (Agent x Tool) (nie zdieľaný účet), Just-in-Time-Elevation, všetky credentials z Vault alebo KMS namiesto z premenných prostredia a Audit-Trail, ktorý sa cez Token-Exchange-reťazec viaže späť na používateľskú identitu. Na strane siete sa presadil deny-by-default egress s explicitným allowlistom FQDN modelových API, zabraňuje nechcenému úniku dát, poskytuje audítorskú evidenciu a núti všetok modelový traffic cez Gateway, kde sedia Rate-Limits, PII-filtre a rozpočty.

DACH-compliance-poznámky a výhľad

Niekoľko DACH-špecifických pravidiel ženie reálne architektonické rozhodnutia (informačné, nie právne poradenstvo): Od 1. júla 2025 je BSI-C5-Type-2-atestácia pre cloudové spracovanie pacientskych dát povinná (DigiG / § 393 SGB V). Švajčiarsko nesleduje GDPR, ale FADP/revDSG (v účinnosti od 1. septembra 2023); v novembri 2025 referované sprísnenie „privatim\" odporúča pre citlivé dáta medzinárodný SaaS len s end-to-end-šifrovaním a zákazníckymi kľúčmi. EU AI Act sa rozbieha postupne (zákazy od februára 2025, GPAI-pravidlá od augusta 2025, vysokorizikové od augusta 2026); konkrétne termíny treba overovať v závislosti od poskytovateľa a zaradenia a sčasti sú ešte v pohybe.

Praktická poznámka: Nezačínajte obstarávacou otázkou „Cloud alebo On-Prem?\", ale klasifikáciou dát a latenčným SLO, tie determinujú topológiu. AI-Gateway, deny-by-default egress a Eval-riadený výber modelu zabudujte od prvého dňa, pretože práve tieto „pilotné medzery\" sa typicky lámu pri produkčnom štarte. Pre stredné podniky je M365-zakotvený Hybrid s EÚ-dátovou zónou a malou On-Prem-RAG-vrstvou pragmatickým defaultom; pre regulované odvetvia vedie cesta cez STACKIT/Open Telekom Cloud s HYOK a suverénnou inferenciou. Keďže Sovereign-Cloud-roadmapy sa posúvajú kvartálne, každé architektonické rozhodnutie by malo byť opatrené dátumovou pečiatkou („Stav: ...\") a dokumentovaným migračným triggerom.

Všetky články v tejto téme

5 Články

10.2

On-Premise vs. EU-Cloud pre AI Agents: Rozhodovacia matica pre DACH

On-Premise vs. EU-Cloud pre AI Agents opisuje voľbu prevádzkového modelu pre produkčných AI agentov: dedikovaný vlastný hardvér v nemeckom, rakúskom alebo švajčiarskom dátovom centre (On-Premise), suverénni EU-Cloud poskytovatelia alebo hybridná kombinácia. Rozhodujúce sú citlivosť dát, GDPR-suverenita, náklady, latencia, škálovanie a existujúce prevádzkové know-how.

Pokročilý·7 min

10.3

Nasadenie AI Agents na Kubernetes: architektúra, škálovanie a kedy sa K8s oplatí

Nasadiť AI Agents na Kubernetes znamená prevádzkovať komponenty agentového systému, agent-service, tool- resp. MCP-server, vektorový store, inferenčný engine a message-queue, ako kontajnerizované workloady na K8s-clustri. Kubernetes poskytuje škálovanie, GPU-scheduling, prácu so stavom, správu secrets a observability pre produktívnu, EÚ-suverénnu prevádzku agentov.

Expert·10 min

10.4

Observability pre AI agentov: tracing, metriky, logy a evals

AI Agent Observability zviditeľňuje vnútorné fungovanie autonómneho agenta: prostredníctvom tracingu (spany cez reasoning- a tool-cally), metrík (latencia, tokeny, náklady, miera úspešnosti), štruktúrovaných logov a kontinuálnych evals. Odpovedá na otázku, prečo sa agent takto rozhodol, a je predpokladom toho, aby sa multi-step agenti v produkcii vôbec dali debugovať, zabezpečiť a auditovať.

Pokročilý·8 min

10.5

Token-Economics: Ako naozaj vznikajú náklady na AI agentov

Token-Economics pri AI agentoch označuje nákladovú mechaniku, pri ktorej sa každý beh agenta účtuje podľa spotrebovaných tokenov: input, output, cached a reasoning tokeny. Na rozdiel od chatbota agenti znásobujú spotrebu cez multi-step slučky, tool-cally a sub-agentov - cenníková cena sa odchyľuje 2- až 10-násobne od reálnych produkčných nákladov.

Pokročilý·7 min

10.6

Evaluácia AI agentov: Ktoré metriky sú rozhodujúce

Evaluácia AI agentov meria, či AI agent spoľahlivo rieši zamýšľanú úlohu. Kľúčovými metrikami sú task-success-rate, korektnosť trajektórie a tool-call, groundedness resp. miera halucinácií, latencia, náklady a miera HITL eskalácie. Meria sa offline voči eval datasetu a online v produkčnej prevádzke.

Pokročilý·7 min