Preskočiť na obsah
10.3Expert10 min

Nasadenie AI Agents na Kubernetes: architektúra, škálovanie a kedy sa K8s oplatí

Blck Alpaca·
Definition

Nasadiť AI Agents na Kubernetes znamená prevádzkovať komponenty agentového systému – agent-service, tool- resp. MCP-server, vektorový store, inferenčný engine a message-queue – ako kontajnerizované workloady na K8s-clustri. Kubernetes poskytuje škálovanie, GPU-scheduling, prácu so stavom, správu secrets a observability pre produktívnu, EÚ-suverénnu prevádzku agentov.

Key Takeaways

  • Produktívny agentový systém na Kubernetes pozostáva z viacerých oddelených služieb: agent-orchestrator, tool-/MCP-server, inferenčný engine (vLLM, SGLang alebo NVIDIA NIM), vektorový store a message-queue pre asynchrónne úlohy.
  • Škálovanie prebieha pozdĺž dvoch osí: stateless agent-pody škálujú elasticky cez HPA, GPU-inferenčné pody sú cez node-selektory, taints/tolerations a NVIDIA Device-Plugin scheduleované na dedikované GPU-nody a z dôvodu nákladov zostávajú teplé namiesto elastického škálovania.
  • Agenti sú stateful: konverzačná pamäť a plány úloh patria do externého store (Redis, Postgres), nie do podu. Vektorový store beží ako StatefulSet s PersistentVolumes.
  • Kubernetes sa oplatí až pri vysokej, stálej záťaži (orientačné pravidlo: od približne 8–12 H100-ekvivalentnej trvalej inferencie) alebo pri prísnych požiadavkách na suverenitu/latenciu – pod touto hranicou sú managed API a serverless väčšinou lacnejšie a rýchlejšie nasaditeľné.
  • Suverenita nevzniká len cez región: frankfurtský región US-poskytovateľa poskytuje data-residency, nie suverenitu odolnú voči CLOUD Act. Pre prísne prípady treba suverénne cloudy (STACKIT, Open Telekom Cloud, Infomaniak, Exoscale) s managed Kubernetes.
  • Realisticky počítajte: vlastne prevádzkovaný GPU-cluster potrebuje 6–9 mesiacov predstihu a platformový tím, ktorý ovláda vLLM, GPU-scheduling a chybové scenáre NCCL v režime 24x7.

Nasadiť AI Agents na Kubernetes znamená prevádzkovať komponenty agentového systému – agent-service, tool- resp. MCP-server, vektorový store, inferenčný engine a message-queue – ako kontajnerizované workloady na K8s-clustri. Kubernetes poskytuje škálovanie, GPU-scheduling, prácu so stavom, správu secrets a observability pre produktívnu, EÚ-suverénnu prevádzku agentov. Je mocný, ale nie je samoúčelný – tento článok ukazuje architektúru, mechaniku škálovania a predovšetkým to, kedy sa námaha vôbec oplatí.

  • Architektúra: Rozložte agentový systém na oddelené služby – orchestrátor, tool-/MCP-server, inferenčný engine, vektorový store, queue – a prevádzkujte každú ako samostatný workload.
  • Škálovanie: Stateless agent-pody škálujú elasticky cez Horizontal Pod Autoscaler; GPU-inferenčné pody sú scheduleované na dedikované GPU-nody a z dôvodu nákladov zostávajú teplé.
  • Rozhodnutie: Kubernetes sa oplatí pri vysokej trvalej záťaži alebo prísnych požiadavkách na suverenitu/latenciu – pod touto hranicou sú managed API a serverless rýchlejšie nasaditeľné a lacnejšie.

Kontajnerová architektúra agentového systému

Produktívny KI-agent nie je monolit, ale zoskupenie mikroslužieb. Toto rozdelenie nie je samoúčelné, ale vyplýva z rôznych profilov škálovania, stavu a bezpečnosti jednotlivých komponentov.

Agent-service (orchestrátor)

Agent-service je mozog: vykonáva orchestračnú logiku, rozhoduje o tool-volaniach a plánuje kroky. Typicky sa stavia na frameworku ako LangGraph, CrewAI alebo AutoGen, alebo na vendor-platforme ako PhariaAI (Heidelberg) resp. Azure AI Foundry Agents. Architektonicky rozhodujúce: táto služba musí zostať stateless, aby ju Kubernetes mohol voľne škálovať, reštartovať a distribuovať cez viaceré replicy. Všetok stav sa presúva do externých stores.

Tool- a MCP-server

Model Context Protocol (MCP) sa etabloval ako štandardné rozhranie, cez ktoré agenti oslovujú externé nástroje a dátové zdroje. V DACH enterprise prostredí bežia MCP-servery väčšinou ako In-VPC služby, co-located s agent-runtime a pripojené cez mTLS – to je default vzor pre integrácie do SAP, Salesforce, ServiceNow, M365 a interných databáz. Pre továrenské alebo pobočkové scenáre sú MCP-servery nasadené na edge, blízko k dátam, a centrálna orchestrácia ich volá cez dedikované linky (ExpressRoute, Direct Connect). Pri regulovaných workloadoch platí: dedikované MCP-servery na business-unit s oddelenými audit-trailmi namiesto multi-tenant servera.

Inferenčný engine

Tu beží jazykový model. K roku 2026 je výber jasne vymedzený:

  • vLLM (pôvod UC Berkeley) je de-facto štandard pre produktívny self-hosting – PagedAttention, najširšia hardvérová podpora, OpenAI-kompatibilné endpointy.
  • SGLang (LMSYS) poskytuje podľa benchmarkov LMSYS približne o 29 percent vyšší throughput na modeloch 7B–8B na H100 a lepšiu tail-latenciu; ideálne pre multi-turn chat, RAG-náročné a štruktúrované workloady.
  • NVIDIA NIM balí vLLM/TensorRT-LLM/SGLang do predpripravených kontajnerov a je najpragmatickejšia on-prem cesta v DACH strednom segmente – viaže však na licenciu NVIDIA AI Enterprise.
  • TensorRT-LLM poskytuje špičkový throughput na NVIDIA hardvéri, je však NVIDIA-only a operačne náročný.

Dôležitá poznámka pre existujúce systémy: Hugging Face previedol TGI (Text Generation Inference) 11. decembra 2025 do maintenance režimu a nové nasadenia odkazuje na vLLM alebo SGLang. Kto dnes beží na TGI, nemusí panicky migrovať, no nové vývoje by už na ňom nemal stavať.

Vektorový store a message-queue

Vektorový store (Qdrant, Weaviate alebo pgvector) drží embeddingy pre RAG. Je klasickým kandidátom na StatefulSet s PersistentVolumes, pretože embeddingy plus originálne chunky dosahujú terabajtové veľkosti a potrebujú stabilnú identitu podu, ako aj perzistentné úložisko. Message-queue (napríklad RabbitMQ, NATS alebo Redis Streams) oddeľuje dlhotrvajúce, asynchrónne agentové úlohy – spracovanie dokumentov, batch-analýzy – od synchrónnej request-cesty a umožňuje worker-poole, ktoré škálujú nezávisle.

Mapovanie komponentov: čo patrí na ktorý K8s-resource

Nasledujúca tabuľka je hlavnou referenciou pre agentové nasadenie. Priraďuje každý komponent k vhodnému Kubernetes-resource a uvádza rozhodujúcu architektonickú poznámku.

Komponent

K8s-resource

Poznámka

Agent-service / orchestrátor

Deployment + HPA + Service

Držať stateless; škáluje elasticky cez CPU/custom-metriky

Tool-/MCP-server

Deployment (alebo DaemonSet na edge) + Service

mTLS cez service-mesh; jeden service-account na pár agent-tool

Inferenčný engine (vLLM/NIM)

Deployment s GPU-resource-limitom + Service

Node-selector/tolerations na GPU-nody; pody držať teplé, nie elasticky

Vektorový store (Qdrant/Weaviate)

StatefulSet + PersistentVolumeClaim

Perzistentné úložisko; príp. geo-replikácia pre failover

Message-queue + worker

StatefulSet (broker) + Deployment (worker)

Oddeľuje async úlohy; worker cez KEDA škálovať na hĺbku queue

Session-/konverzačný stav

Externý Redis / Cosmos (často managed)

Nie v pode; geo-replikácia podľa RPO

Secrets / tool-credentials

External Secrets + Vault / Cloud KMS

Žiadne statické kľúče v pode; HSM-seal pre BFSI

AI-gateway (LiteLLM/Portkey)

Deployment + Service + Ingress

Multi-provider failover, budgety, PII-redaction, centrálna egress-kontrola

Identita (pod → tool/model)

Workload Identity (IRSA / Managed Identity)

Token-exchange na krátkožijúce tokeny; žiadne credentials v kóde

Observability

Sidecar/agent + OpenTelemetry-collector

Traces, token-náklady, health; EÚ-rezidentný backend (napr. Langfuse self-hosted)

Škálovanie: HPA, GPU-scheduling a dve osi

Agentové stacky škálujú pozdĺž dvoch úplne odlišných osí, a to je najčastejší kameň úrazu.

Stateless os (CPU): Agent-service, MCP-server a AI-gateway sú lacné CPU-workloady. Škálujú elasticky cez Horizontal Pod Autoscaler (HPA) – pri záťažových špičkách pribúdajú replicy, pri nečinnosti sa odbúravajú. Pre queue-riadené workery sa hodí KEDA, ktorý škáluje podľa hĺbky queue namiesto len podľa CPU.

GPU os (inferencia): Tu platí iná logika. GPU-nody sa clustru sprístupnia cez NVIDIA Device-Plugin; pody si žiadajú GPU cez resource-limit nvidia.com/gpu. Pomocou node-selektorov, taints a tolerations sa inferenčné pody dostanú cielene na drahé GPU-nody, zatiaľ čo stateless-workloady zostávajú na CPU-nodoch. Zásadný rozdiel: GPU-kapacita zostáva väčšinou teplá namiesto elastickej, pretože nečinné GPU sú vôbec najdrahší capex. Skutočná elasticita cez cluster-autoscaler funguje len tam, kde cloud-provider dodáva GPU-nody dostatočne rýchlo – pri dedikovanej, alokáciou riadenej Blackwell-kapacite (B200/GB200) to neplatí.

Matematika GPU-pamäte určuje, koľko modelov sa zmestí na nod. Orientačné pravidlo pre váhy: parametre krát bajty na parameter. Model 70B potrebuje pri BF16 (2 bajty) približne 140 GB, pri FP8 približne 70 GB, pri AWQ-INT4 približne 35 GB – k tomu sa pridáva KV-cache, ktorá rastie s veľkosťou batchu a dĺžkou sekvencie (rádovo 10–40 GB v produktívnej prevádzke). Prakticky sa 70B pri BF16 zmestí pre nízku concurrency na jednu H200 (141 GB), no pre produktívne veľkosti batchu potrebuje typicky 2x H100 alebo tensor-paralelizmus cez viaceré GPU jedného nodu via NVLink.

Stav, pamäť a EÚ-región

Agenti sú na rozdiel od klasických web-appiek stateful – konverzačná pamäť, plány úloh a história tool-call musia prežiť, aj keď sa pod reštartuje alebo nastane region-failover. Architektonicky to znamená: session-state do regionálneho Redis alebo Cosmos DB s geo-replikáciou, dlhodobá pamäť a vektorový store replikované synchrónne alebo asynchrónne, podľa vyžadovaného RPO. Vektorový store je pritom výzvou bulk-dát, pretože embeddingy a chunky tvoria najväčšie objemy dát.

Pri téme EÚ-región a suverenita číha najdôležitejšia pasca: frankfurtský región US-hyperscalera poskytuje data-residency, nie suverenitu odolnú voči CLOUD Act – prevádzkovateľ zostáva US-právnickou osobou. Pre managed Kubernetes so skutočnou suverenitou prichádzajú do hry suverénne cloudy: Infomaniak (Ženeva/Zürich, plne švajčiarska kontrola, FADP plus GDPR) a Exoscale (Švajčiarsko, OpenStack, managed K8s) ponúkajú spravovaný Kubernetes bez hyperscaler-exposure; Swisscom má suverénny K8s-service založený na Kubermatic; STACKIT (Schwarz Digits, s dátovým centrom v Rakúsku) a Open Telekom Cloud stavajú na platformách založených na OpenStack s GPU-inštanciami. Pre workloady bez prísnej požiadavky na suverenitu zostáva managed Kubernetes hyperscalera (AKS/EKS/GKE) v EÚ-regióne pragmatickým defaultom – tak to rieši aj referenčná architektúra pre lean scale-upy.

Secrets, tool-prístup a observability

Agenti majú nezvyčajne veľký blast-radius: kompromitovaný agent môže volať mnoho tools. Preto platí ako best practice service-account na pár agent-tool namiesto zdieľaného účtu, just-in-time elevation pre citlivé operácie a audit-traily, ktoré cez token-exchange reťaz siahajú späť až k identite používateľa.

Konkrétne na Kubernetes:

  • Workload Identity namiesto statických credentials: Azure Managed Identity, AWS IRSA (IAM Roles for Service Accounts v EKS), GCP Workload Identity Federation – pri suverénnych cloudoch Keystone- resp. K8s-service-accounty. Cieľ je identický: žiadny kľúč v kóde, žiadny človek v credential-ceste.
  • Secrets-backbone: HashiCorp Vault je najrozšírenejšia secrets- a PKI-vrstva v DACH platformových stackoch; v BFSI a public sector s HSM-seal proti Utimaco- (Aachen) alebo Thales-HSM. External-Secrets pattern ich synchronizuje do K8s-secrets bez toho, aby ich ukladal v repo.
  • Egress-kontrola: V DACH-BFSI etablovaný vzor je deny-by-default s explicitným allowlistom FQDN modelových API, logovaný na gateway. To zabraňuje neúmyselnej dátovej exfiltrácii a núti všetok modelový traffic cez AI-gateway (LiteLLM, Portkey, Kong), kde sú rate-limity, PII-filtre a budgety.

Pre health a observability poskytuje Kubernetes základ: liveness- a readiness-probes na pod zabezpečujú, že traffic dostávajú len zdravé inferenčné pody – čo je pri dlhých časoch načítania modelu kritické (readiness-probe smie zozelenať až vtedy, keď je model načítaný). Nad tým prichádza tracing-vrstva cez OpenTelemetry, s token-presnou atribúciou nákladov a EÚ-rezidentným backendom ako Langfuse (self-hosted).

Kedy Kubernetes – a kedy nie

Tu úprimné varovanie o komplexnosti. Kubernetes s vlastne hostovanou GPU-inferenciou nie je víkendový projekt. Oplatí sa, ak platí aspoň jeden z týchto driverov:

  • Vysoká, stála záťaž: Orientačné pravidlo kolujúce v DACH platformových tímoch hovorí, že vlastne hostovaná inferencia sa od približne 8–12 H100-ekvivalentnej trvalej záťaže stáva na token lacnejšou než managed API – ale so 6–9 mesiacmi engineering predstihu. Pod touto hranicou dominujú TCO managed API.
  • Prísna latencia: Latenčné budgety pod 200–500 ms s viacerými kolami tool-call vyžadujú co-located inferenciu; transatlantické API-volania (Frankfurt → US-East: ~80–120 ms one-way) sú potom diskvalifikované.
  • Zmluvná suverenita: Keď právne oddelenie neakceptuje CLOUD Act-exposure alebo je záväzný BSI C5 Type 2.

Proti tomu hovoria managed API a serverless, keď je záťaž špičková (nečinné GPU sú najhorší capex), keď je potrebná vysoká modelová rozmanitosť (Azure Foundry sám doplnil v roku 2025 DeepSeek R1, GPT-4.1, Mistral Large 3, Claude Opus 4.5, Llama 4) alebo keď jednoducho nie je k dispozícii platformový tím. Prevádzku vLLM, GPU-scheduling a chybové scenáre NCCL v režime 24x7 ovláda in-house len málokto z DACH stredného segmentu – a práve tento nedostatok, nie technika samotná, je najčastejším dôvodom, prečo self-hosting projekty zlyhávajú.

Konkrétny príklad: lean-cluster pre B2B-agenta

Typický scale-up stack (vychádzajúci z referenčnej architektúry „Lean Cloud“) vyzerá takto:

```text
Managed Kubernetes (AKS/EKS v EÚ-regióne alebo Exoscale/Infomaniak suverénne)
├── Deployment: agent-orchestrator (LangGraph, 3 Replicas, HPA 2-10, CPU-nody)
├── Deployment: mcp-tools-sap (mTLS, 1 Service-Account na tool)
├── Deployment: ai-gateway-litellm (Failover: Azure OpenAI EU -> Mistral La Plateforme)
├── StatefulSet: qdrant (3 Replicas, PVC, vektorový store)
├── StatefulSet: redis (Session-State, geo-replikácia)
└── Worker-Deployment: doc-processor (KEDA, škáluje na hĺbku RabbitMQ-queue)
Inferencia modelu: Managed API (žiadny vlastný GPU-nod) -> cez gateway
```

Tu nebeží žiadne vlastné GPU – inferencia leží pri managed API v EÚ-geo, abstrahovaná cez gateway. To je zámerné: pri skromnej záťaži je pay-per-token lacnejší a nasaditeľný v týždňoch namiesto mesiacov. Až keď mesačný API-spend prekročí run-rate približne 10 H100-ekvivalentov v suverénnom cloude – alebo nová regulátorská požiadavka vyžaduje control, ktorý managed API nedokáže preukázať – oplatí sa migrácia na vlastné GPU-nody s vLLM alebo NIM na tom istom clustri. Práve na to je Kubernetes ideálny: architektúra zostáva rovnaká, len inferenčný komponent sa presúva z „managed API za gatewayom“ na „GPU-deployment v clustri“.

Pre agentúry a B2B-rozhodovateľov

Kubernetes je správny základ pre agentové systémy, ktoré majú dlhodobo rásť, zostať EÚ-suverénne alebo dodržiavať prísnu latenciu – ale vstup by mal takmer vždy prebiehať cez managed API a managed Kubernetes, s jasne zdokumentovaným migračným triggerom pre prechod na vlastnú GPU-inferenciu. Kto túto hranicu nedefinuje čisto, postaví buď príliš skoro drahý GPU-cluster, alebo príliš neskoro, keď sa API-účet už vymyká kontrole. Blck Alpaca sprevádza DACH-podniky a marketingové agentúry presne pri tomto architektonickom rozhodnutí – od make-buy-rent hodnotenia na komponent až po suverénny, observability-schopný cluster-design. Ozvite sa nám, skôr než sa objedná prvá GPU.

Často kladené otázky

Kedy má Kubernetes pre AI Agents zmysel – a kedy nie?
Kubernetes sa oplatí, ak prevádzkujete vlastne hostovanú inferenciu s vysokou, stálou záťažou (orientačné pravidlo: od približne 8–12 H100-ekvivalentnej trvalej záťaže sa self-hosting na token stáva lacnejším než managed API), ak sú vyžadované latenčné budgety pod 200–500 ms s viacerými kolami tool-call, alebo ak je zmluvne potrebná prísna suverenita (odolná voči CLOUD Act, BSI C5 Type 2). Pri špičkovej, málo citlivej záťaži alebo chýbajúcom platformovom tíme sú managed API (Azure OpenAI Data Zone EUR, Bedrock EU, Mistral La Plateforme) a serverless rýchlejšie nasaditeľné a lacnejšie – pre vlastný GPU-cluster počítajte s 6–9 mesiacmi predstihu.
Aký inferenčný engine by sa mal v roku 2026 nasadiť na Kubernetes?
vLLM je k roku 2026 de-facto štandardom pre produktívne self-hosting nasadenia: PagedAttention, široká hardvérová podpora, OpenAI-kompatibilné endpointy. SGLang poskytuje podľa benchmarkov LMSYS približne o 29 percent vyšší throughput na modeloch 7B–8B na H100 a hodí sa pre multi-turn chat a štruktúrované výstupy. NVIDIA NIM je najpragmatickejšia on-prem cesta v DACH strednom segmente (predpripravené kontajnery, rýchle nasadenie), viaže však na licenciu NVIDIA AI Enterprise. TGI od Hugging Face je od 11. decembra 2025 v maintenance režime – pre nové nasadenia sa odkazuje na vLLM alebo SGLang.
Ako sa na Kubernetes spravuje stav a pamäť agentov?
Agent-pody musia zostať stateless, aby ich HPA mohol voľne škálovať a reštartovať. Konverzačná pamäť, plány úloh a história tool-call patria do externého store – typicky Redis (session-state) a Postgres (perzistentné konverzácie), pri cross-region failovere s geo-replikáciou. Vektorový store (Qdrant, Weaviate, pgvector) beží ako StatefulSet s PersistentVolumeClaims, pretože embeddingy a originálne chunky môžu dosahovať terabajtové veľkosti a potrebujú stabilnú identitu.
Ako agenti na Kubernetes získajú bezpečný prístup k secrets a tools?
Statické credentials v pode alebo v premenných prostredia sú tabu. Workload Identity (Azure Managed Identity, AWS IRSA, GCP Workload Identity Federation, pri suverénnych cloudoch Keystone- resp. K8s-service-accounty) viaže identitu na pod bez distribúcie kľúčov. Secrets dodáva HashiCorp Vault, v regulovaných prípadoch s HSM-seal proti Utimaco- alebo Thales-HSM. Best practice je service-account na pár agent-tool namiesto zdieľaného účtu, pretože kompromitovaný agent má veľký blast-radius.
Ako prebieha GPU-scheduling pre inferenčné pody?
GPU-nody sa clustru sprístupnia cez NVIDIA Device-Plugin; pody si žiadajú GPU cez resource-limit (nvidia.com/gpu). Pomocou node-selektorov, taints a tolerations sa inferenčné pody dostanú cielene na drahé GPU-nody, zatiaľ čo stateless agent-pody bežia na lacných CPU-nodoch. Dôležité: GPU nie je ľubovoľne deliteľná – model 70B potrebuje podľa kvantizácie približne 140 GB (BF16), 70 GB (FP8) alebo 35 GB (INT4) len pre váhy, plus KV-cache. GPU-poole zostávajú väčšinou teplé namiesto elastického škálovania, pretože nečinné GPU sú najdrahší capex.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.