Token-Economics: Ako naozaj vznikajú náklady na AI agentov
Token-Economics pri AI agentoch označuje nákladovú mechaniku, pri ktorej sa každý beh agenta účtuje podľa spotrebovaných tokenov: input, output, cached a reasoning tokeny. Na rozdiel od chatbota agenti znásobujú spotrebu cez multi-step slučky, tool-cally a sub-agentov - cenníková cena sa odchyľuje 2- až 10-násobne od reálnych produkčných nákladov.
Key Takeaways
- ✓Jediný beh agenta vytvára v roku 2026 typicky 5 až 20 LLM volaní (planner, tool-call, vyhodnotenie, verifikácia) - kaskády sub-agentov spotrebu tokenov navyše znásobujú 3- až 10-násobne.
- ✓Štyri druhy tokenov ženú účet hore: input, output (drahší), cached-input (pri Anthropic o 90 percent lacnejší) a reasoning tokeny (účtujú sa v sadzbe output).
- ✓API tokeny sú zriedka viac než 30 až 50 percent celkových nákladov (TCO) - vector store, observability, compute, retries a compliance tvoria zvyšok.
- ✓Prompt-caching je najväčšia FinOps páka roku 2026: 60 až 90 percentná úspešnosť cache (cache hit rate) znižuje input náklady o 70 až 80 percent.
- ✓Eval-riadené model-routing (malý model ako default, veľký len pri merateľnej medzere) ušetrí 30 až 60 percent bez straty kvality.
- ✓Všetky ceny k roku 2026 sú volatilné - rozpočtové guardraily ako token-capy na workflow sú povinnosťou, nie nadštandardom.
Token-Economics pri AI agentoch označuje nákladovú mechaniku, pri ktorej sa každý beh agenta účtuje podľa spotrebovaných tokenov: input, output, cached a reasoning tokeny. Na rozdiel od chatbota agenti znásobujú spotrebu cez multi-step slučky, tool-cally a sub-agentov. Cenníková cena sa tým typicky odchyľuje 2- až 10-násobne od reálnych produkčných nákladov. Kto plánuje rozpočet na agentov, musí túto mechaniku pochopiť, inak si vykalkuluje polovicu účtu preč.
- Tokeny sú zúčtovacia jednotka, nie požiadavky. Jedna požiadavka používateľa na agenta vytvára k roku 2026 typicky 5 až 20 LLM volaní - každé z nich stojí znovu.
- Output a reasoning sú drahé, cached-input je lacný. Output stojí zvyčajne 3- až 5-násobok inputu; znovupoužitý kontext (cache) pri Anthropic len 10 percent.
- API tokeny sú zriedka viac než 30 až 50 percent celkových nákladov. Vector store, observability, compute, retries a compliance ženú zvyšok.
Štyri druhy tokenov a ako sa účtujú
Každé LLM volanie sa rozpadá na rôzne spoplatnené tokenové buckety. Kto vidí len output, systematicky podceňuje input - lebo agent vlečie systémový prompt, definície toolov a rastúci kontext pri každom kroku znovu so sebou.
- Input tokeny zahŕňajú všetko, čo ide do modelu: systémový prompt, definície toolov, načítaný RAG kontext, priebeh konverzácie a samotnú požiadavku. Workflow s piatimi definovanými toolmi po 150 tokenoch pridáva samotné 750 input tokenov ku každému requestu.
- Output tokeny sú vygenerovaná odpoveď. Stoja pravidelne tri- až päťnásobok inputu. Pri Claude Sonnet je sadzba k roku 2026 na úrovni 3 USD input proti 15 USD output za milión tokenov - faktor päť.
- Cached-input tokeny sú znovupoužitý, stabilný kontext. Anthropic číta cache za 0,1-násobok základnej ceny (90 percentná zľava), OpenAI v rodine GPT-5.x za okolo 10 percent základnej ceny. To je nákladovo najúčinnejšia páka, ktorá bola od začiatku účtovania podľa spotreby zavedená.
- Reasoning tokeny vznikajú pri internom premýšľaní reasoning modelov. K roku 2026 sa pri OpenAI a Anthropic jednoducho účtujú v sadzbe output. Praktický dôsledok: volanie s 20 000 reasoning tokenmi stojí pri 25 USD/mil. output okolo 0,50 USD len za premýšľanie - skôr, než je vygenerované jediné viditeľné slovo.
Multiplikátor: prečo agenti spôsobujú explóziu spotreby
Rozhodujúci rozdiel oproti chatbotu nie je cena tokenu, ale počet volaní. Jediná požiadavka používateľa, ktorá bola v roku 2023 ešte jedným model-callom, sa v roku 2026 rutinne prekladá do reťazca: planner, výber toolu, interpretácia výsledku toolu, rozhodnutie o ďalšom kroku, formátovanie outputu, často s explicitnými verifikačnými slučkami. To je 5 až 20 volaní. Kaskády sub-agentov to príležitostne ženú na 50 a viac.
Naskladajú sa tri multiplikátory:
- Multi-step vykonávanie pridáva +50 až +200 percent na priamu API líniu. Každý tool-call je samostatné completion volanie s vlastným kontextom.
- Sub-agent fan-out znásobuje spotrebu tokenov 3- až 10-násobne oproti jednotlivým agentom. Každý sub-agent je samostatné completion s vlastným kontextovým oknom a vlastnými definíciami toolov.
- Zlyhanie a retry pridávajú 1,3- až 3-násobok pri slabej verifikácii. Agentické workflowy, ktoré zlyhajú a štartujú nanovo, spaľujú tokeny na ceste tam.
K tomu pristupuje rast kontextu: s každým krokom rastie priebeh konverzácie, ktorý sa ako input platí znovu. Dlhé kontexty sú dvojnásobne drahé - nad 200 000 tokenov účtuje viacero poskytovateľov (Gemini-Pro modely, OpenAI GPT-5.5 od 272 000 tokenov) prirážku 2-násobok inputu a 1,5-násobok outputu. Naivné napchávanie kontextového okna naplno preto zriedka býva lacným riešením.
Skryté náklady: účet pod API líniou
Pri agentickej záťaži na podnikovej škále je línia API tokenov zriedka viac než 30 až 50 percent celkových nákladov (TCO). Rozpočty, ktoré ráta len cenník poskytovateľa modelu, systematicky míňajú polovicu účtu. Nasledujúce položky sú v regióne DACH najčastejšie slepé miesta (podiely ako orientačná hodnota pre reprezentatívnu podnikovú záťaž, stav 2026):
Hnací činiteľ nákladov | Príčina | Páka |
|---|---|---|
Priame model-tokeny | input, output, reasoning na volanie | caching, routing, eval-založená voľba modelu |
Tool-use kaskáda | 5 až 20 LLM volaní na požiadavku | max_iterations a max_tool_calls ako hard-cap |
Sub-agent fan-out | každé sub-agent completion samostatne | advisor-vzor namiesto plnej kaskády sub-agentov |
Retry slučky | slabá verifikácia, neúspešné behy | lepšia verifikácia, token-budget na trace |
Nepriame model-náklady | definície toolov ako input na call (5 toolov = 750 tokenov) | cachovať definície toolov, zoštíhliť output-schémy |
Vector store a embeddingy | RAG úložisko, generovanie embeddingov, queries | self-hosted Qdrant namiesto managed; cielený retrieval |
Compute a sandbox | kontajnery, VM-minúty pre coding-/tool-agentov | spúšťať len pri skutočnej potrebe |
Observability | monitoring spotreby tokenov | self-hosted Langfuse namiesto Datadog na podnikovej škále |
Prirážka za EU-región | okolo 10 percent (OpenAI na EU-endpointoch, Anthropic na inference_geo: "us") | steady-state na EU, burst do US tam, kde to GDPR dovoľuje |
Príplatok za suverenitu | 1,5- až 3-násobná cena pri SAP, Telekom, OVHcloud | len pre regulované záťaže, inak vyjednávacia páka |
Compliance-ops | reťazec AVV (DPA), sub-procesor disclosure na poskytovateľa | držať počet poskytovateľov nízko, používať zmluvné vzory |
Skryté položky v číslach: vector store a embeddingy sú na úrovni 5 až 15 percent celkových nákladov, observability na 2 až 8 percent, compute a sandbox na 10 až 25 percent. V regióne DACH pristupujú faktory, ktoré nestoja na žiadnom kalifornskom cenníku: prirážka za EU-región okolo 10 percent, príplatok za suverenitu faktorom 1,5 až 3, ako aj priebežné compliance náklady realisticky 5 000 až 20 000 eur ročne na aktívneho zmluvného partnera. Tieto DACH-špecifické faktory zvyšujú celkové náklady o 15 až 35 percent oproti porovnateľnej US záťaži.
Páka voľby modelu: malý, veľký, alebo routovaný
Nie každý krok potrebuje najdrahší model. Druhou najväčšou FinOps pákou po cachingu je routing - lacný model ako štandard, drahý len pri merateľnej medzere. Rozptyl cien je značný (stav 2026): Claude Haiku je na úrovni 1 USD input / 5 USD output za milión, Sonnet na 3 / 15, Opus na 5 / 25; GPT-5.5 na 5 / 30. Na otvorenej strane podlieza DeepSeek V4 Flash s 0,14 USD input frontier úroveň na strane inputu faktorom 36.
Anthropic formalizoval routing-vzor k roku 2026 s Advisor Tool (beta od 9. apríla 2026): Sonnet alebo Haiku ako vykonávateľ, Opus ako podľa potreby pripojený poradca v jedinom API volaní. Zverejnené benchmarky ukazujú, ako silná je tá páka: Sonnet plus Opus-Advisor dosiahol 74,8 percent na SWE-bench Multilingual oproti 72,1 percent pre Sonnet samotný - pri 11,9 percent nižších nákladoch než Opus solo. Haiku plus Opus-Advisor zdvojnásobil BrowseComp-skóre (19,7 na 41,2 percent) pri 85 percent nižších nákladoch než Sonnet solo.
Triezve pravidlo, ktoré za tým stojí: najlacnejší model, ktorý prejde evalom, je ten správny model. Vlastné porovnanie Anthropic Sonnet proti Opus ukazuje okolo faktora päť rozdielu v nákladoch pri 1 až 2 percentuálnych bodoch odstupu v benchmarku na väčšine workflowov. Tímy, ktoré routujú podľa výsledku evalu namiesto podľa pocitu, znižujú náklady na modely typicky o 30 až 60 percent bez straty kvality.
Príklad výpočtu: 1 000 behov agenta
Konkrétne, so sadzbami Sonnet (3 USD input / 15 USD output za milión, stav 2026, volatilné). Predpokladajme rešeršný agent s priemerne 8 LLM volaniami na beh, po 4 000 input a 800 output tokenoch.
Neoptimalizovane, bez cachingu:
- Input: 1 000 behov x 8 volaní x 4 000 tokenov = 32 mil. tokenov x 3 USD = 96 USD
- Output: 1 000 x 8 x 800 = 6,4 mil. tokenov x 15 USD = 96 USD
- Priame náklady na tokeny: okolo 192 USD na 1 000 behov
S 80 percentnou úspešnosťou cache na stabilnom podiele kontextu (systémový prompt a definície toolov, cachované za 0,30 USD/mil. namiesto 3 USD): cachovaný podiel inputu klesá na okolo pätinu svojej ceny. Vážené input náklady klesajú z 96 na asi 25 až 30 USD, output zostáva. Spolu: okolo 120 až 125 USD - úspora okolo 35 percent len cez caching.
Ak potom ešte 60 percent volaní beží cez routing na Haiku (1 / 5 USD) namiesto Sonnet, lebo to eval dovoľuje, priama línia klesá ďalej smerom k 70 až 80 USD na 1 000 behov. A to je len API línia - keď sa pripočíta vector store, observability a compliance-ops, reálne celkové náklady ležia opäť výrazne vyššie. Práve preto sú token-capy na workflow (max_iterations, max_tool_calls, max_sub_agent_depth) k roku 2026 štandardom governance: zabraňujú tomu, aby jediný beh, ktorý sa vymkol kontrole, rozbil kalkuláciu.
FinOps a rozpočtové guardraily
Účinné opatrenia nie sú tajné poznanie, ale inžinierska prax. Naskladaný dobre inštrumentovaný FinOps program dodáva 60 až 80 percentné zníženie nákladov oproti neoptimalizovanej východiskovej hodnote:
- Agresívny prompt-caching ako najväčšia jednotlivá páka: 60 až 90 percentná úspešnosť cache znižuje input náklady o 70 až 80 percent. 5-minútová cache sa amortizuje po prvom čítacom prístupe, 1-hodinová cache po druhom.
- Eval-riadený routing cez LiteLLM, OpenRouter alebo Portkey - lacný model ako default, advisor-/eskalačný vzor pre ťažké prípady.
- Batch-API pre nereálnočasové záťaže s paušálne 50 percentnou zľavou, kombinovateľné s cachingom - cachovaný batch-request môže klesnúť na 5 percent štandardnej ceny.
- Token-budget na workflow s hard-capmi a atribúciou nákladov na mandanta, tím alebo workflow - bez tejto atribúcie nedokáže FinOps odpovedať na jedinú otázku CFO: ktorá obchodná jednotka spôsobuje tento účet?
- Open-weight fallback pre long-tail záťaže (sumarizácia, klasifikácia, jednoduchá extrakcia) - v regióne DACH cez EU-hostovaných poskytovateľov ako Together AI EU-región alebo DeepInfra Frankfurt, keďže v Číne hostovaná priama DeepSeek API pre GDPR-viazané záťaže odpadá.
Pre agentúry a B2B rozhodovateľov
Kto v regióne DACH produktívne prevádzkuje AI agentov alebo ich stavia pre zákazníkov, mal by spraviť z token-ekonómie kľúčovú kompetenciu - lebo najväčšie nákladové páky neležia v zmluve, ale v technickej realizácii. Procurement tímy, ktoré zápasia o päť percent množstevnej zľavy, nechávajú inde ležať päťdesiat percent. Pre agentúry to znamená: cost-atribúcia na zákazníka cez Helicone alebo Portkey, transparentné posúvanie nákladov s jasnou maržou na operatívnej komplexnosti (10 zmluvných partnerov znamená 10 AVV reťazcov), a suverénny hosting ako prémiový tier pre zákazníkov s GDPR väzbou. Pre B2B platí: eval-riadená voľba modelu, caching od prvého dňa, token-capy na workflow a exit-cesta k open-weight poskytovateľom pre každú záťaž, ktorá prekročí zmysluplný mesačný prah. Blck Alpaca z Viedne sprevádza podniky v DACH práve pri tejto kalkulácii - od architektúry workflowov cez FinOps guardraily až po suverénne nasadenie. Poznámka: všetky cenové údaje v tomto článku sú k roku 2026 a volatilné; cenové pásma sa posúvajú kvartálne a mali by sa pred každým rozpočtovým rozhodnutím overiť oproti aktuálnej dokumentácii poskytovateľa.
Často kladené otázky
Aký je rozdiel medzi input, output a reasoning tokenmi?
Prečo stojí AI agent oveľa viac než chatbot?
Ako realisticky vypočítam LLM náklady agenta?
Aké opatrenia znižujú náklady na AI agentov najsilnejšie?
Aké skryté náklady sa pri rozpočtoch na AI agentov najčastejšie prehliadajú?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.