Preskočiť na obsah
10.5Pokročilý7 min

Token-Economics: Ako naozaj vznikajú náklady na AI agentov

Blck Alpaca·
Definition

Token-Economics pri AI agentoch označuje nákladovú mechaniku, pri ktorej sa každý beh agenta účtuje podľa spotrebovaných tokenov: input, output, cached a reasoning tokeny. Na rozdiel od chatbota agenti znásobujú spotrebu cez multi-step slučky, tool-cally a sub-agentov - cenníková cena sa odchyľuje 2- až 10-násobne od reálnych produkčných nákladov.

Key Takeaways

  • Jediný beh agenta vytvára v roku 2026 typicky 5 až 20 LLM volaní (planner, tool-call, vyhodnotenie, verifikácia) - kaskády sub-agentov spotrebu tokenov navyše znásobujú 3- až 10-násobne.
  • Štyri druhy tokenov ženú účet hore: input, output (drahší), cached-input (pri Anthropic o 90 percent lacnejší) a reasoning tokeny (účtujú sa v sadzbe output).
  • API tokeny sú zriedka viac než 30 až 50 percent celkových nákladov (TCO) - vector store, observability, compute, retries a compliance tvoria zvyšok.
  • Prompt-caching je najväčšia FinOps páka roku 2026: 60 až 90 percentná úspešnosť cache (cache hit rate) znižuje input náklady o 70 až 80 percent.
  • Eval-riadené model-routing (malý model ako default, veľký len pri merateľnej medzere) ušetrí 30 až 60 percent bez straty kvality.
  • Všetky ceny k roku 2026 sú volatilné - rozpočtové guardraily ako token-capy na workflow sú povinnosťou, nie nadštandardom.

Token-Economics pri AI agentoch označuje nákladovú mechaniku, pri ktorej sa každý beh agenta účtuje podľa spotrebovaných tokenov: input, output, cached a reasoning tokeny. Na rozdiel od chatbota agenti znásobujú spotrebu cez multi-step slučky, tool-cally a sub-agentov. Cenníková cena sa tým typicky odchyľuje 2- až 10-násobne od reálnych produkčných nákladov. Kto plánuje rozpočet na agentov, musí túto mechaniku pochopiť, inak si vykalkuluje polovicu účtu preč.

  • Tokeny sú zúčtovacia jednotka, nie požiadavky. Jedna požiadavka používateľa na agenta vytvára k roku 2026 typicky 5 až 20 LLM volaní - každé z nich stojí znovu.
  • Output a reasoning sú drahé, cached-input je lacný. Output stojí zvyčajne 3- až 5-násobok inputu; znovupoužitý kontext (cache) pri Anthropic len 10 percent.
  • API tokeny sú zriedka viac než 30 až 50 percent celkových nákladov. Vector store, observability, compute, retries a compliance ženú zvyšok.

Štyri druhy tokenov a ako sa účtujú

Každé LLM volanie sa rozpadá na rôzne spoplatnené tokenové buckety. Kto vidí len output, systematicky podceňuje input - lebo agent vlečie systémový prompt, definície toolov a rastúci kontext pri každom kroku znovu so sebou.

  • Input tokeny zahŕňajú všetko, čo ide do modelu: systémový prompt, definície toolov, načítaný RAG kontext, priebeh konverzácie a samotnú požiadavku. Workflow s piatimi definovanými toolmi po 150 tokenoch pridáva samotné 750 input tokenov ku každému requestu.
  • Output tokeny sú vygenerovaná odpoveď. Stoja pravidelne tri- až päťnásobok inputu. Pri Claude Sonnet je sadzba k roku 2026 na úrovni 3 USD input proti 15 USD output za milión tokenov - faktor päť.
  • Cached-input tokeny sú znovupoužitý, stabilný kontext. Anthropic číta cache za 0,1-násobok základnej ceny (90 percentná zľava), OpenAI v rodine GPT-5.x za okolo 10 percent základnej ceny. To je nákladovo najúčinnejšia páka, ktorá bola od začiatku účtovania podľa spotreby zavedená.
  • Reasoning tokeny vznikajú pri internom premýšľaní reasoning modelov. K roku 2026 sa pri OpenAI a Anthropic jednoducho účtujú v sadzbe output. Praktický dôsledok: volanie s 20 000 reasoning tokenmi stojí pri 25 USD/mil. output okolo 0,50 USD len za premýšľanie - skôr, než je vygenerované jediné viditeľné slovo.

Multiplikátor: prečo agenti spôsobujú explóziu spotreby

Rozhodujúci rozdiel oproti chatbotu nie je cena tokenu, ale počet volaní. Jediná požiadavka používateľa, ktorá bola v roku 2023 ešte jedným model-callom, sa v roku 2026 rutinne prekladá do reťazca: planner, výber toolu, interpretácia výsledku toolu, rozhodnutie o ďalšom kroku, formátovanie outputu, často s explicitnými verifikačnými slučkami. To je 5 až 20 volaní. Kaskády sub-agentov to príležitostne ženú na 50 a viac.

Naskladajú sa tri multiplikátory:

  • Multi-step vykonávanie pridáva +50 až +200 percent na priamu API líniu. Každý tool-call je samostatné completion volanie s vlastným kontextom.
  • Sub-agent fan-out znásobuje spotrebu tokenov 3- až 10-násobne oproti jednotlivým agentom. Každý sub-agent je samostatné completion s vlastným kontextovým oknom a vlastnými definíciami toolov.
  • Zlyhanie a retry pridávajú 1,3- až 3-násobok pri slabej verifikácii. Agentické workflowy, ktoré zlyhajú a štartujú nanovo, spaľujú tokeny na ceste tam.

K tomu pristupuje rast kontextu: s každým krokom rastie priebeh konverzácie, ktorý sa ako input platí znovu. Dlhé kontexty sú dvojnásobne drahé - nad 200 000 tokenov účtuje viacero poskytovateľov (Gemini-Pro modely, OpenAI GPT-5.5 od 272 000 tokenov) prirážku 2-násobok inputu a 1,5-násobok outputu. Naivné napchávanie kontextového okna naplno preto zriedka býva lacným riešením.

Skryté náklady: účet pod API líniou

Pri agentickej záťaži na podnikovej škále je línia API tokenov zriedka viac než 30 až 50 percent celkových nákladov (TCO). Rozpočty, ktoré ráta len cenník poskytovateľa modelu, systematicky míňajú polovicu účtu. Nasledujúce položky sú v regióne DACH najčastejšie slepé miesta (podiely ako orientačná hodnota pre reprezentatívnu podnikovú záťaž, stav 2026):

Hnací činiteľ nákladov

Príčina

Páka

Priame model-tokeny

input, output, reasoning na volanie

caching, routing, eval-založená voľba modelu

Tool-use kaskáda

5 až 20 LLM volaní na požiadavku

max_iterations a max_tool_calls ako hard-cap

Sub-agent fan-out

každé sub-agent completion samostatne

advisor-vzor namiesto plnej kaskády sub-agentov

Retry slučky

slabá verifikácia, neúspešné behy

lepšia verifikácia, token-budget na trace

Nepriame model-náklady

definície toolov ako input na call (5 toolov = 750 tokenov)

cachovať definície toolov, zoštíhliť output-schémy

Vector store a embeddingy

RAG úložisko, generovanie embeddingov, queries

self-hosted Qdrant namiesto managed; cielený retrieval

Compute a sandbox

kontajnery, VM-minúty pre coding-/tool-agentov

spúšťať len pri skutočnej potrebe

Observability

monitoring spotreby tokenov

self-hosted Langfuse namiesto Datadog na podnikovej škále

Prirážka za EU-región

okolo 10 percent (OpenAI na EU-endpointoch, Anthropic na inference_geo: "us")

steady-state na EU, burst do US tam, kde to GDPR dovoľuje

Príplatok za suverenitu

1,5- až 3-násobná cena pri SAP, Telekom, OVHcloud

len pre regulované záťaže, inak vyjednávacia páka

Compliance-ops

reťazec AVV (DPA), sub-procesor disclosure na poskytovateľa

držať počet poskytovateľov nízko, používať zmluvné vzory

Skryté položky v číslach: vector store a embeddingy sú na úrovni 5 až 15 percent celkových nákladov, observability na 2 až 8 percent, compute a sandbox na 10 až 25 percent. V regióne DACH pristupujú faktory, ktoré nestoja na žiadnom kalifornskom cenníku: prirážka za EU-región okolo 10 percent, príplatok za suverenitu faktorom 1,5 až 3, ako aj priebežné compliance náklady realisticky 5 000 až 20 000 eur ročne na aktívneho zmluvného partnera. Tieto DACH-špecifické faktory zvyšujú celkové náklady o 15 až 35 percent oproti porovnateľnej US záťaži.

Páka voľby modelu: malý, veľký, alebo routovaný

Nie každý krok potrebuje najdrahší model. Druhou najväčšou FinOps pákou po cachingu je routing - lacný model ako štandard, drahý len pri merateľnej medzere. Rozptyl cien je značný (stav 2026): Claude Haiku je na úrovni 1 USD input / 5 USD output za milión, Sonnet na 3 / 15, Opus na 5 / 25; GPT-5.5 na 5 / 30. Na otvorenej strane podlieza DeepSeek V4 Flash s 0,14 USD input frontier úroveň na strane inputu faktorom 36.

Anthropic formalizoval routing-vzor k roku 2026 s Advisor Tool (beta od 9. apríla 2026): Sonnet alebo Haiku ako vykonávateľ, Opus ako podľa potreby pripojený poradca v jedinom API volaní. Zverejnené benchmarky ukazujú, ako silná je tá páka: Sonnet plus Opus-Advisor dosiahol 74,8 percent na SWE-bench Multilingual oproti 72,1 percent pre Sonnet samotný - pri 11,9 percent nižších nákladoch než Opus solo. Haiku plus Opus-Advisor zdvojnásobil BrowseComp-skóre (19,7 na 41,2 percent) pri 85 percent nižších nákladoch než Sonnet solo.

Triezve pravidlo, ktoré za tým stojí: najlacnejší model, ktorý prejde evalom, je ten správny model. Vlastné porovnanie Anthropic Sonnet proti Opus ukazuje okolo faktora päť rozdielu v nákladoch pri 1 až 2 percentuálnych bodoch odstupu v benchmarku na väčšine workflowov. Tímy, ktoré routujú podľa výsledku evalu namiesto podľa pocitu, znižujú náklady na modely typicky o 30 až 60 percent bez straty kvality.

Príklad výpočtu: 1 000 behov agenta

Konkrétne, so sadzbami Sonnet (3 USD input / 15 USD output za milión, stav 2026, volatilné). Predpokladajme rešeršný agent s priemerne 8 LLM volaniami na beh, po 4 000 input a 800 output tokenoch.

Neoptimalizovane, bez cachingu:

  • Input: 1 000 behov x 8 volaní x 4 000 tokenov = 32 mil. tokenov x 3 USD = 96 USD
  • Output: 1 000 x 8 x 800 = 6,4 mil. tokenov x 15 USD = 96 USD
  • Priame náklady na tokeny: okolo 192 USD na 1 000 behov

S 80 percentnou úspešnosťou cache na stabilnom podiele kontextu (systémový prompt a definície toolov, cachované za 0,30 USD/mil. namiesto 3 USD): cachovaný podiel inputu klesá na okolo pätinu svojej ceny. Vážené input náklady klesajú z 96 na asi 25 až 30 USD, output zostáva. Spolu: okolo 120 až 125 USD - úspora okolo 35 percent len cez caching.

Ak potom ešte 60 percent volaní beží cez routing na Haiku (1 / 5 USD) namiesto Sonnet, lebo to eval dovoľuje, priama línia klesá ďalej smerom k 70 až 80 USD na 1 000 behov. A to je len API línia - keď sa pripočíta vector store, observability a compliance-ops, reálne celkové náklady ležia opäť výrazne vyššie. Práve preto sú token-capy na workflow (max_iterations, max_tool_calls, max_sub_agent_depth) k roku 2026 štandardom governance: zabraňujú tomu, aby jediný beh, ktorý sa vymkol kontrole, rozbil kalkuláciu.

FinOps a rozpočtové guardraily

Účinné opatrenia nie sú tajné poznanie, ale inžinierska prax. Naskladaný dobre inštrumentovaný FinOps program dodáva 60 až 80 percentné zníženie nákladov oproti neoptimalizovanej východiskovej hodnote:

  • Agresívny prompt-caching ako najväčšia jednotlivá páka: 60 až 90 percentná úspešnosť cache znižuje input náklady o 70 až 80 percent. 5-minútová cache sa amortizuje po prvom čítacom prístupe, 1-hodinová cache po druhom.
  • Eval-riadený routing cez LiteLLM, OpenRouter alebo Portkey - lacný model ako default, advisor-/eskalačný vzor pre ťažké prípady.
  • Batch-API pre nereálnočasové záťaže s paušálne 50 percentnou zľavou, kombinovateľné s cachingom - cachovaný batch-request môže klesnúť na 5 percent štandardnej ceny.
  • Token-budget na workflow s hard-capmi a atribúciou nákladov na mandanta, tím alebo workflow - bez tejto atribúcie nedokáže FinOps odpovedať na jedinú otázku CFO: ktorá obchodná jednotka spôsobuje tento účet?
  • Open-weight fallback pre long-tail záťaže (sumarizácia, klasifikácia, jednoduchá extrakcia) - v regióne DACH cez EU-hostovaných poskytovateľov ako Together AI EU-región alebo DeepInfra Frankfurt, keďže v Číne hostovaná priama DeepSeek API pre GDPR-viazané záťaže odpadá.

Pre agentúry a B2B rozhodovateľov

Kto v regióne DACH produktívne prevádzkuje AI agentov alebo ich stavia pre zákazníkov, mal by spraviť z token-ekonómie kľúčovú kompetenciu - lebo najväčšie nákladové páky neležia v zmluve, ale v technickej realizácii. Procurement tímy, ktoré zápasia o päť percent množstevnej zľavy, nechávajú inde ležať päťdesiat percent. Pre agentúry to znamená: cost-atribúcia na zákazníka cez Helicone alebo Portkey, transparentné posúvanie nákladov s jasnou maržou na operatívnej komplexnosti (10 zmluvných partnerov znamená 10 AVV reťazcov), a suverénny hosting ako prémiový tier pre zákazníkov s GDPR väzbou. Pre B2B platí: eval-riadená voľba modelu, caching od prvého dňa, token-capy na workflow a exit-cesta k open-weight poskytovateľom pre každú záťaž, ktorá prekročí zmysluplný mesačný prah. Blck Alpaca z Viedne sprevádza podniky v DACH práve pri tejto kalkulácii - od architektúry workflowov cez FinOps guardraily až po suverénne nasadenie. Poznámka: všetky cenové údaje v tomto článku sú k roku 2026 a volatilné; cenové pásma sa posúvajú kvartálne a mali by sa pred každým rozpočtovým rozhodnutím overiť oproti aktuálnej dokumentácii poskytovateľa.

Často kladené otázky

Aký je rozdiel medzi input, output a reasoning tokenmi?
Input tokeny sú všetko, čo ide do modelu (systémový prompt, definície toolov, kontext, požiadavka používateľa). Output tokeny sú vygenerovaná odpoveď a stoja zvyčajne tri- až päťnásobok inputu. Reasoning tokeny vznikajú pri internom premýšľaní reasoning modelov a k roku 2026 sa pri OpenAI a Anthropic účtujú v sadzbe output - volanie s 20 000 reasoning tokenmi stojí pri 25 USD/mil. output okolo 0,50 USD len za samotné premýšľanie. Cached-input tokeny sú znovupoužitý kontext a pri Anthropic stoja len 10 percent základného inputu.
Prečo stojí AI agent oveľa viac než chatbot?
Chatbot je jedno volanie: otázka dnu, odpoveď von. Agent prejde na jednu požiadavku používateľa typicky 5 až 20 LLM volaní - plánovanie, výber toolu, vyhodnotenie výsledku toolu, rozhodnutie o ďalšom kroku, verifikácia. Pri každom volaní rastie kontext a definície toolov, ktoré sa ako input platia znovu. Vzory sub-agentov to znásobujú 3- až 10-násobne, neúspešné behy s retry 1,3- až 3-násobne. Tak vzniká 5- až 50-násobne vyššia spotreba oproti klasickému vzoru prompt-dnu/odpoveď-von.
Ako realisticky vypočítam LLM náklady agenta?
Nepozerajte len na sadzbu za token. Počítajte na jeden beh: priemerný počet volaní krát priemerné input a output tokeny na volanie, vážené podielom úspešnosti cache. Potom pripočítajte multi-step a sub-agent faktor, ako aj prirážku za retry. Následne pripočítajte skryté položky: embeddingy a vector store (5 až 15 percent), observability (2 až 8 percent), compute/sandbox (10 až 25 percent), compliance-ops. API tokeny sú nakoniec zvyčajne pod polovicou celkových nákladov.
Aké opatrenia znižujú náklady na AI agentov najsilnejšie?
K roku 2026 dominujú tri páky. Po prvé agresívny prompt-caching: cachovanie stabilných systémových promptov a definícií toolov znižuje input náklady o 70 až 80 percent. Po druhé eval-riadené model-routing: najlacnejší model, ktorý prejde testom, je ten správny - to ušetrí 30 až 60 percent. Po tretie batch-spracovanie pre nereálnočasové záťaže s paušálne 50 percentnou zľavou, kombinovateľné s cachingom. Naskladaný dobre inštrumentovaný FinOps program dosahuje 60 až 80 percentné zníženie nákladov oproti neoptimalizovanej východiskovej hodnote.
Aké skryté náklady sa pri rozpočtoch na AI agentov najčastejšie prehliadajú?
Najdrahšie slepé miesta sú: definície toolov, ktoré sa pri každom volaní platia ako input (5 toolov po 150 tokenoch je 750 tokenov na request); retry slučky pri slabej verifikácii; vector store pre RAG; observability tooling; a v regióne DACH prirážka za EU-región okolo 10 percent, príplatok za suverenitu faktorom 1,5 až 3 a priebežné compliance náklady na zmluvného partnera. Tieto DACH faktory zvyšujú celkové náklady o 15 až 35 percent oproti porovnateľnej US záťaži.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.