Tokenizácia a kontextové okno: Čo poháňa latenciu a náklady agenta
Tokenizácia rozkladá text na tokeny, najmenšie jednotky spracovania LLM; kontextové okno je maximálny počet tokenov, ktoré model spracuje spoločne pri jednej požiadavke. Pri AI agentoch oba priamo určujú náklady a latenciu, pretože každý krok znova prenáša celý doterajší kontext.
Key Takeaways
- ✓Tokeny sú zúčtovacou a spracovacou jednotkou LLM: náklady a latencia závisia takmer úplne od počtu tokenov, nie od počtu znakov.
- ✓Kontextové okno je konečné. Multi-step agenti ho rýchlo zaplnia, pretože každý krok znova posiela históriu, výstupy nástrojov a systémový prompt, takže zúčtovaný objem tokenov počas behu rastie nadproporcionálne.
- ✓Pri plnom alebo veľmi dlhom kontexte kvalita odpovede merateľne klesá (Lost-in-the-Middle): informácie v strede dlhých vstupov sa využívajú horšie než na začiatku alebo na konci.
- ✓Výstupné tokeny stoja zvyčajne niekoľkonásobok vstupných tokenov (často trojnásobok až šesťnásobok); dlhé kontexty navyše zdražujú, napríklad Gemini 3.1 Pro s tarifnou prirážkou nad 200K tokenov (stav 2026).
- ✓Protistratégiami sú kompresia kontextu, sumarizácia histórie a retrieval (RAG) namiesto načítania všetkého do promptu. Súčasne znižujú náklady, latenciu a riziko degradácie.
- ✓Výber modelu je pákou na náklady: workhorse a open-weight modely sú za token často faktor 8 až 100 pod frontier-closed modelmi (stav 2026).
Tokenizácia rozkladá text na tokeny, najmenšie jednotky spracovania LLM; kontextové okno je maximálny počet tokenov, ktoré model dokáže spracovať spoločne pri jednej požiadavke. Pri AI agentoch oba priamo určujú náklady a latenciu, pretože každý krok agenta znova posiela modelu celý doterajší kontext. Kto agentov prevádzkuje produkčne, riadi cez tieto dve veličiny najväčšiu časť priebežných nákladov a času odpovede.
- Tokeny sú zúčtovacou a spracovacou jednotkou. Náklady a latencia závisia od počtu tokenov, nie od počtu znakov. Slovenský text vytvára na slovo spravidla viac tokenov než anglický.
- Kontextové okno je konečné. Multi-step agenti ho rýchlo zaplnia, pretože každý krok prenáša systémový prompt, celú históriu a všetky výsledky nástrojov. Objem tokenov zúčtovaný na beh tým rastie nadproporcionálne.
- Plný kontext neznamená lepší kontext. Pri veľmi dlhých vstupoch kvalita merateľne klesá (Lost-in-the-Middle). Manažment kontextu nie je nice-to-have, ale zároveň páka na náklady aj kvalitu.
Čo sú tokeny a prečo sú hnacou silou nákladov
LLM nespracúva čistý text, ale tokeny. Tokenizér rozkladá vstupný text na jednotky, ktoré zvyčajne zodpovedajú časti slova, krátkemu celému slovu alebo interpunkčnému znamienku. Model počíta výlučne s týmito tokenmi a všetci poskytovatelia účtujú za token, oddelene podľa vstupu (čo ide dovnútra) a výstupu (čo sa generuje).
Pre prax sú rozhodujúce dve vlastnosti. Po prvé, hustota tokenov závisí od jazyka: v slovenčine zodpovedá jeden token zhruba 0,6 až 0,8 slova. Dlhé zložené slová, diakritika a flektívne koncovky vedú k tomu, že tá istá skutočnosť potrebuje v slovenčine často viac tokenov než v angličtine. Pre stredoeurópske workloady to znamená: rovnaká úloha, vyššia spotreba tokenov, vyššie náklady a rýchlejšie zaplnenie kontextového okna.
Po druhé, výstup je zvyčajne výrazne drahší než vstup. Pri modeloch dostupných na trhu je cena výstupu typicky na úrovni trojnásobku až šesťnásobku ceny vstupu - pri jednotlivých lacných workhorse modeloch je prirážka menšia, pri frontier modeloch skôr na hornom okraji. Agent, ktorý produkuje dlhé, podrobné odpovede, je preto v pomere k množstvu výstupných tokenov nadproporcionálne drahý.
Ako funguje kontextové okno
Kontextové okno je maximálny počet tokenov, ktoré model dokáže pri jednej požiadavke vidieť spoločne - vstup a generovaný výstup dohromady. Všetko, čo má model pri odpovedi zohľadniť, musí sa zmestiť do tohto okna: systémová inštrukcia, priebeh konverzácie, vložené dokumenty, definície nástrojov a výsledky nástrojov.
Veľkosti okien v posledných rokoch výrazne narástli. Aktuálne frontier modely ponúkajú veľmi veľké kontexty: Claude Opus 4.7 a Gemini 3.1 Pro pracujú zhruba s 1 miliónom tokenov, Gemini v závislosti od nasadenia až s 2 miliónmi, Mistral Large 3 s 256K, Llama 4 Scout dokonca až s 10 miliónmi tokenov (všetky údaje stav 2026). Väčšie okno posúva tvrdú hornú hranicu - no prenášanie kontextu tým nerobí zadarmo. Dva efekty pretrvávajú: náklady a latencia rastú s dĺžkou vstupu a kvalita odpovede degraduje pri veľmi dlhých vstupoch.
Rast kontextu pri multi-step agentoch
Jediné chatové volanie je z hľadiska nákladov nekritické. Problém vzniká pri agentickom vzore: agent nerieši úlohu jedným volaním, ale v mnohých krokoch - plánovať, zavolať nástroj, vyhodnotiť výsledok, zavolať ďalší nástroj a tak ďalej. Pri každom z týchto krokov sa celý doterajší priebeh znova posiela ako vstup, pretože model je bezstavový a nič si nepamätá.
Z toho vyplýva ústredný ekonomický vzor agentov: nadproporcionálne rastúca spotreba tokenov. Ak má krok 1 ešte 2 000 vstupných tokenov, krok 2 už 5 000, krok 3 potom 9 000 a tak ďalej, zúčtovaná spotreba tokenov počas behu sa nesčítava lineárne, ale ďaleko nadproporcionálne - každý krok totiž prenáša narastený kontext všetkých predchádzajúcich krokov. Každý ďalší výstup nástroja - odpoveď API, prehľadaný dokument, výsledok vyhľadávania - zväčšuje kontext pre všetky nasledujúce kroky. Dlhé výstupy nástrojov sú tu najčastejším tichým hnacím prvkom nákladov.
Latencia sa riadi tou istou logikou. Čas do prvého tokenu a celkový čas odpovede rastú s dĺžkou vstupu, pretože model musí načítať kompletný kontext predtým, než odpovie. Agent, ktorý ku koncu dlhého behu prenáša 80 000 tokenov kontextu, je na krok citeľne pomalší než na začiatku - práve vtedy, keď používateľ aj tak už čaká.
Degradácia: Lost-in-the-Middle pri plnom kontexte
Rozšírený omyl znie: ak je okno dostatočne veľké, dá sa doň jednoducho všetko napchať. To je technicky pravda, ale nie kvalitatívne. LLM využívajú informácie na začiatku a na konci dlhého vstupu spoľahlivejšie než informácie v strede - efekt známy ako Lost-in-the-Middle. Čím dlhší kontext, tým vyššie riziko, že rozhodujúca informácia bude horšie zvážená alebo zanikne.
Pre agentov je to relevantné dvojnásobne. Po prvé, agent často zaplní svoj kontext históriou, ktorá je pre aktuálny krok irelevantná. Po druhé, preplnený kontext môže viesť k tomu, že model ignoruje staršie inštrukcie alebo skoré výsledky nástrojov zo stredu priebehu - s výsledkom, že kvalita odpovede klesá napriek technicky dostatočnému priestoru. Viac kontextu teda automaticky neznamená viac výkonu; od určitého bodu je menej, no kurátorovaný kontext lepší.
Pojmy a ich implikácia pre agenta
Pojem | Význam | Implikácia pre agenta |
|---|---|---|
Token | Najmenšia spracovacia a zúčtovacia jednotka; časť slova, krátke slovo alebo interpunkčné znamienko | Poháňa náklady a latenciu; slovenský text vytvára na slovo viac tokenov |
Tokenizácia | Rozklad textu na tokeny pomocou tokenizéra | Určuje, ako drahý bude daný vstup; závisí od jazyka a modelu |
Kontextové okno | Maximálny počet tokenov (vstup plus výstup) na požiadavku | Tvrdá horná hranica; pri multi-step agentoch rýchlo vyčerpaná |
Vstupné tokeny | Kontext odoslaný modelu | Rastú s každým krokom agenta; hlavná príčina nadproporcionálnych nákladov |
Výstupné tokeny | Odpoveď generovaná modelom | Typicky 3- až 6-násobne drahšie než vstup; dlhé odpovede cielene obmedzovať |
Lost-in-the-Middle | Slabšie využitie informácie v strede dlhých vstupov | Preplnený kontext znižuje kvalitu; kurátorovanie poráža úplnosť |
Kompresia kontextu | Zhustenie/zhrnutie priebehu | Znižuje počet tokenov, latenciu a riziko degradácie pri dlhých behoch |
Retrieval (RAG) | Vloženie iba relevantných snippetov cez vyhľadávanie namiesto plného textu | Udržiava kontext malý a zacielený; znižuje náklady a zlepšuje kvalitu zásahov |
Príklad výpočtu: tokeny k nákladom
Support agent rieši požiadavku v 6 krokoch. V každom kroku znova posiela celý kontext. Zjednodušený predpoklad o priebehu vstupu: 2 000, 5 000, 9 000, 14 000, 20 000, 27 000 tokenov - v súčte zhruba 77 000 vstupných tokenov. K tomu generuje na krok približne 500 výstupných tokenov, teda zhruba 3 000 výstupných tokenov celkovo.
Prepočítajme to s tromi cenovými úrovňami (ceny za 1 mil. tokenov, vstup/výstup, stav 2026):
Model (stav 2026) | Cena vstupu | Cena výstupu | Náklady vstupu (77K) | Náklady výstupu (3K) | Celkovo na beh |
|---|---|---|---|---|---|
Claude Opus 4.7 (Frontier) | $5,00 | $25,00 | $0,385 | $0,075 | ~$0,46 |
Mistral Large 3 (EU-Sovereign) | $0,50 | $1,50 | $0,039 | $0,0045 | ~$0,043 |
DeepSeek V4 Flash (Workhorse) | $0,14 | $0,28 | $0,0108 | $0,00084 | ~$0,012 |
Jediný beh pôsobí lacno. No pri 50 000 takýchto behov mesačne vychádza zhruba 23 000 amerických dolárov pri frontier modeli oproti zhruba 2 150 amerických dolárov pri EU-Sovereign modeli a zhruba 600 amerických dolárov pri lacnom workhorse modeli. Faktor medzi frontier a workhorse tierom leží podľa modelu medzi 8 a 100 (stav 2026). Dve ponaučenia: po prvé, pri agentoch dominuje rozpočtu prenášaný vstup, nie výstup. Po druhé, výber modelu na čiastkový krok je masívnou pákou na náklady.
K tomu sa pridáva prirážka za dlhý kontext. Gemini 3.1 Pro sa napríklad nad 200 000 tokenov zdražuje: cena vstupu sa zdvojnásobuje, cena výstupu tiež výrazne stúpa ($4 / $18 namiesto $2 / $12 za 1 mil. tokenov, stav 2026). Kto nechá kontext agenta nekontrolovane narásť nad túto hranicu, platí nielen za viac tokenov, ale aj vyššiu tarifu za token.
Protistratégie: udržať kontext malý a zacielený
Umenie agent-engineeringu spočíva v tom, dať modelu na krok len to, čo skutočne potrebuje. Tri stratégie, ktoré sa dajú kombinovať:
- Kompresia kontextu a sumarizácia. Staršie kroky sa zhustia do krátkeho zhrnutia namiesto prenášania plnotextového priebehu. Dlhé výstupy nástrojov sa zredukujú na výsledok. To súčasne znižuje vstupné tokeny, latenciu a riziko Lost-in-the-Middle.
- Retrieval namiesto plného textu (RAG). Namiesto načítania celých znalostných databáz alebo dokumentov do promptu sa cez vyhľadávanie vložia iba relevantné snippety. To udržiava kontext malý a zvyšuje kvalitu zásahov, pretože model nie je rozptyľovaný irelevantným obsahom.
- Smerovanie modelov a prompt-caching. Jednoduché čiastkové kroky (klasifikácia, extrakcia, formátovanie) bežia na lacných workhorse alebo open-weight modeloch; drahé frontier modely sa vyhradzujú len pre zložité kroky. Prompt-caching navyše znižuje náklady na opakujúce sa, stabilné časti kontextu ako systémové prompty.
Doplnkovo platí: výstup cielene obmedzovať (stručné, štruktúrované odpovede namiesto rozvláčnej prózy) a výsledky nástrojov orezať na nevyhnutné. V súčte tieto opatrenia rozhodujú o tom, či agent vyzerá v pilotnej fáze elegantne a v produkčnej prevádzke zostáva ekonomický.
Pre agentúry a B2B rozhodovateľov
Tokenizácia a kontextové okno nie sú technické okrajové témy, ale dve najdôležitejšie nastavovacie skrutky pre ekonomiku AI agenta. Kto rozpočtuje agentové riešenie, mal by náklady kalkulovať nie na požiadavku, ale na úplný multi-step beh a prepočítané na očakávaný mesačný objem - vrátane nadproporcionálneho rastu kontextu. Pre agentúry leží poradenská hodnota v tom, uchrániť klientov pred zlým prekvapením, že v pilote lacný agent sa pod záťažou stane nekalkulovateľne drahým alebo pomalým. Blck Alpaca podporuje stredoeurópske firmy v tom, aby koncipovali architektúry agentov tak, aby manažment kontextu, smerovanie modelov a retrieval boli zabudované od začiatku - pre plánovateľné náklady, akceptovateľnú latenciu a stabilnú kvalitu odpovedí v produkčnej prevádzke.
Často kladené otázky
Aký je rozdiel medzi tokenom a slovom?
Prečo sú agenti s každým krokom pomalší a drahší?
Čo znamená Lost-in-the-Middle a prečo je to relevantné pre agentov?
Vyrieši väčšie kontextové okno tento problém?
Ako konkrétne znížim náklady na tokeny v produkčnom agentovi?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.