Preskočiť na obsah
2.10Začiatočník8 min

Tokenizácia a kontextové okno: Čo poháňa latenciu a náklady agenta

Blck Alpaca·
Definition

Tokenizácia rozkladá text na tokeny, najmenšie jednotky spracovania LLM; kontextové okno je maximálny počet tokenov, ktoré model spracuje spoločne pri jednej požiadavke. Pri AI agentoch oba priamo určujú náklady a latenciu, pretože každý krok znova prenáša celý doterajší kontext.

Key Takeaways

  • Tokeny sú zúčtovacou a spracovacou jednotkou LLM: náklady a latencia závisia takmer úplne od počtu tokenov, nie od počtu znakov.
  • Kontextové okno je konečné. Multi-step agenti ho rýchlo zaplnia, pretože každý krok znova posiela históriu, výstupy nástrojov a systémový prompt, takže zúčtovaný objem tokenov počas behu rastie nadproporcionálne.
  • Pri plnom alebo veľmi dlhom kontexte kvalita odpovede merateľne klesá (Lost-in-the-Middle): informácie v strede dlhých vstupov sa využívajú horšie než na začiatku alebo na konci.
  • Výstupné tokeny stoja zvyčajne niekoľkonásobok vstupných tokenov (často trojnásobok až šesťnásobok); dlhé kontexty navyše zdražujú, napríklad Gemini 3.1 Pro s tarifnou prirážkou nad 200K tokenov (stav 2026).
  • Protistratégiami sú kompresia kontextu, sumarizácia histórie a retrieval (RAG) namiesto načítania všetkého do promptu. Súčasne znižujú náklady, latenciu a riziko degradácie.
  • Výber modelu je pákou na náklady: workhorse a open-weight modely sú za token často faktor 8 až 100 pod frontier-closed modelmi (stav 2026).

Tokenizácia rozkladá text na tokeny, najmenšie jednotky spracovania LLM; kontextové okno je maximálny počet tokenov, ktoré model dokáže spracovať spoločne pri jednej požiadavke. Pri AI agentoch oba priamo určujú náklady a latenciu, pretože každý krok agenta znova posiela modelu celý doterajší kontext. Kto agentov prevádzkuje produkčne, riadi cez tieto dve veličiny najväčšiu časť priebežných nákladov a času odpovede.

  • Tokeny sú zúčtovacou a spracovacou jednotkou. Náklady a latencia závisia od počtu tokenov, nie od počtu znakov. Slovenský text vytvára na slovo spravidla viac tokenov než anglický.
  • Kontextové okno je konečné. Multi-step agenti ho rýchlo zaplnia, pretože každý krok prenáša systémový prompt, celú históriu a všetky výsledky nástrojov. Objem tokenov zúčtovaný na beh tým rastie nadproporcionálne.
  • Plný kontext neznamená lepší kontext. Pri veľmi dlhých vstupoch kvalita merateľne klesá (Lost-in-the-Middle). Manažment kontextu nie je nice-to-have, ale zároveň páka na náklady aj kvalitu.

Čo sú tokeny a prečo sú hnacou silou nákladov

LLM nespracúva čistý text, ale tokeny. Tokenizér rozkladá vstupný text na jednotky, ktoré zvyčajne zodpovedajú časti slova, krátkemu celému slovu alebo interpunkčnému znamienku. Model počíta výlučne s týmito tokenmi a všetci poskytovatelia účtujú za token, oddelene podľa vstupu (čo ide dovnútra) a výstupu (čo sa generuje).

Pre prax sú rozhodujúce dve vlastnosti. Po prvé, hustota tokenov závisí od jazyka: v slovenčine zodpovedá jeden token zhruba 0,6 až 0,8 slova. Dlhé zložené slová, diakritika a flektívne koncovky vedú k tomu, že tá istá skutočnosť potrebuje v slovenčine často viac tokenov než v angličtine. Pre stredoeurópske workloady to znamená: rovnaká úloha, vyššia spotreba tokenov, vyššie náklady a rýchlejšie zaplnenie kontextového okna.

Po druhé, výstup je zvyčajne výrazne drahší než vstup. Pri modeloch dostupných na trhu je cena výstupu typicky na úrovni trojnásobku až šesťnásobku ceny vstupu - pri jednotlivých lacných workhorse modeloch je prirážka menšia, pri frontier modeloch skôr na hornom okraji. Agent, ktorý produkuje dlhé, podrobné odpovede, je preto v pomere k množstvu výstupných tokenov nadproporcionálne drahý.

Ako funguje kontextové okno

Kontextové okno je maximálny počet tokenov, ktoré model dokáže pri jednej požiadavke vidieť spoločne - vstup a generovaný výstup dohromady. Všetko, čo má model pri odpovedi zohľadniť, musí sa zmestiť do tohto okna: systémová inštrukcia, priebeh konverzácie, vložené dokumenty, definície nástrojov a výsledky nástrojov.

Veľkosti okien v posledných rokoch výrazne narástli. Aktuálne frontier modely ponúkajú veľmi veľké kontexty: Claude Opus 4.7 a Gemini 3.1 Pro pracujú zhruba s 1 miliónom tokenov, Gemini v závislosti od nasadenia až s 2 miliónmi, Mistral Large 3 s 256K, Llama 4 Scout dokonca až s 10 miliónmi tokenov (všetky údaje stav 2026). Väčšie okno posúva tvrdú hornú hranicu - no prenášanie kontextu tým nerobí zadarmo. Dva efekty pretrvávajú: náklady a latencia rastú s dĺžkou vstupu a kvalita odpovede degraduje pri veľmi dlhých vstupoch.

Rast kontextu pri multi-step agentoch

Jediné chatové volanie je z hľadiska nákladov nekritické. Problém vzniká pri agentickom vzore: agent nerieši úlohu jedným volaním, ale v mnohých krokoch - plánovať, zavolať nástroj, vyhodnotiť výsledok, zavolať ďalší nástroj a tak ďalej. Pri každom z týchto krokov sa celý doterajší priebeh znova posiela ako vstup, pretože model je bezstavový a nič si nepamätá.

Z toho vyplýva ústredný ekonomický vzor agentov: nadproporcionálne rastúca spotreba tokenov. Ak má krok 1 ešte 2 000 vstupných tokenov, krok 2 už 5 000, krok 3 potom 9 000 a tak ďalej, zúčtovaná spotreba tokenov počas behu sa nesčítava lineárne, ale ďaleko nadproporcionálne - každý krok totiž prenáša narastený kontext všetkých predchádzajúcich krokov. Každý ďalší výstup nástroja - odpoveď API, prehľadaný dokument, výsledok vyhľadávania - zväčšuje kontext pre všetky nasledujúce kroky. Dlhé výstupy nástrojov sú tu najčastejším tichým hnacím prvkom nákladov.

Latencia sa riadi tou istou logikou. Čas do prvého tokenu a celkový čas odpovede rastú s dĺžkou vstupu, pretože model musí načítať kompletný kontext predtým, než odpovie. Agent, ktorý ku koncu dlhého behu prenáša 80 000 tokenov kontextu, je na krok citeľne pomalší než na začiatku - práve vtedy, keď používateľ aj tak už čaká.

Degradácia: Lost-in-the-Middle pri plnom kontexte

Rozšírený omyl znie: ak je okno dostatočne veľké, dá sa doň jednoducho všetko napchať. To je technicky pravda, ale nie kvalitatívne. LLM využívajú informácie na začiatku a na konci dlhého vstupu spoľahlivejšie než informácie v strede - efekt známy ako Lost-in-the-Middle. Čím dlhší kontext, tým vyššie riziko, že rozhodujúca informácia bude horšie zvážená alebo zanikne.

Pre agentov je to relevantné dvojnásobne. Po prvé, agent často zaplní svoj kontext históriou, ktorá je pre aktuálny krok irelevantná. Po druhé, preplnený kontext môže viesť k tomu, že model ignoruje staršie inštrukcie alebo skoré výsledky nástrojov zo stredu priebehu - s výsledkom, že kvalita odpovede klesá napriek technicky dostatočnému priestoru. Viac kontextu teda automaticky neznamená viac výkonu; od určitého bodu je menej, no kurátorovaný kontext lepší.

Pojmy a ich implikácia pre agenta

Pojem

Význam

Implikácia pre agenta

Token

Najmenšia spracovacia a zúčtovacia jednotka; časť slova, krátke slovo alebo interpunkčné znamienko

Poháňa náklady a latenciu; slovenský text vytvára na slovo viac tokenov

Tokenizácia

Rozklad textu na tokeny pomocou tokenizéra

Určuje, ako drahý bude daný vstup; závisí od jazyka a modelu

Kontextové okno

Maximálny počet tokenov (vstup plus výstup) na požiadavku

Tvrdá horná hranica; pri multi-step agentoch rýchlo vyčerpaná

Vstupné tokeny

Kontext odoslaný modelu

Rastú s každým krokom agenta; hlavná príčina nadproporcionálnych nákladov

Výstupné tokeny

Odpoveď generovaná modelom

Typicky 3- až 6-násobne drahšie než vstup; dlhé odpovede cielene obmedzovať

Lost-in-the-Middle

Slabšie využitie informácie v strede dlhých vstupov

Preplnený kontext znižuje kvalitu; kurátorovanie poráža úplnosť

Kompresia kontextu

Zhustenie/zhrnutie priebehu

Znižuje počet tokenov, latenciu a riziko degradácie pri dlhých behoch

Retrieval (RAG)

Vloženie iba relevantných snippetov cez vyhľadávanie namiesto plného textu

Udržiava kontext malý a zacielený; znižuje náklady a zlepšuje kvalitu zásahov

Príklad výpočtu: tokeny k nákladom

Support agent rieši požiadavku v 6 krokoch. V každom kroku znova posiela celý kontext. Zjednodušený predpoklad o priebehu vstupu: 2 000, 5 000, 9 000, 14 000, 20 000, 27 000 tokenov - v súčte zhruba 77 000 vstupných tokenov. K tomu generuje na krok približne 500 výstupných tokenov, teda zhruba 3 000 výstupných tokenov celkovo.

Prepočítajme to s tromi cenovými úrovňami (ceny za 1 mil. tokenov, vstup/výstup, stav 2026):

Model (stav 2026)

Cena vstupu

Cena výstupu

Náklady vstupu (77K)

Náklady výstupu (3K)

Celkovo na beh

Claude Opus 4.7 (Frontier)

$5,00

$25,00

$0,385

$0,075

~$0,46

Mistral Large 3 (EU-Sovereign)

$0,50

$1,50

$0,039

$0,0045

~$0,043

DeepSeek V4 Flash (Workhorse)

$0,14

$0,28

$0,0108

$0,00084

~$0,012

Jediný beh pôsobí lacno. No pri 50 000 takýchto behov mesačne vychádza zhruba 23 000 amerických dolárov pri frontier modeli oproti zhruba 2 150 amerických dolárov pri EU-Sovereign modeli a zhruba 600 amerických dolárov pri lacnom workhorse modeli. Faktor medzi frontier a workhorse tierom leží podľa modelu medzi 8 a 100 (stav 2026). Dve ponaučenia: po prvé, pri agentoch dominuje rozpočtu prenášaný vstup, nie výstup. Po druhé, výber modelu na čiastkový krok je masívnou pákou na náklady.

K tomu sa pridáva prirážka za dlhý kontext. Gemini 3.1 Pro sa napríklad nad 200 000 tokenov zdražuje: cena vstupu sa zdvojnásobuje, cena výstupu tiež výrazne stúpa ($4 / $18 namiesto $2 / $12 za 1 mil. tokenov, stav 2026). Kto nechá kontext agenta nekontrolovane narásť nad túto hranicu, platí nielen za viac tokenov, ale aj vyššiu tarifu za token.

Protistratégie: udržať kontext malý a zacielený

Umenie agent-engineeringu spočíva v tom, dať modelu na krok len to, čo skutočne potrebuje. Tri stratégie, ktoré sa dajú kombinovať:

  • Kompresia kontextu a sumarizácia. Staršie kroky sa zhustia do krátkeho zhrnutia namiesto prenášania plnotextového priebehu. Dlhé výstupy nástrojov sa zredukujú na výsledok. To súčasne znižuje vstupné tokeny, latenciu a riziko Lost-in-the-Middle.
  • Retrieval namiesto plného textu (RAG). Namiesto načítania celých znalostných databáz alebo dokumentov do promptu sa cez vyhľadávanie vložia iba relevantné snippety. To udržiava kontext malý a zvyšuje kvalitu zásahov, pretože model nie je rozptyľovaný irelevantným obsahom.
  • Smerovanie modelov a prompt-caching. Jednoduché čiastkové kroky (klasifikácia, extrakcia, formátovanie) bežia na lacných workhorse alebo open-weight modeloch; drahé frontier modely sa vyhradzujú len pre zložité kroky. Prompt-caching navyše znižuje náklady na opakujúce sa, stabilné časti kontextu ako systémové prompty.

Doplnkovo platí: výstup cielene obmedzovať (stručné, štruktúrované odpovede namiesto rozvláčnej prózy) a výsledky nástrojov orezať na nevyhnutné. V súčte tieto opatrenia rozhodujú o tom, či agent vyzerá v pilotnej fáze elegantne a v produkčnej prevádzke zostáva ekonomický.

Pre agentúry a B2B rozhodovateľov

Tokenizácia a kontextové okno nie sú technické okrajové témy, ale dve najdôležitejšie nastavovacie skrutky pre ekonomiku AI agenta. Kto rozpočtuje agentové riešenie, mal by náklady kalkulovať nie na požiadavku, ale na úplný multi-step beh a prepočítané na očakávaný mesačný objem - vrátane nadproporcionálneho rastu kontextu. Pre agentúry leží poradenská hodnota v tom, uchrániť klientov pred zlým prekvapením, že v pilote lacný agent sa pod záťažou stane nekalkulovateľne drahým alebo pomalým. Blck Alpaca podporuje stredoeurópske firmy v tom, aby koncipovali architektúry agentov tak, aby manažment kontextu, smerovanie modelov a retrieval boli zabudované od začiatku - pre plánovateľné náklady, akceptovateľnú latenciu a stabilnú kvalitu odpovedí v produkčnej prevádzke.

Často kladené otázky

Aký je rozdiel medzi tokenom a slovom?
Token je čiastková jednotka, ktorú tokenizér vytvára z textu - zvyčajne časť slova, celé krátke slovo alebo interpunkčné znamienko. V slovenčine zodpovedá jeden token zhruba 0,6 až 0,8 slova; dlhé zložené slová a diakritika často vytvárajú viac tokenov než v angličtine. Pravidlo: slovenský text spotrebuje na slovo viac tokenov, čo zvyšuje náklady a spotrebu kontextu.
Prečo sú agenti s každým krokom pomalší a drahší?
Agent pri každom kroku uvažovania znova posiela modelu celý doterajší priebeh: systémový prompt, požiadavku používateľa, všetky predchádzajúce odpovede a všetky výsledky nástrojov. Tento vstup rastie s každým krokom, a keďže vstupné tokeny poháňajú latenciu aj náklady, oba sa počas multi-step behu nadproporcionálne sčítavajú.
Čo znamená Lost-in-the-Middle a prečo je to relevantné pre agentov?
Lost-in-the-Middle opisuje, že LLM využívajú informácie na začiatku a na konci dlhého vstupu spoľahlivejšie než informácie v strede. Veľké kontextové okno teda automaticky neznamená lepšie výsledky: ak agent zaplní svoj kontext irelevantnou históriou, rozhodujúca informácia môže zaniknúť a kvalita odpovede klesá napriek technicky dostatočnému priestoru.
Vyrieši väčšie kontextové okno tento problém?
Iba čiastočne. Väčšie okno (napríklad 1 milión tokenov pri aktuálnych frontier modeloch ako Claude Opus 4.7 alebo Gemini 3.1 Pro, stav 2026) posúva tvrdú hranicu, no neodstraňuje ani s dĺžkou rastúce náklady a latenciu, ani degradáciu kvality pri veľmi dlhých vstupoch. Viac priestoru skôr zvádza k tomu, aby sa zbytočne veľa kontextu prenášalo. Manažment kontextu zostáva nevyhnutný.
Ako konkrétne znížim náklady na tokeny v produkčnom agentovi?
Tri páky: po prvé skrátiť kontext sumarizáciou starších krokov a odstránením redundantných výstupov nástrojov; po druhé retrieval namiesto plného textu - cez RAG vložiť iba relevantné znalostné snippety; po tretie smerovanie modelov - jednoduché čiastkové kroky presunúť na lacnejšie workhorse alebo open-weight modely a frontier modely využívať len pre zložité kroky. Doplnkovo prompt-caching znižuje opakujúce sa vstupné náklady.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.