Pillar 4

Základy LLM pre AI Agentov

Ako LLM fungujú ako reasoning engine Agentov, tokeny, kontextové okno, function calling a výber modelu.

Pre: Vývojári, produktoví manažéri, AI špecialisti

Definition

LLM-základy pre agentov označujú technické základné vedomosti, ktoré sú potrebné na nasadenie Large Language Models (LLMs) ako Reasoning-Engine v AI-agentoch: súhru Tokenov, Kontextového okna, Function Calling a voľby modelu. V kontexte agentov nie je LLM len generátorom textu, ale centrálnou rozhodovacou a plánovacou inštanciou, ktorá prostredníctvom štruktúrovaných volaní Toolov interaguje s dátovými zdrojmi a systémami. Kto nasadzuje agentov do produkcie, musí ovládať tieto základy rovnako ako strategickú voľbu medzi Open-Source a proprietárnymi modelmi.

Na prvý pohľad

✓LLM je v agentovi Reasoning-Engine: plánuje, vyberá Tooly a riadi loop. V praxi nerozhoduje o produkčnom úspechu na 60-80 % veľkosť modelu, ale kvalita kontextu (Context Engineering) (Anthropic Applied AI, 2025).
✓Tokeny sú zúčtovacia a spracovateľská jednotka. Nemčina vytvára v bežných BPE-tokenizéroch o 30-50 % viac Tokenov než angličtina (Compound-Nouns, flexia), to zmenšuje efektívne kontextové okná a zodpovedajúco zvyšuje náklady.
✓Kontextové okno je konečný zdroj s klesajúcim hraničným úžitkom. Napriek nominálne 1M-2M Tokenov (Claude Opus 4.7, Gemini 3.1 Pro) leží efektívna pracovná kapacita okolo 30-50 % pre Reasoning- a 60-80 % pre Retrieval-tasky, „Context Rot“ (Chroma, júl 2025).
✓Function Calling / Tool-Use je most medzi LLM a systémami. Najčastejším zdrojom chýb nie sú modely, ale nejasné alebo prekrývajúce sa Tool-definície; 3-7 aktívne načítaných Toolov plus dynamická Discovery sú v roku 2026 Best Practice.
✓Model Context Protocol (MCP, Anthropic nov. 2024) sa vyvinul na de facto štandard pre napojenie Toolov, podľa odvetvových správ z ~100 000 na ~97 mil. SDK-stiahnutí/mesiac (marec 2026), adoptovaný spoločnosťami OpenAI, Google a Microsoft.
✓Capability-Gap medzi najlepším Open-Weight (DeepSeek V4 Pro, Kimi K2.6, Mistral Large 3) a Frontier-Closed (Claude Opus 4.7, GPT-5.5 Pro, Gemini 3.1 Pro) sa zúžil z 12-18 mesiacov (2024) na 3-6 mesiacov (2026); pri Codingu/Reasoningu čiastočne nulový.
✓Cenové rozpätia sú značné: Closed-Frontier leží s Claude Opus 4.7 ($5/$25) a GPT-5.5 Pro ($30/$180) za mil. Tokenov výrazne nad Open-Weight ako Mistral Large 3 ($0,50/$1,50) alebo DeepSeek V4 Flash ($0,14/$0,28).
✓Voľba modelu už v roku 2026 nie je binárna otázka Open-vs-Closed, ale Portfolio-alokácia podľa workloadu pozdĺž Weights-Control, Hosting-suverenity, Customization-Path a nákladového profilu, pre DACH navyše ovplyvnená GDPR, EU AI Act a sentimentom suverenity (Bitkom 2025/2026).

Čo znamená „LLM ako Reasoning-Engine“?

AI Agent je viac než Chatbot: sleduje cieľ cez viaceré kroky, volá Tooly, pozoruje výsledky a rozhoduje, čo robiť ďalej. V centre tohto loopu stojí Large Language Model (LLM) ako Reasoning-Engine, inštancia, ktorá plánuje, zvažuje, vyberá Tooly a interpretuje výsledky.

Metafora, ktorá formovala prax, pochádza od Andreja Karpathyho (jún 2025): LLM je CPU, kontextové okno pracovná pamäť (RAM) a engineer preberá rolu operačného systému, ktorý napĺňa pamäť pri každom kroku správnymi informáciami. Z toho vyplýva centrálne poznanie pre rok 2026: agenti v produkcii takmer nikdy nezlyhávajú preto, že model je „príliš malý“. Zlyhávajú preto, že kontext je chybne skonštruovaný. Anthropicov Applied AI Team radí Context Engineering ako samostatnú disciplínu, ktorá dnes na 60-80 % rozhoduje o tom, či agent beží spoľahlivo.

Kto stavia agentov, potrebuje preto solídny základ k štyrom stavebným kameňom: Tokeny, Kontextové okno, Function Calling a voľba modelu (Open-Source vs. proprietárny). Táto prehľadová stránka zhŕňa základy; prehlbujúce témy (Context Engineering, RAG, FinOps, Compliance) sú vždy samostatnými stavebnými kameňmi.

Tokeny: jednotka spracovania a nákladov

LLMs nespracúvajú text ako slová, ale ako Tokeny, Subword-jednotky, ktoré tokenizér vytvára z textu. Tokeny sú zároveň zúčtovacou jednotkou: poskytovatelia účtujú Input- a Output-Tokeny oddelene, väčšinou za milión Tokenov.

Pre DACH-priestor nie je tokenizácia okrajovou témou, ale merateľným nákladovým faktorom. Nemčina vytvára v bežných BPE-tokenizéroch o 30-50 % viac Tokenov na ekvivalentný obsah než angličtina. Príčiny:

Compound-Nouns: „Lebensversicherungsgesellschaftsangestellter“ sa rozpadá na dlhú Subword-reťaz, zatiaľ čo „life insurance company employee“ sa rozkladá na známe slovné Tokeny.
Flexia: Nemecké pádové a slovesné koncovky vytvárajú morfologické varianty, ktoré sa zaznamenávajú ako samostatné Subwords.
Tokenizer-Bias: Tréningové dáta bežných tokenizérov sú silne anglicky orientované; zriedkavé nemecké Subwords sa rozkladajú jemnejšie.

Z toho vyplývajú tri praktické dôsledky: po prvé, efektívne kontextové okná pojmú menej obsahu (200K-window na Sonnet 4.6 zodpovedá cca 130K-150K Tokenom nemeckého obsahu). Po druhé, náklady na call sú zodpovedajúco o 30-50 % vyššie. Po tretie, Prompt Caching sa pre DACH-workloady oplatí ešte viac než pre anglické, pretože zľava pôsobí na väčší počet Tokenov.

Dôležitá poznámka k migrácii modelu: Claude Opus 4.7 bol dodaný s novým tokenizérom, ktorý pre mnohé Inputy generuje až o 35 % viac Tokenov než Opus 4.6, pri identických cenách Per-Token tak môže efektívny Cost-per-Request stúpnuť už len výmenou tokenizéra. Pred každou migráciou platí: benchmarkovať voči vlastnému Workload-profilu.

Kontextové okno: nominálne verzus efektívne

Kontextové okno je maximálny počet Tokenov, ktoré model pri jednej požiadavke dokáže „vidieť“, teda System-Prompt, Tool-definície, Retrieval-obsahy, Conversation-History a priestor pre odpoveď spolu. V roku 2026 sú nominálne veľké okná štandardom: Claude Opus 4.7 a Sonnet 4.6 podporujú 1M Tokenov, Gemini 3.1 Pro až 2M.

Rozhodujúce však je: nominálna kapacita sa nerovná efektívnej. Chromova štúdia „Context Rot“ (júl 2025, 18 Frontier-modelov) empiricky ukázala, že všetky modely s rastúcou dĺžkou Inputu degradujú. Tri mechanizmy sa navzájom zosilňujú:

Lost-in-the-Middle: Modely venujú väčšiu pozornosť začiatku a koncu kontextu, horšiu stredu.
Attention-Dilution: Kvadratická komplexita Attention znamená pri 100K Tokenov už okolo 10 miliárd párových vzťahov.
Distractor-Interference: Sémanticky podobné, ale irelevantné obsahy aktívne zvádzajú k chybným odpovediam.

Zistenie je závislé od tasku: pri jednoduchom Faktoid-Retrieval novšie modely výrazne dobehli, pri Multi-Hop-Reasoning zostáva efekt štrukturálny. Ako heuristika pre produkciu platí: efektívna pracovná kapacita pri 30-50 % nominálnej pre reasoning-náročné a 60-80 % pre retrieval-náročné tasky. Kto úplne naplní 1M-window, prevádzkuje plytvanie so zrážkou na kvalite.

Model	Nominálny Context	Efektívna pracovná kapacita (heuristika)
Claude Opus 4.7	1M	300-500K (Reasoning), 600-800K (Retrieval)
Claude Sonnet 4.6	1M (štandard 200K)	200-400K (Reasoning), 400-600K (Retrieval)
Gemini 3.1 Pro	2M	300-500K (Reasoning), 600K-1M (Retrieval)
DeepSeek V4 Pro	1M	Open-Weight; Long-Context-Performance pod Closed-Weight

Praktickou odpoveďou na Context Rot nie je „napchať dnu viac“, ale kurátorovať: stabilné stavebné kamene cachovať, dynamické obsahy cielene načítavať, staré obsahy prunovať a pri 70-85 % vyťaženia komprimovať (Compaction). To je predmetom stavebného kameňa Context Engineering.

Function Calling a Tool-Use: LLM ako aktér

Aby sa LLM stalo engine agenta, musí byť schopné konať, teda vytvárať štruktúrované volania externých funkcií. Function Calling (tiež Tool-Use) je na to mechanizmus: model dostane Tool-definície vo formáte JSON-Schema a v prípade potreby vráti štruktúrované volanie s parametrami, ktoré aplikácia vykoná.

Najdôležitejšie praktické zistenie roku 2026: keď agent koná nesprávne, príčina väčšinou nie je v modeli, ale v Tool-definícii. Anthropic formuluje smernicu ostro: ak ľudský engineer nedokáže jednoznačne povedať, ktorý Tool sa má v danej situácii použiť, nedokáže to ani agent. Konkrétne dôsledky:

Tool-Count: 3-7 aktívne načítaných Toolov je optimálnych; od cca 10 Toolov začína merateľná degradácia. V Anthropicových interných MCP-Evals stúpla Tool-Selection-Accuracy s dynamickým Tool-vyhľadávaním z 49 % na 74 % (Opus 4), resp. 79,5 % na 88,1 % (Opus 4.5).
Tool-Overlap je fatálny: Dva Tooly, ktoré by mohli vierohodne zodpovedať tú istú požiadavku, sú jediný problém, ktorý nevyrieši žiaden, ani ten najlepší Prompt. Jasná klauzula „kedy-nepoužívať“ v popise je najúčinnejšou, často zabúdanou komponentou.
Štruktúrované Outputy: Pre Downstream-systémy musia byť Outputy spoľahlivo strojovo čitateľné. OpenAI Structured Outputs (GA od augusta 2024) dosahuje cez Constrained Decoding 100 % konformitu so schémou; Anthropic dosahuje ekvivalent cez Tool-Use s JSON-Schema; Open-Weight-modely cez Grammar-Constrained Decoding (Outlines, jsonformer, vLLM).

Štandardom pre napojenie Toolov je v roku 2026 Model Context Protocol (MCP), ktorý Anthropic v novembri 2024 zverejnil ako JSON-RPC-štandard. Podľa odvetvových správ narástli SDK-stiahnutia z ~100 000/mesiac (nov. 2024) na ~97 mil./mesiac (marec 2026), s adopciou zo strany OpenAI, Google a Microsoft. (Tieto čísla stiahnutí pochádzajú z Vendor-/odvetvových správ a nie sú nezávisle validované; samotný vzorec adopcie sa považuje za nesporný.) Pre hodnotenie kvality Tool-Callingu zostáva najrelevantnejším benchmarkom Berkeley Function-Calling Leaderboard (BFCL), s výhradou, že žiaden model nevedie naprieč všetkými kategóriami a Closed-Weight pri komplexnom Multi-Turn-Tool-Use stále vedie.

Open-Source vs. proprietárny: voľba modelu

Voľba modelovej bázy je strategicky najzávažnejším rozhodnutím. V roku 2026 už nie je binárnou otázkou, ale Portfolio-alokáciou. Najprv vyjasnenie pojmov, lebo „otvorený“ je viacrozmerné:

Closed/Proprietárny: API-only, váhy nedostupné (Claude, GPT-5.5, Gemini).
Open-Weight: Váhy stiahnuteľné, prípadne pod reštriktívnymi licenciami. Llama je Open-Weight, ale OSI/FSF ho výslovne neklasifikuje ako Open-Source, okrem iného kvôli prahu 700 mil. MAU a EU-Multimodal-reštrikcii v Llama 4.
Open-Source AI podľa OSI-definície (OSAID 1.0, okt. 2024): vyžaduje navyše otvorené tréningové/inferenčné kódy a dostatočnú transparentnosť tréningových dát. Väčšina modelov marketovaných ako „Open Source“ tento prah nespĺňa.

Centrálny trend: Capability-Gap medzi najlepším Open-Weight (DeepSeek V4 Pro, Kimi K2.6, Mistral Large 3, Qwen 3.6, Llama 4 Maverick) a Frontier-Closed (Claude Opus 4.7, GPT-5.5 Pro, Gemini 3.1 Pro) sa zúžil z 12-18 mesiacov (2024) na 3-6 mesiacov (2026), na jednotlivých workloadoch (Coding, Long-Context, Math) je nulový alebo negatívny. Tak leží Kimi K2.6 (1T parametrov, Open-Weight) na Artificial-Analysis-Intelligence-Index na 4. mieste (hodnota 54), priamo za Anthropic, Google a OpenAI (po 57).

Zároveň zostávajú Premium-workloady (agentický Coding na najvyššej úrovni, Frontier-Math, Premium-Multimodal) pri Closed-Frontier reálne nadradené. Empiricky pripadá v DACH-koncernoch typicky 15-35 % objemu Tokenov, ale 60-80 % vnímanej strategickej hodnoty do tejto Premium-kategórie. Hybrid sa tým stáva ekonomicky nevyhnutným.

Model	Tier	Licencia / Prístup	Cena $ / 1M Tok. (in/out)	Profil
Claude Opus 4.7	Frontier-Closed	Proprietárny, API	$5 / $25	Frontier-Coding, Tool-Orchestration
GPT-5.5 Pro	Frontier-Closed	Proprietárny, API	$30 / $180	Top-Reasoning, Frontier-Math; drahý
Gemini 3.1 Pro	Frontier-Closed	Proprietárny, API	$2 / $12	1M-2M kontext, omnimodálny
Mistral Large 3	Frontier-near	Apache 2.0 (EU)	$0,50 / $1,50	EU-Sovereign-kotva, silne multilinguálny
DeepSeek V4 Pro	Frontier-near	MIT-derived (CN)	$1,74 / $3,48	Cost-Disruption, Coding/Math-parita
Kimi K2.6	Frontier-near	Modified MIT (CN)	$0,60 / $2,50	#1 medzi Open-Weight, silný Agentic-Performance
DeepSeek V4 Flash	Workhorse	MIT-derived (CN)	$0,14 / $0,28	Najhlbšia Cost-Disruption

Ceny podľa Vendor-Public-Listing, stav apríl-máj 2026; pred každým viacročným záväzkom verifikovať.

Triezva rozhodovacia logika prebieha cez štyri dimenzie: Weights-Control (kto môže model kedy a za akých podmienok dodať?), Hosting-suverenita (akej jurisdikcii podlieha stack?), Customization-Path (Off-the-shelf, Prompt, RAG, LoRA, Full Fine-Tuning) a Cost-Profile (Per-Token vs. amortizácia Self-Hostingu). Pre väčšinu štandardných workloadov, klasifikácia, extrakcia, RAG-podporovaní znalostní asistenti, nemecké jazykové workflows, už Closed-Frontier-Premium nie je ekonomicky nevyhnutný.

DACH-súvislosť: suverenita a Compliance

V DACH-priestore formujú voľbu modelu navyše tri faktory. Po prvé sentiment suverenity: podľa Bitkomu (štúdia Digitale Souveränität 2025, 603 podnikov) sa 89 % digitálnych importérov vníma ako závislých; v prieskume obyvateľstva (KW 8-11/2026) považuje 72 % Nemecko pri AI za príliš závislé od USA, 67 % by rado používalo nemeckú AI. Komerčne dôveryhodný Sovereign-EU-Tier existuje s Mistralom a, po fúzii Cohere/Aleph-Alpha (apríl 2026, ocenenie $20 mld., STACKIT ako Cloud-Backbone), medzičasom dvojnásobne.

Po druhé je relevantné, že EU-región na US-hyperscaleri (napr. Claude na AWS Bedrock Frankfurt) znižuje latenciu a GDPR-trenie, ale neeliminuje US-jurisdikciu (CLOUD Act). Skutočná suverenita predpokladá Sovereign-EU-Stack (STACKIT, OVHcloud, T-Systems, IONOS) alebo On-Prem.

Po tretie platia regulačné upozornenia (informačné, nie právne poradenstvo): Closed-API-modely sú GPAI-modelmi svojich poskytovateľov; DACH-Deployer nesie Deployer-povinnosti. Kto Open-Weight-model substanciálne fine-tunuje, môže sa sám stať GPAI-Providerom, Guideline EU-AI-Office (júl 2025) uvádza indikatívny, nezáväzný prah pri >1/3 Base-Pretraining-Computu (Default 3,33 × 10²² FLOPs, ak je neznámy). LoRA/QLoRA ležia typicky výrazne pod ním, Continued Pretraining nad ním. GPAI-Provider-povinnosti platia od 2. augusta 2025; plné Enforcement-Powers od 2. augusta 2026 (provizórne lehoty z časového plánu EU-AI-Act, treba ich jasne považovať za provizórne). K tomu pristupujú GDPR-povinnosti na tréningový pipeline pri Fine-Tuningu na osobné údaje. Tieto body sú prehĺbené v príslušných Compliance-stavebných kameňoch.

Výhľad a praktické upozornenie

LLM-základy nie sú jednorazovou učebnou dávkou, ale pohyblivým cieľom: tokenizéry sa menia, kontextové okná rastú, modely vychádzajú v mesačnom takte a hodnoty benchmarkov kolíšu podľa Test-Harness o 5-10 percentuálnych bodov. Tri otvorené otázky pre roky 2026/2027 stoja za obzvlášť pozornom: či sa Open-vs-Closed-Capability-Gap ďalej zmenšuje, či dlhé kontextové okná splnia prísľub „napchať všetko dnu“ (aktuálne: nie, Context Engineering zostáva nevyhnutný) a či Sovereign-EU-infraštruktúra dosiahne paritu v škále s US-hyperscalermi.

Pre prax preto platí jednoduchá disciplína: Nevyberať z marketingového blog-postu, ale merať voči vlastnému Eval-Setu. Kto validuje voľbu modelu, kontextový rozpočet a Tool-design na reálnych Traces namiesto na intuícii, stavia agentov, ktorí unesú produkciu, a zachová si strategickú flexibilitu pri cenových, licenčných alebo Capability-posunoch zmeniť poskytovateľa bez toho, aby začínal odznova.

Všetky články v tejto téme

5 Články

2.10

Tokenizácia a kontextové okno: Čo poháňa latenciu a náklady agenta

Tokenizácia rozkladá text na tokeny, najmenšie jednotky spracovania LLM; kontextové okno je maximálny počet tokenov, ktoré model spracuje spoločne pri jednej požiadavke. Pri AI agentoch oba priamo určujú náklady a latenciu, pretože každý krok znova prenáša celý doterajší kontext.

Začiatočník·8 min

2.11

Temperature, Top-p a sampling: Nastavenia pre deterministických agentov

Temperature, Top-p a Top-k sú sampling parametre, ktoré riadia, ako náhodne LLM vyberá nasledujúci token. Nízke hodnoty (Temperature 0 až 0,2) robia výstupy reprodukovateľnými a sú pre tool-calls a štruktúrované výstupy povinné; vyššie hodnoty zvyšujú varianciu a hodia sa pre kreatívny obsah.

Pokročilý·7 min

2.12

Function Calling vs. Tool Use: Vysvetlenie pojmov a implementácie

Function Calling a Tool Use označujú rovnakú základnú funkciu: LLM nevydáva súvislý text, ale štruktúrované, schéme zodpovedajúce volanie externe definovanej funkcie. OpenAI zaviedlo „Function Calling", Anthropic používa „Tool Use", technicky sú oba založené na JSON Schema a takmer identické, s rozdielmi v názvoch polí a mechanike API.

Pokročilý·8 min

2.13

Štruktúrované výstupy s JSON Schema: Ako vynútiť spoľahlivé odpovede agentov

Štruktúrované výstupy s JSON Schema sú technika, pri ktorej je LLM nútený vydať svoju odpoveď presne podľa zadanej JSON schémy. Namiesto voľného textu model dodá strojovo čitateľný, validovateľný objekt. To robí agentové pipeline spoľahlivými, pretože nadväzujúce programové kroky sa môžu spoľahnúť na garantovanú dátovú štruktúru.

Pokročilý·7 min

2.14

LLM-router: Kedy veľký frontier model, kedy malý, kedy open source?

LLM-router je smerovacia logika, ktorá každý krok agenta automaticky priradí vhodnému modelu: veľké frontier modely pre komplexný reasoning, malé lacné modely pre jednoduché kroky, open-source alebo v EU hostované modely pre suverenitu a kontrolu nákladov. Voľba sa riadi štyrmi kritériami: kvalita, náklady, latencia a compliance.

Pokročilý·8 min