LLM-router: Kedy veľký frontier model, kedy malý, kedy open source?
LLM-router je smerovacia logika, ktorá každý krok agenta automaticky priradí vhodnému modelu: veľké frontier modely pre komplexný reasoning, malé lacné modely pre jednoduché kroky, open-source alebo v EU hostované modely pre suverenitu a kontrolu nákladov. Voľba sa riadi štyrmi kritériami: kvalita, náklady, latencia a compliance.
Key Takeaways
- ✓Voľba modelu nie je v roku 2026 jednorazové rozhodnutie, ale per-krok smerovacia logika: agent môže podľa čiastkovej úlohy prepínať medzi frontier, workhorse a malým speed modelom.
- ✓Capability-gap medzi najlepším open-weight (Kimi K2.6, DeepSeek V4 Pro, Mistral Large 3) a frontier-closed (Claude Opus 4.7, GPT-5.5 Pro, Gemini 3.1 Pro) sa podľa researchu zmenšil z 12-18 mesiacov (2024) na 3-6 mesiacov (2026).
- ✓Nákladová páka je reálna: closed-frontier zostáva podľa researchu 8-100x drahší na output než lacné open-weight modely (stav 2026) - smerovanie jednoduchých krokov na malé modely masívne znižuje účet za tokeny.
- ✓Open vs. proprietárny nie je podľa researchu binárna, ale portfóliová otázka pozdĺž štyroch dimenzií: kontrola weights, hosting-suverenita, cesta customizácie, nákladový profil.
- ✓Pre DACH-B2B je hosting-suverenita tvrdým smerovacím kritériom: workforce-defining a agenti spracúvajúci zákaznícke dáta patria na suverénny EU-substrát, capability-viazané analytické workloady môžu bežať na US-closed-frontier.
- ✓China-open-weight (DeepSeek, Kimi, Qwen) je licenčne permisívny, nesie však podľa researchu geopolitické tail-risk a potrebuje vedomé obmedzenie workloadov.
LLM-router je smerovacia logika, ktorá každý krok KI-agenta automaticky priradí vhodnému modelu. Veľké frontier modely preberajú komplexný reasoning a orchestráciu nástrojov, malé lacné modely vybavujú jednoduché kroky ako klasifikácia alebo extrakcia, a open-source resp. v EU hostované modely pokrývajú požiadavky na suverenitu a náklady. Namiesto jednorazového rozhodnutia "ktorý model zvolíme?" sa tým voľba modelu stáva priebežným priraďovaním úlohy k modelu pozdĺž štyroch kritérií: kvalita, náklady, latencia a compliance.
Centrálny poznatok pre rok 2026: otázka "veľký alebo malý model, proprietárny alebo open source?" už podľa podkladového researchu nie je binárne rozhodnutie, ale portfóliová alokácia. Produktívny agent beží zriedka na jedinom modeli.
Tri rýchle odpovede
- Kedy veľký (frontier-closed)? Pri komplexnom reasoningu, agentic codingu na špičkovej úrovni, very-long-context-úlohách, prémiovom multimodale a zriedkavých hodnotných analytických krokoch. Táto kategória zahŕňa v DACH-koncernoch typicky 15-35 % objemu tokenov, nesie však 60-80 % vnímanej strategickej hodnoty.
- Kedy malý (workhorse/speed)? Pri jednoduchých, častých, dobre definovaných krokoch: klasifikácia, extrakcia, sumarizácia, samotné smerovacie rozhodnutia, štandardné formátovanie. Tu už frontier-prémium podľa researchu nie je ekonomicky nevyhnutný.
- Kedy open source / EU-hosting? Keď dominuje suverenita, dátová rezidencia, kontrola nákladov pri vysokom objeme alebo požiadavky spolurozhodovania - najmä pri workforce-defining a agentoch spracúvajúcich zákaznícke dáta.
Prečo binárna otázka modelu v roku 2026 už neobstojí
Capability-gap medzi najlepším open-weight a frontier-closed sa podľa researchu zúžil z 12-18 mesiacov (2024) na 3-6 mesiacov (2026); na jednotlivých workloadoch je nulový alebo negatívny. Konkrétne: Kimi K2.6 (1T-parametrov, Modified MIT, open-weight) sa na Artificial-Analysis-Intelligence-Index nachádza na 4. mieste overall - len za Anthropic, Google a OpenAI - a na SWE-Bench Pro dosahuje s 58,6 % paritu s GPT-5.5. DeepSeek V4 Pro dosahuje na SWE-Bench Verified 80,6 % a Codeforces-rating 3.206, najvyšší kedy publikovaný súťažný coding-rating.
Súčasne zostáva frontier-prémium pre určité kroky reálny a netriviálny: na FrontierMath dosahuje GPT-5.5 Pro najlepší verejný math-výsledok, na GPQA Diamond vedie Gemini 3.1 Pro s 94,3 %, Claude Opus 4.7 sa na SWE-Bench Verified nachádza na 87,6 %. Pre zriedkavé, hodnotné reasoning-workloady - právny výskum, vedeckú tvorbu hypotéz, komplexnú finančnú analýzu - zostáva frontier-closed materiálne superior.
Pre voľbu modelu to znamená: úprimná otázka nie je "open alebo closed?", ale "ktorý krok patrí na ktorú úroveň?".
Nákladová páka: prečo sa smerovanie vypláca
Ekonomickým hnacím motorom za LLM-smerovaním je cenový rozptyl. Closed-frontier zostáva podľa researchu 8-100x drahší na output než lacné open-weight modely. Kto posiela každý krok agenta - aj jednoduchú klasifikáciu e-mailu - na frontier model, platí prémiové ceny za kvalitu, ktorú daný krok vôbec nepotrebuje.
Nasledujúci prehľad ukazuje reprezentatívne cenníkové ceny (stav apríl-máj 2026, USD za milión tokenov input/output). Ceny a verzie modelov sa rýchlo menia a pred každým viacročným záväzkom je nutné ich overiť.
Model | Úroveň | Cena in/out (USD/1M tok., stav 2026) | Profil suverenity |
|---|---|---|---|
Claude Opus 4.7 | Frontier-closed | 5 / 25 | US-jurisdikčný (EU-región dostupný) |
GPT-5.5 Pro | Frontier-closed | 30 / 180 | US-jurisdikčný (Azure-EU) |
Gemini 3.1 Pro | Frontier-closed | 2 / 12 (>200K: 4 / 18) | US-jurisdikčný (Vertex-EU) |
Claude Sonnet 4.6 | Workhorse-closed | cca 3 / 15 | US-jurisdikčný |
Claude Haiku 4.5 | Speed-closed | cca 1 / 5 | US-jurisdikčný |
Mistral Large 3 (675B/41B aktívne) | Frontier-near, Apache 2.0 | 0,50 / 1,50 | EU-suverénny (FR) |
Ministral 3 | Speed, open-weight | 0,15 / 0,40 | EU-suverénny |
Kimi K2.6 (1T/32B aktívne) | Frontier-near, Modified MIT | 0,60 / 2,50 (Moonshot) | CN-pôvod, geopolitické tail-risk |
DeepSeek V4 Flash | Workhorse, MIT-derived | 0,14 / 0,28 | CN-pôvod, geopolitické tail-risk |
Rozptyl je drastický: v typickom porovnaní je output-cena vzdialená faktorom 8 až 100; ak postavíme najdrahší frontier model proti najlacnejšiemu workhorse, stojí GPT-5.5 Pro na output dokonca cca 640-násobok DeepSeek V4 Flash. Práve táto medzera robí zo smerovania ekonomický štandard - nie z ideologických, ale z čisto podnikovo-ekonomických dôvodov.
Router-pattern: úloha k modelu
LLM-router priraďuje prichádzajúce kroky ich triede komplexnosti a compliance a volí najlacnejší model, ktorý požiadavku splní. V praxi často samotnú klasifikáciu úlohy preberá malý, rýchly model, predtým než vlastná práca prejde na vhodný cieľový model. Smerovacia tabuľka je srdcom celku:
Scenár | Typ modelu | Zdôvodnenie |
|---|---|---|
Komplexný viacstupňový reasoning, agentic coding-plán | Frontier-closed (Claude Opus 4.7, GPT-5.5 Pro) | Capability-prémium reálny; najlepší výsledok na najťažších úlohách ospravedlňuje vysokú output-cenu |
Frontier-math, vedecká tvorba hypotéz | Frontier-closed (GPT-5.5 Pro) | Najlepší verejný math-výsledok podľa researchu; zriedkavý, hodnotný workload |
Orchestrácia nástrojov, terminal-/shell-tasks | Frontier-closed (GPT-5.5 vedie Terminal-Bench, Claude Opus silný) | Agentic-capability rozhoduje o miere úspešnosti |
Štandardný coding, code-refactoring at scale | Frontier-near open-weight (DeepSeek V4 Pro, Kimi K2.6) | Math/coding-parita s frontier-closed; výrazne lacnejší |
Klasifikácia, extrakcia, sumarizácia (batch) | Workhorse/speed open-weight (DeepSeek V4 Flash, Ministral) | 50-80 % frontier-capability postačujúce; nákladová výhoda dominuje |
Nemecky hovoriace workhorse-workflows | EU-open-weight (Mistral, Aleph Alpha Pharia, Cohere Aya, Teuken-7B) | Nemecká performance štrukturálny diferenciátor; US-open-weight (Llama, cca 8 % neanglický) slabší |
Workforce-defining agent (HR-bot, interné znalosti) | Suverénny-EU (Mistral/Aleph Alpha na STACKIT, OVHcloud, T-Systems) | Spolurozhodovanie, GDPR a reputácia kompaundujú; zjednodušovač compliance |
Agent spracúvajúci zákaznícke dáta (EU-dáta) | Suverénny-EU alebo min. US-hyperscaler EU-región s DPA | EU-región znižuje GDPR-trenie, neeliminuje však US-jurisdikciu |
Capability-viazaná analýza bez osobných údajov | US-closed-frontier akceptovateľný | Capability-prémium ekonomicky podstatný, žiadny constraint suverenity |
Latenčne kritická interaktívna odpoveď | Speed-úroveň (Claude Haiku, Groq/Cerebras-hostovaný) | Sub-sekundový TTFT; kvalita podradná oproti reakčnému času |
Štyri dimenzie tradeoff
Research štruktúruje voľbu modelu pozdĺž štyroch dimenzií, ktoré dobrý router spoločne zobrazuje:
- Kvalita (kontrola weights & capability): koľko hĺbky reasoningu krok skutočne potrebuje? A kto kontroluje model - leží ako closed-API výhradne vo vendor-roadmape, alebo je ako open-weight portovateľný k inému inference-provideru alebo k self-hostingu?
- Náklady (cost-profile): per-token-closed (prémium, plne variabilný), per-token-open-weight cez inference-providera (mid-tier) alebo self-hosting (fixné náklady, marginálne token-náklady takmer nulové pri vysokom využití). Self-hosting sa podľa researchu stáva skutočne atraktívnym až od konštantných 5-50 mil. tokenov/deň a len s existujúcou MLOps-kapacitou.
- Latencia: speed-špecialisti ako Groq (LPU) a Cerebras (wafer-scale) dodávajú sub-sekundový time-to-first-token pre vybrané modely - relevantné pre interaktívnych agentov, irelevantné pre nočné batch-spracovanie.
- Compliance (hosting-suverenita): EU-región na US-hyperscaleri nie je podľa researchu to isté ako suverénny-EU. Znižuje latenciu a GDPR-trenie, neeliminuje však US-jurisdikciu (CLOUD Act, OFAC). Štrukturálne mimo dosahu USA ležia len suverénne EU-stacky (STACKIT, OVHcloud, T-Systems Open Telekom Cloud, IONOS, Hetzner) a on-prem.
Open source vs. proprietárny: triezve zváženie
Tu sa oplatí presný pohľad, pretože "open" je viacdimenzionálny. Open-weight znamená, že weights sú stiahnuteľné - nie automaticky, že licencia je neobmedzená. Mistral Large 3 (Apache 2.0, EU-suverénny) a Phi-4 (MIT) sú permisívne. Llama 4 naopak podlieha Llama Community License s prahom 700 mil. MAU a EU-multimodal-reštrikciou - priama regulačná reakcia na EU AI Act; OSI klasifikuje Llama explicitne ako nie open-source.
China-open-weight (DeepSeek V4 pod MIT-derived, Kimi K2.6 pod Modified MIT, Qwen 3.6-27B pod Apache 2.0) je licenčne genuínne permisívny - permisívnejší než Llama. Ale jurisdikciu pôvodu nemožno podľa researchu neutralizovať permisívnosťou licencie. Pre DACH-koncerny s US-dcérou, US-záväzkami voči zmluvným partnerom alebo kritickou infraštruktúrou nesie táto možnosť neurčité geopolitické tail-risk (export controls, reputačné riziko), ktoré treba explicitne obmedziť per workload - akceptovateľné napríklad pre coding-agentov na verejnom kóde alebo batch-klasifikáciu na verejne dostupných textoch, problematické pri citlivých zákazníckych dátach.
Suverenita je v roku 2026 navyše merateľné obstarávacie kritérium: podľa Bitkom-dát sa 89 % nemeckých digitálnych importérov cíti závislých, 72 % obyvateľstva považuje Nemecko pri KI za príliš závislé od USA. V rokovaniach so zamestnaneckou radou je suverénny EU-substrát štrukturálne menej trecí, pretože audítorské práva, dátová rezidencia a vendor-jurisdikcia sa dajú jednoduchšie dohodnúť.
Decentný, no dôležitý odkaz: tvrdenia o compliance a licenciách tu nie sú právnym poradenstvom. Relevantná pre smerovanie je hranica z researchu: kto open-weight model podstatne fine-tunuje (indikatívny prah EU AI Act: viac než tretina base-pretraining-computu, default 3,33 × 10²² FLOPs), môže sa sám stať GPAI-providerom. LoRA/QLoRA leží typicky hlboko pod tým; continued pretraining prah takmer vždy prekročí. To je argument staviť v customization-pipeline na RAG plus prompt-engineering namiesto na ťažký fine-tuning - a dôvod nechať konkrétne právne posúdenie kvalifikovane preveriť.
Praktický príklad: support-agent so zmiešaným smerovaním
Agent zákazníckeho servisu spracúva denne 100.000 požiadaviek. Bez routera beží všetko na Claude Opus 4.7 (5/25 USD za mil. tokenov). S routerom vyzerá priradenie takto:
- Krok 1 - intent-klasifikácia (70 % záťaže): speed-open-weight model ako Ministral 3 (0,15/0,40 USD) na EU-región-inference (napr. DeepInfra Frankfurt) klasifikuje požiadavku. Suverénne konformné, keďže EU-hostované, a faktorom ~60 lacnejšie na output než Opus.
- Krok 2 - štandardná odpoveď zo znalostnej bázy (20 % záťaže): EU-workhorse ako Mistral Large 3 (0,50/1,50 USD, Apache 2.0, EU-suverénny) generuje odpoveď cez RAG - silná nemecká performance, dátovo rezidentná.
- Krok 3 - eskalácia s komplexným zmluvným reasoningom (10 % záťaže): tu nastupuje frontier model (Claude Opus 4.7), pretože kvalita odpovede je obchodne kritická a prémium sa ospravedlňuje.
Výsledok: drahá frontier-cesta nesie už len desatinu záťaže, prevažná časť beží na lacných, EU-suverénnych modeloch. Pseudokód smerovacieho rozhodnutia:
```
intent = classify(poziadavka) # Ministral 3, EU-región
if intent in JEDNODUCHE:
return mistral_large_3(rag(poziadavka)) # EU-suverénny workhorse
elif intent == ZMLUVA_KOMPLEX:
return claude_opus_47(poziadavka) # Frontier len kde nutné
```
Aby sa smerovanie nestalo vendor-pascou, odporúča research portabilitný layer (napríklad LiteLLM alebo OpenRouter pre multi-provider-smerovanie) a aspoň jednu tenkú open-weight migračnú cestu pre najdôležitejšie workloady - plus kontinuálnu eval-pipeline proti held-out testovacej množine, pretože closed-API-aktualizácie prebiehajú automaticky a tiché capability-regresie sú viacnásobne zdokumentované.
Pre agentúry a B2B-rozhodovateľov
Premyslený LLM-router nie je v roku 2026 nice-to-have, ale páka, na ktorej súčasne visia náklady, kvalita odpovede a GDPR-konformita agenta. Správna architektúra je takmer vždy hybridná - vlastná práca spočíva v tom, čisto rozhodnúť per workload, ktorý krok potrebuje frontier-kvalitu, ktorý môže bežať na lacnom EU-modeli a kde je suverenita záväzná. Práve túto smerovaciu logiku, vendor-portabilitu a vhodnú zmes suverénny-EU alebo closed-frontier koncipuje Blck Alpaca ako viedenská agentúra pre KI-agentov spoločne s DACH-podnikmi. Ak chcete vedieť, ktorá zmes modelov sedí k vašim workloadom, vášmu compliance-profilu a vášmu rozpočtu, hovorte s nami.
Často kladené otázky
Čo je LLM-router a prečo ho agent potrebuje?
Kedy sa oplatí veľký frontier model oproti malému?
Je open-source LLM v roku 2026 dosť dobrý pre produktívnych agentov?
Akú úlohu zohráva EU-hosting a suverenita pri voľbe modelu?
Čo konkrétne stojí nesprávne smerovanie?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.