2.14Pokročilý8 min

LLM-router: Kedy veľký frontier model, kedy malý, kedy open source?

Blck Alpaca·9. júna 2026

Definition

LLM-router je smerovacia logika, ktorá každý krok agenta automaticky priradí vhodnému modelu: veľké frontier modely pre komplexný reasoning, malé lacné modely pre jednoduché kroky, open-source alebo v EU hostované modely pre suverenitu a kontrolu nákladov. Voľba sa riadi štyrmi kritériami: kvalita, náklady, latencia a compliance.

Key Takeaways

✓Voľba modelu nie je v roku 2026 jednorazové rozhodnutie, ale per-krok smerovacia logika: agent môže podľa čiastkovej úlohy prepínať medzi frontier, workhorse a malým speed modelom.
✓Capability-gap medzi najlepším open-weight (Kimi K2.6, DeepSeek V4 Pro, Mistral Large 3) a frontier-closed (Claude Opus 4.7, GPT-5.5 Pro, Gemini 3.1 Pro) sa podľa researchu zmenšil z 12-18 mesiacov (2024) na 3-6 mesiacov (2026).
✓Nákladová páka je reálna: closed-frontier zostáva podľa researchu 8-100x drahší na output než lacné open-weight modely (stav 2026) - smerovanie jednoduchých krokov na malé modely masívne znižuje účet za tokeny.
✓Open vs. proprietárny nie je podľa researchu binárna, ale portfóliová otázka pozdĺž štyroch dimenzií: kontrola weights, hosting-suverenita, cesta customizácie, nákladový profil.
✓Pre DACH-B2B je hosting-suverenita tvrdým smerovacím kritériom: workforce-defining a agenti spracúvajúci zákaznícke dáta patria na suverénny EU-substrát, capability-viazané analytické workloady môžu bežať na US-closed-frontier.
✓China-open-weight (DeepSeek, Kimi, Qwen) je licenčne permisívny, nesie však podľa researchu geopolitické tail-risk a potrebuje vedomé obmedzenie workloadov.

LLM-router je smerovacia logika, ktorá každý krok KI-agenta automaticky priradí vhodnému modelu. Veľké frontier modely preberajú komplexný reasoning a orchestráciu nástrojov, malé lacné modely vybavujú jednoduché kroky ako klasifikácia alebo extrakcia, a open-source resp. v EU hostované modely pokrývajú požiadavky na suverenitu a náklady. Namiesto jednorazového rozhodnutia "ktorý model zvolíme?" sa tým voľba modelu stáva priebežným priraďovaním úlohy k modelu pozdĺž štyroch kritérií: kvalita, náklady, latencia a compliance.

Centrálny poznatok pre rok 2026: otázka "veľký alebo malý model, proprietárny alebo open source?" už podľa podkladového researchu nie je binárne rozhodnutie, ale portfóliová alokácia. Produktívny agent beží zriedka na jedinom modeli.

Tri rýchle odpovede

Kedy veľký (frontier-closed)? Pri komplexnom reasoningu, agentic codingu na špičkovej úrovni, very-long-context-úlohách, prémiovom multimodale a zriedkavých hodnotných analytických krokoch. Táto kategória zahŕňa v DACH-koncernoch typicky 15-35 % objemu tokenov, nesie však 60-80 % vnímanej strategickej hodnoty.
Kedy malý (workhorse/speed)? Pri jednoduchých, častých, dobre definovaných krokoch: klasifikácia, extrakcia, sumarizácia, samotné smerovacie rozhodnutia, štandardné formátovanie. Tu už frontier-prémium podľa researchu nie je ekonomicky nevyhnutný.
Kedy open source / EU-hosting? Keď dominuje suverenita, dátová rezidencia, kontrola nákladov pri vysokom objeme alebo požiadavky spolurozhodovania - najmä pri workforce-defining a agentoch spracúvajúcich zákaznícke dáta.

Prečo binárna otázka modelu v roku 2026 už neobstojí

Capability-gap medzi najlepším open-weight a frontier-closed sa podľa researchu zúžil z 12-18 mesiacov (2024) na 3-6 mesiacov (2026); na jednotlivých workloadoch je nulový alebo negatívny. Konkrétne: Kimi K2.6 (1T-parametrov, Modified MIT, open-weight) sa na Artificial-Analysis-Intelligence-Index nachádza na 4. mieste overall - len za Anthropic, Google a OpenAI - a na SWE-Bench Pro dosahuje s 58,6 % paritu s GPT-5.5. DeepSeek V4 Pro dosahuje na SWE-Bench Verified 80,6 % a Codeforces-rating 3.206, najvyšší kedy publikovaný súťažný coding-rating.

Súčasne zostáva frontier-prémium pre určité kroky reálny a netriviálny: na FrontierMath dosahuje GPT-5.5 Pro najlepší verejný math-výsledok, na GPQA Diamond vedie Gemini 3.1 Pro s 94,3 %, Claude Opus 4.7 sa na SWE-Bench Verified nachádza na 87,6 %. Pre zriedkavé, hodnotné reasoning-workloady - právny výskum, vedeckú tvorbu hypotéz, komplexnú finančnú analýzu - zostáva frontier-closed materiálne superior.

Pre voľbu modelu to znamená: úprimná otázka nie je "open alebo closed?", ale "ktorý krok patrí na ktorú úroveň?".

Nákladová páka: prečo sa smerovanie vypláca

Ekonomickým hnacím motorom za LLM-smerovaním je cenový rozptyl. Closed-frontier zostáva podľa researchu 8-100x drahší na output než lacné open-weight modely. Kto posiela každý krok agenta - aj jednoduchú klasifikáciu e-mailu - na frontier model, platí prémiové ceny za kvalitu, ktorú daný krok vôbec nepotrebuje.

Nasledujúci prehľad ukazuje reprezentatívne cenníkové ceny (stav apríl-máj 2026, USD za milión tokenov input/output). Ceny a verzie modelov sa rýchlo menia a pred každým viacročným záväzkom je nutné ich overiť.

Model	Úroveň	Cena in/out (USD/1M tok., stav 2026)	Profil suverenity
Claude Opus 4.7	Frontier-closed	5 / 25	US-jurisdikčný (EU-región dostupný)
GPT-5.5 Pro	Frontier-closed	30 / 180	US-jurisdikčný (Azure-EU)
Gemini 3.1 Pro	Frontier-closed	2 / 12 (>200K: 4 / 18)	US-jurisdikčný (Vertex-EU)
Claude Sonnet 4.6	Workhorse-closed	cca 3 / 15	US-jurisdikčný
Claude Haiku 4.5	Speed-closed	cca 1 / 5	US-jurisdikčný
Mistral Large 3 (675B/41B aktívne)	Frontier-near, Apache 2.0	0,50 / 1,50	EU-suverénny (FR)
Ministral 3	Speed, open-weight	0,15 / 0,40	EU-suverénny
Kimi K2.6 (1T/32B aktívne)	Frontier-near, Modified MIT	0,60 / 2,50 (Moonshot)	CN-pôvod, geopolitické tail-risk
DeepSeek V4 Flash	Workhorse, MIT-derived	0,14 / 0,28	CN-pôvod, geopolitické tail-risk

Rozptyl je drastický: v typickom porovnaní je output-cena vzdialená faktorom 8 až 100; ak postavíme najdrahší frontier model proti najlacnejšiemu workhorse, stojí GPT-5.5 Pro na output dokonca cca 640-násobok DeepSeek V4 Flash. Práve táto medzera robí zo smerovania ekonomický štandard - nie z ideologických, ale z čisto podnikovo-ekonomických dôvodov.

Router-pattern: úloha k modelu

LLM-router priraďuje prichádzajúce kroky ich triede komplexnosti a compliance a volí najlacnejší model, ktorý požiadavku splní. V praxi často samotnú klasifikáciu úlohy preberá malý, rýchly model, predtým než vlastná práca prejde na vhodný cieľový model. Smerovacia tabuľka je srdcom celku:

Scenár	Typ modelu	Zdôvodnenie
Komplexný viacstupňový reasoning, agentic coding-plán	Frontier-closed (Claude Opus 4.7, GPT-5.5 Pro)	Capability-prémium reálny; najlepší výsledok na najťažších úlohách ospravedlňuje vysokú output-cenu
Frontier-math, vedecká tvorba hypotéz	Frontier-closed (GPT-5.5 Pro)	Najlepší verejný math-výsledok podľa researchu; zriedkavý, hodnotný workload
Orchestrácia nástrojov, terminal-/shell-tasks	Frontier-closed (GPT-5.5 vedie Terminal-Bench, Claude Opus silný)	Agentic-capability rozhoduje o miere úspešnosti
Štandardný coding, code-refactoring at scale	Frontier-near open-weight (DeepSeek V4 Pro, Kimi K2.6)	Math/coding-parita s frontier-closed; výrazne lacnejší
Klasifikácia, extrakcia, sumarizácia (batch)	Workhorse/speed open-weight (DeepSeek V4 Flash, Ministral)	50-80 % frontier-capability postačujúce; nákladová výhoda dominuje
Nemecky hovoriace workhorse-workflows	EU-open-weight (Mistral, Aleph Alpha Pharia, Cohere Aya, Teuken-7B)	Nemecká performance štrukturálny diferenciátor; US-open-weight (Llama, cca 8 % neanglický) slabší
Workforce-defining agent (HR-bot, interné znalosti)	Suverénny-EU (Mistral/Aleph Alpha na STACKIT, OVHcloud, T-Systems)	Spolurozhodovanie, GDPR a reputácia kompaundujú; zjednodušovač compliance
Agent spracúvajúci zákaznícke dáta (EU-dáta)	Suverénny-EU alebo min. US-hyperscaler EU-región s DPA	EU-región znižuje GDPR-trenie, neeliminuje však US-jurisdikciu
Capability-viazaná analýza bez osobných údajov	US-closed-frontier akceptovateľný	Capability-prémium ekonomicky podstatný, žiadny constraint suverenity
Latenčne kritická interaktívna odpoveď	Speed-úroveň (Claude Haiku, Groq/Cerebras-hostovaný)	Sub-sekundový TTFT; kvalita podradná oproti reakčnému času

Štyri dimenzie tradeoff

Research štruktúruje voľbu modelu pozdĺž štyroch dimenzií, ktoré dobrý router spoločne zobrazuje:

Kvalita (kontrola weights & capability): koľko hĺbky reasoningu krok skutočne potrebuje? A kto kontroluje model - leží ako closed-API výhradne vo vendor-roadmape, alebo je ako open-weight portovateľný k inému inference-provideru alebo k self-hostingu?
Náklady (cost-profile): per-token-closed (prémium, plne variabilný), per-token-open-weight cez inference-providera (mid-tier) alebo self-hosting (fixné náklady, marginálne token-náklady takmer nulové pri vysokom využití). Self-hosting sa podľa researchu stáva skutočne atraktívnym až od konštantných 5-50 mil. tokenov/deň a len s existujúcou MLOps-kapacitou.
Latencia: speed-špecialisti ako Groq (LPU) a Cerebras (wafer-scale) dodávajú sub-sekundový time-to-first-token pre vybrané modely - relevantné pre interaktívnych agentov, irelevantné pre nočné batch-spracovanie.
Compliance (hosting-suverenita): EU-región na US-hyperscaleri nie je podľa researchu to isté ako suverénny-EU. Znižuje latenciu a GDPR-trenie, neeliminuje však US-jurisdikciu (CLOUD Act, OFAC). Štrukturálne mimo dosahu USA ležia len suverénne EU-stacky (STACKIT, OVHcloud, T-Systems Open Telekom Cloud, IONOS, Hetzner) a on-prem.

Open source vs. proprietárny: triezve zváženie

Tu sa oplatí presný pohľad, pretože "open" je viacdimenzionálny. Open-weight znamená, že weights sú stiahnuteľné - nie automaticky, že licencia je neobmedzená. Mistral Large 3 (Apache 2.0, EU-suverénny) a Phi-4 (MIT) sú permisívne. Llama 4 naopak podlieha Llama Community License s prahom 700 mil. MAU a EU-multimodal-reštrikciou - priama regulačná reakcia na EU AI Act; OSI klasifikuje Llama explicitne ako nie open-source.

China-open-weight (DeepSeek V4 pod MIT-derived, Kimi K2.6 pod Modified MIT, Qwen 3.6-27B pod Apache 2.0) je licenčne genuínne permisívny - permisívnejší než Llama. Ale jurisdikciu pôvodu nemožno podľa researchu neutralizovať permisívnosťou licencie. Pre DACH-koncerny s US-dcérou, US-záväzkami voči zmluvným partnerom alebo kritickou infraštruktúrou nesie táto možnosť neurčité geopolitické tail-risk (export controls, reputačné riziko), ktoré treba explicitne obmedziť per workload - akceptovateľné napríklad pre coding-agentov na verejnom kóde alebo batch-klasifikáciu na verejne dostupných textoch, problematické pri citlivých zákazníckych dátach.

Suverenita je v roku 2026 navyše merateľné obstarávacie kritérium: podľa Bitkom-dát sa 89 % nemeckých digitálnych importérov cíti závislých, 72 % obyvateľstva považuje Nemecko pri KI za príliš závislé od USA. V rokovaniach so zamestnaneckou radou je suverénny EU-substrát štrukturálne menej trecí, pretože audítorské práva, dátová rezidencia a vendor-jurisdikcia sa dajú jednoduchšie dohodnúť.

Decentný, no dôležitý odkaz: tvrdenia o compliance a licenciách tu nie sú právnym poradenstvom. Relevantná pre smerovanie je hranica z researchu: kto open-weight model podstatne fine-tunuje (indikatívny prah EU AI Act: viac než tretina base-pretraining-computu, default 3,33 × 10²² FLOPs), môže sa sám stať GPAI-providerom. LoRA/QLoRA leží typicky hlboko pod tým; continued pretraining prah takmer vždy prekročí. To je argument staviť v customization-pipeline na RAG plus prompt-engineering namiesto na ťažký fine-tuning - a dôvod nechať konkrétne právne posúdenie kvalifikovane preveriť.

Praktický príklad: support-agent so zmiešaným smerovaním

Agent zákazníckeho servisu spracúva denne 100.000 požiadaviek. Bez routera beží všetko na Claude Opus 4.7 (5/25 USD za mil. tokenov). S routerom vyzerá priradenie takto:

Krok 1 - intent-klasifikácia (70 % záťaže): speed-open-weight model ako Ministral 3 (0,15/0,40 USD) na EU-región-inference (napr. DeepInfra Frankfurt) klasifikuje požiadavku. Suverénne konformné, keďže EU-hostované, a faktorom ~60 lacnejšie na output než Opus.
Krok 2 - štandardná odpoveď zo znalostnej bázy (20 % záťaže): EU-workhorse ako Mistral Large 3 (0,50/1,50 USD, Apache 2.0, EU-suverénny) generuje odpoveď cez RAG - silná nemecká performance, dátovo rezidentná.
Krok 3 - eskalácia s komplexným zmluvným reasoningom (10 % záťaže): tu nastupuje frontier model (Claude Opus 4.7), pretože kvalita odpovede je obchodne kritická a prémium sa ospravedlňuje.

Výsledok: drahá frontier-cesta nesie už len desatinu záťaže, prevažná časť beží na lacných, EU-suverénnych modeloch. Pseudokód smerovacieho rozhodnutia:

```
intent = classify(poziadavka) # Ministral 3, EU-región
if intent in JEDNODUCHE:
return mistral_large_3(rag(poziadavka)) # EU-suverénny workhorse
elif intent == ZMLUVA_KOMPLEX:
return claude_opus_47(poziadavka) # Frontier len kde nutné
```

Aby sa smerovanie nestalo vendor-pascou, odporúča research portabilitný layer (napríklad LiteLLM alebo OpenRouter pre multi-provider-smerovanie) a aspoň jednu tenkú open-weight migračnú cestu pre najdôležitejšie workloady - plus kontinuálnu eval-pipeline proti held-out testovacej množine, pretože closed-API-aktualizácie prebiehajú automaticky a tiché capability-regresie sú viacnásobne zdokumentované.

Pre agentúry a B2B-rozhodovateľov

Premyslený LLM-router nie je v roku 2026 nice-to-have, ale páka, na ktorej súčasne visia náklady, kvalita odpovede a GDPR-konformita agenta. Správna architektúra je takmer vždy hybridná - vlastná práca spočíva v tom, čisto rozhodnúť per workload, ktorý krok potrebuje frontier-kvalitu, ktorý môže bežať na lacnom EU-modeli a kde je suverenita záväzná. Práve túto smerovaciu logiku, vendor-portabilitu a vhodnú zmes suverénny-EU alebo closed-frontier koncipuje Blck Alpaca ako viedenská agentúra pre KI-agentov spoločne s DACH-podnikmi. Ak chcete vedieť, ktorá zmes modelov sedí k vašim workloadom, vášmu compliance-profilu a vášmu rozpočtu, hovorte s nami.

Často kladené otázky

Čo je LLM-router a prečo ho agent potrebuje?

LLM-router rozhoduje pre každý krok agenta, ktorý model spracuje požiadavku. Namiesto posielania každého kroku na najdrahší frontier model presmeruje jednoduché úlohy (klasifikácia, extrakcia, formátovanie) na malé, lacné modely a veľké modely rezervuje pre komplexný reasoning alebo orchestráciu nástrojov. To súčasne optimalizuje náklady, latenciu a compliance bez obetovania kvality odpovede pri náročných krokoch.

Kedy sa oplatí veľký frontier model oproti malému?

Podľa researchu zostáva frontier-prémium reálny pre menšinu workloadov: agentic coding na úrovni Sonnet-4.6+, very-long-context-reasoning, prémiový multimodal a frontier-math (GPT-5.5 Pro tu dosahuje najlepší verejný výsledok). Empiricky v DACH-koncernoch spadá typicky 15-35 % objemu tokenov do tejto kategórie, nesie však 60-80 % vnímanej strategickej hodnoty. Pre klasifikáciu, extrakciu, sumarizáciu a štandardný coding už prémium nie je ekonomicky nevyhnutný.

Je open-source LLM v roku 2026 dosť dobrý pre produktívnych agentov?

Pre čisto textové a coding workloady je open-weight-gap podľa researchu uzavretý alebo minimálny: Kimi K2.6 sa na Artificial-Analysis-Intelligence-Index nachádza na 4. mieste overall a na SWE-Bench Pro dosahuje s 58,6 % paritu s GPT-5.5. Pri prémiovom vision/audio/video a frontier-math zostáva closed-frontier vpredu. Na nemeckej workhorse-úrovni sú EU-modely (Mistral, Aleph Alpha, Cohere Aya, Teuken) štrukturálne silnejšie než US-open-weight ako Llama, ktorý bol trénovaný len na cca 8 % neanglických dát.

Akú úlohu zohráva EU-hosting a suverenita pri voľbe modelu?

Hosting-suverenita je samostatná smerovacia dimenzia. EU-región na US-hyperscaleri podľa researchu znižuje latenciu a GDPR-trenie, neeliminuje však US-jurisdikciu (CLOUD Act, OFAC). Skutočnú suverenitu ponúkajú len suverénne EU-stacky ako STACKIT, OVHcloud, T-Systems alebo on-prem. Pre regulovaných agentov spracúvajúcich zákaznícke alebo zamestnanecké dáta je suverénny EU-substrát štrukturálnym zjednodušovačom compliance a v rokovaniach so zamestnaneckou radou menej trecí.

Čo konkrétne stojí nesprávne smerovanie?

Closed-frontier modely zostávajú podľa researchu 8-100x drahšie na output než lacné open-weight modely. Príklad stav 2026: GPT-5.5 Pro stojí 30 USD input / 180 USD output za mil. tokenov, DeepSeek V4 Flash 0,14 / 0,28 USD, Mistral Large 3 0,50 / 1,50 USD. Kto posiela každý klasifikačný alebo extrakčný krok na frontier model, platí násobok za kvalitu, ktorú daný krok nepotrebuje. Ceny sa rýchlo menia a pred každým záväzkom je nutné ich overiť.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky, alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.

Odoberať newsletter →Naše služby

Previous← Štruktúrované výstupy s JSON Schema: Ako vynútiť spoľahlivé odpovede agentov