LLM-Router: Wann großes Frontier-Modell, wann klein, wann Open Source?
Ein LLM-Router ist eine Routing-Logik, die jeden Agenten-Schritt automatisch dem passenden Modell zuweist: große Frontier-Modelle für komplexes Reasoning, kleine günstige Modelle für einfache Schritte, Open-Source- oder EU-gehostete Modelle für Souveränität und Kostenkontrolle. Die Wahl folgt vier Kriterien: Qualität, Kosten, Latenz und Compliance.
Auf einen Blick
- ✓Modellwahl ist 2026 keine Einmal-Entscheidung, sondern eine per-Schritt-Routing-Logik: Ein Agent kann je nach Teilaufgabe zwischen Frontier, Workhorse und kleinem Speed-Modell wechseln.
- ✓Der Capability-Gap zwischen bester Open-Weight (Kimi K2.6, DeepSeek V4 Pro, Mistral Large 3) und Frontier-Closed (Claude Opus 4.7, GPT-5.5 Pro, Gemini 3.1 Pro) ist laut Research von 12-18 Monaten (2024) auf 3-6 Monate (2026) geschrumpft.
- ✓Der Kostenhebel ist real: Closed-Frontier bleibt laut Research 8-100x teurer auf Output als günstige Open-Weight-Modelle (Stand 2026) - Routing einfacher Schritte auf kleine Modelle senkt die Token-Rechnung massiv.
- ✓Open vs. proprietär ist laut Research keine binäre, sondern eine Portfolio-Frage entlang vier Dimensionen: Weights-Control, Hosting-Souveränität, Customization-Pfad, Kosten-Profil.
- ✓Für DACH-B2B ist Hosting-Souveränität ein hartes Routing-Kriterium: workforce-defining und kundendaten-verarbeitende Agenten gehören auf Sovereign-EU-Substrat, capability-gebundene Analyse-Workloads können auf US-Closed-Frontier laufen.
- ✓China-Open-Weight (DeepSeek, Kimi, Qwen) ist lizenzrechtlich permissiv, trägt laut Research aber ein geopolitisches Tail-Risiko und braucht eine bewusste Workload-Begrenzung.
Ein LLM-Router ist eine Routing-Logik, die jeden Schritt eines KI-Agenten automatisch dem passenden Modell zuweist. Große Frontier-Modelle übernehmen komplexes Reasoning und Tool-Orchestrierung, kleine günstige Modelle erledigen einfache Schritte wie Klassifikation oder Extraktion, und Open-Source- bzw. EU-gehostete Modelle decken Souveränitäts- und Kostenanforderungen ab. Statt einer Einmal-Entscheidung "welches Modell nehmen wir?" wird die Modellwahl damit zu einer fortlaufenden Zuordnung von Aufgabe zu Modell entlang vier Kriterien: Qualität, Kosten, Latenz und Compliance.
Die zentrale Einsicht für 2026: Die Frage "großes oder kleines Modell, proprietär oder Open Source?" ist laut der zugrundeliegenden Research keine binäre Entscheidung mehr, sondern eine Portfolio-Allokation. Ein produktiver Agent läuft selten auf einem einzigen Modell.
Drei Schnellantworten
- Wann groß (Frontier-Closed)? Bei komplexem Reasoning, agentic Coding auf Spitzen-Tier, very-long-context-Aufgaben, Premium-Multimodal und seltenen hochwertigen Analyse-Schritten. Diese Kategorie umfasst in DACH-Konzernen typischerweise 15-35 % des Token-Volumens, trägt aber 60-80 % des wahrgenommenen strategischen Werts.
- Wann klein (Workhorse/Speed)? Bei einfachen, häufigen, gut definierten Schritten: Klassifikation, Extraktion, Summarisation, Routing-Entscheidungen selbst, Standard-Formatierung. Hier ist der Frontier-Premium laut Research nicht mehr ökonomisch zwingend.
- Wann Open Source / EU-Hosting? Wenn Souveränität, Datenresidenz, Kostenkontrolle bei hohem Volumen oder Mitbestimmungs-Anforderungen dominieren - insbesondere bei workforce-defining und kundendaten-verarbeitenden Agenten.
Warum die binäre Modellfrage 2026 nicht mehr trägt
Der Capability-Gap zwischen bester Open-Weight und Frontier-Closed hat sich laut Research von 12-18 Monaten (2024) auf 3-6 Monate (2026) verengt; auf einzelnen Workloads ist er null oder negativ. Konkret: Kimi K2.6 (1T-Parameter, Modified MIT, Open-Weight) liegt auf dem Artificial-Analysis-Intelligence-Index auf Platz 4 overall - hinter nur Anthropic, Google und OpenAI - und erreicht auf SWE-Bench Pro mit 58,6 % Parität mit GPT-5.5. DeepSeek V4 Pro erzielt auf SWE-Bench Verified 80,6 % und ein Codeforces-Rating von 3.206, das höchste je publizierte Wettkampf-Coding-Rating.
Gleichzeitig bleibt der Frontier-Premium für bestimmte Schritte real und nicht-trivial: Auf FrontierMath erreicht GPT-5.5 Pro das beste öffentliche Math-Resultat, auf GPQA Diamond führt Gemini 3.1 Pro mit 94,3 %, Claude Opus 4.7 liegt auf SWE-Bench Verified bei 87,6 %. Für seltene, hochwertige Reasoning-Workloads - juristische Recherche, wissenschaftliche Hypothesenbildung, komplexe Finanzanalyse - bleibt Frontier-Closed materiell überlegen.
Für die Modellwahl heißt das: Die ehrliche Frage ist nicht "Open oder Closed?", sondern "Welcher Schritt gehört auf welche Tier?".
Der Kostenhebel: Warum Routing sich rechnet
Der ökonomische Treiber hinter LLM-Routing ist die Preisspreizung. Closed-Frontier bleibt laut Research 8-100x teurer auf Output als günstige Open-Weight-Modelle. Wer jeden Agenten-Schritt - auch das simple Klassifizieren einer E-Mail - auf das Frontier-Modell schickt, bezahlt Premium-Preise für Qualität, die der Schritt gar nicht benötigt.
Die folgende Übersicht zeigt repräsentative Listenpreise (Stand April-Mai 2026, USD pro Million Tokens Input/Output). Preise und Modellversionen ändern sich schnell und sind vor jeder mehrjährigen Verpflichtung zu verifizieren.
Modell | Tier | Preis in/out (USD/1M Tok., Stand 2026) | Souveränitäts-Profil |
|---|---|---|---|
Claude Opus 4.7 | Frontier-Closed | 5 / 25 | US-jurisdiktional (EU-Region verfügbar) |
GPT-5.5 Pro | Frontier-Closed | 30 / 180 | US-jurisdiktional (Azure-EU) |
Gemini 3.1 Pro | Frontier-Closed | 2 / 12 (>200K: 4 / 18) | US-jurisdiktional (Vertex-EU) |
Claude Sonnet 4.6 | Workhorse-Closed | ca. 3 / 15 | US-jurisdiktional |
Claude Haiku 4.5 | Speed-Closed | ca. 1 / 5 | US-jurisdiktional |
Mistral Large 3 (675B/41B aktiv) | Frontier-near, Apache 2.0 | 0,50 / 1,50 | EU-Sovereign (FR) |
Ministral 3 | Speed, Open-Weight | 0,15 / 0,40 | EU-Sovereign |
Kimi K2.6 (1T/32B aktiv) | Frontier-near, Modified MIT | 0,60 / 2,50 (Moonshot) | CN-Origin, geopolitisches Tail-Risiko |
DeepSeek V4 Flash | Workhorse, MIT-derived | 0,14 / 0,28 | CN-Origin, geopolitisches Tail-Risiko |
Die Spreizung ist drastisch: Im typischen Vergleich liegt der Output-Preis um Faktor 8 bis 100 auseinander; stellt man das teuerste Frontier-Modell dem günstigsten Workhorse gegenüber, kostet GPT-5.5 Pro auf Output sogar rund das 640-fache von DeepSeek V4 Flash. Genau diese Lücke macht Routing zum wirtschaftlichen Standard - nicht aus ideologischen, sondern aus rein betriebswirtschaftlichen Gründen.
Das Router-Pattern: Aufgabe zu Modell
Ein LLM-Router ordnet eingehende Schritte ihrer Komplexitäts- und Compliance-Klasse zu und wählt das günstigste Modell, das die Anforderung erfüllt. In der Praxis übernimmt häufig ein kleines, schnelles Modell selbst die Klassifikation der Aufgabe, bevor die eigentliche Arbeit auf das passende Zielmodell geht. Die Routing-Tabelle ist das Herzstück:
Szenario | Modelltyp | Begründung |
|---|---|---|
Komplexes mehrstufiges Reasoning, agentic Coding-Plan | Frontier-Closed (Claude Opus 4.7, GPT-5.5 Pro) | Capability-Premium real; bestes Resultat auf härtesten Aufgaben rechtfertigt den hohen Output-Preis |
Frontier-Math, wissenschaftliche Hypothesenbildung | Frontier-Closed (GPT-5.5 Pro) | Bestes öffentliches Math-Resultat laut Research; seltener, hochwertiger Workload |
Tool-Orchestrierung, Terminal-/Shell-Tasks | Frontier-Closed (GPT-5.5 führt Terminal-Bench, Claude Opus stark) | Agentic-Capability entscheidet über Erfolgsquote |
Standard-Coding, Code-Refactoring at scale | Frontier-near Open-Weight (DeepSeek V4 Pro, Kimi K2.6) | Math/Coding-Parität zu Frontier-Closed; deutlich günstiger |
Klassifikation, Extraktion, Summarisation (Batch) | Workhorse/Speed Open-Weight (DeepSeek V4 Flash, Ministral) | 50-80 % der Frontier-Capability ausreichend; Kostenvorteil dominiert |
Deutschsprachige Workhorse-Workflows | EU-Open-Weight (Mistral, Aleph Alpha Pharia, Cohere Aya, Teuken-7B) | Deutsch-Performance struktureller Differentiator; US-Open-Weight (Llama, ca. 8 % nicht-englisch) schwächer |
Workforce-defining Agent (HR-Bot, internes Wissen) | Sovereign-EU (Mistral/Aleph Alpha auf STACKIT, OVHcloud, T-Systems) | Mitbestimmung, DSGVO und Reputation kompoundieren; Compliance-Vereinfacher |
Kundendaten-verarbeitender Agent (EU-Daten) | Sovereign-EU oder min. US-Hyperscaler EU-Region mit DPA | EU-Region reduziert DSGVO-Reibung, eliminiert aber nicht US-Jurisdiktion |
Capability-gebundene Analyse ohne Personendaten | US-Closed-Frontier akzeptabel | Capability-Premium ökonomisch substanziell, kein Souveränitäts-Constraint |
Latenz-kritische interaktive Antwort | Speed-Tier (Claude Haiku, Groq/Cerebras-gehostet) | Sub-Sekunden-TTFT; Qualität nachrangig gegenüber Reaktionszeit |
Die vier Tradeoff-Dimensionen
Die Research strukturiert die Modellwahl entlang vier Dimensionen, die ein guter Router gemeinsam abbildet:
- Qualität (Weights-Control & Capability): Wie viel Reasoning-Tiefe braucht der Schritt wirklich? Und wer kontrolliert das Modell - liegt es als Closed-API allein in der Vendor-Roadmap, oder ist es als Open-Weight zu einem anderen Inference-Provider oder Self-Hosting portierbar?
- Kosten (Cost-Profile): Per-Token-Closed (Premium, voll variabel), Per-Token-Open-Weight via Inference-Provider (Mid-Tier) oder Self-Hosting (Fix-Kosten, marginale Token-Kosten nahe null bei hoher Auslastung). Self-Hosting wird laut Research erst ab konstant 5-50 Mio. Tokens/Tag wirklich attraktiv und nur mit vorhandener MLOps-Kapazität.
- Latenz: Speed-Spezialisten wie Groq (LPU) und Cerebras (Wafer-Scale) liefern Sub-Sekunden-Time-to-First-Token für ausgewählte Modelle - relevant für interaktive Agenten, irrelevant für nächtliche Batch-Verarbeitung.
- Compliance (Hosting-Sovereignty): Eine EU-Region auf einem US-Hyperscaler ist laut Research nicht dasselbe wie Sovereign-EU. Sie reduziert Latenz und DSGVO-Reibung, eliminiert aber nicht die US-Jurisdiktion (CLOUD Act, OFAC). Strukturell außerhalb der US-Reichweite liegen nur Sovereign-EU-Stacks (STACKIT, OVHcloud, T-Systems Open Telekom Cloud, IONOS, Hetzner) und On-Prem.
Open Source vs. proprietär: die nüchterne Abwägung
Hier lohnt der genaue Blick, weil "Open" mehrdimensional ist. Open-Weight bedeutet, dass die Gewichte herunterladbar sind - nicht automatisch, dass die Lizenz uneingeschränkt ist. Mistral Large 3 (Apache 2.0, EU-Sovereign) und Phi-4 (MIT) sind permissiv. Llama 4 dagegen unterliegt der Llama Community License mit einer 700-Mio.-MAU-Schwelle und einer EU-Multimodal-Restriktion - eine direkte regulatorische Reaktion auf den EU AI Act; die OSI klassifiziert Llama explizit als nicht Open-Source.
China-Open-Weight (DeepSeek V4 unter MIT-derived, Kimi K2.6 unter Modified MIT, Qwen 3.6-27B unter Apache 2.0) ist lizenzrechtlich genuin permissiv - permissiver als Llama. Aber die Herkunfts-Jurisdiktion ist laut Research nicht durch Lizenz-Permissivität neutralisierbar. Für DACH-Konzerne mit US-Tochter, US-Vertragspartner-Verpflichtungen oder kritischer Infrastruktur trägt diese Option ein unbestimmtes geopolitisches Tail-Risiko (Export Controls, Reputationsrisiko), das explizit pro Workload zu begrenzen ist - akzeptabel etwa für Coding-Agents auf öffentlichem Code oder Batch-Klassifikation auf öffentlich zugänglichen Texten, problematisch bei sensiblen Kundendaten.
Souveränität ist 2026 zudem ein messbares Beschaffungs-Kriterium: Laut Bitkom-Daten sehen sich 89 % der deutschen Digital-Importeure abhängig, 72 % der Bevölkerung halten Deutschland bei KI für zu USA-abhängig. In Betriebsrats-Verhandlungen ist Sovereign-EU-Substrat strukturell reibungsärmer, weil Audit-Rechte, Datenresidenz und Vendor-Jurisdiktion einfacher zu vereinbaren sind.
Ein dezenter, aber wichtiger Hinweis: Die Compliance- und Lizenz-Aussagen hier sind keine Rechtsberatung. Relevant für das Routing ist eine Grenze aus der Research: Wer ein Open-Weight-Modell substanziell fine-tunet (indikative EU-AI-Act-Schwelle: mehr als ein Drittel des Base-Pretraining-Computes, default 3,33 × 10²² FLOPs), kann selbst zum GPAI-Provider werden. LoRA/QLoRA liegt typischerweise weit darunter; Continued Pretraining überschreitet die Schwelle fast immer. Das ist ein Argument, in der Customization-Pipeline auf RAG plus Prompt-Engineering zu setzen statt auf schweres Fine-Tuning - und ein Grund, die konkrete rechtliche Bewertung qualifiziert prüfen zu lassen.
Praxisbeispiel: Ein Support-Agent mit gemischtem Routing
Ein Kundenservice-Agent bearbeitet täglich 100.000 Anfragen. Ohne Router läuft alles auf Claude Opus 4.7 (5/25 USD pro Mio. Tokens). Mit Router sieht die Zuordnung so aus:
- Schritt 1 - Intent-Klassifikation (70 % der Last): Ein Speed-Open-Weight-Modell wie Ministral 3 (0,15/0,40 USD) auf EU-Region-Inference (z. B. DeepInfra Frankfurt) klassifiziert die Anfrage. Souveränitätskonform, da EU-gehostet, und um Faktor ~60 günstiger auf Output als Opus.
- Schritt 2 - Standard-Antwort aus Wissensbasis (20 % der Last): Ein EU-Workhorse wie Mistral Large 3 (0,50/1,50 USD, Apache 2.0, EU-Sovereign) generiert die Antwort per RAG - starke Deutsch-Performance, datenresident.
- Schritt 3 - Eskalation mit komplexem Vertrags-Reasoning (10 % der Last): Hier greift das Frontier-Modell (Claude Opus 4.7), weil die Antwortqualität geschäftskritisch ist und der Premium sich rechtfertigt.
Das Ergebnis: Der teure Frontier-Pfad trägt nur noch ein Zehntel der Last, der überwiegende Teil läuft auf günstigen, EU-souveränen Modellen. Pseudocode der Routing-Entscheidung:
```
intent = classify(anfrage) # Ministral 3, EU-Region
if intent in EINFACH:
return mistral_large_3(rag(anfrage)) # EU-Sovereign Workhorse
elif intent == VERTRAG_KOMPLEX:
return claude_opus_47(anfrage) # Frontier nur wo nötig
```
Damit Routing nicht zur Vendor-Falle wird, empfiehlt die Research einen Portabilitäts-Layer (etwa LiteLLM oder OpenRouter für Multi-Provider-Routing) und mindestens einen dünnen Open-Weight-Migrationspfad für die wichtigsten Workloads - plus eine kontinuierliche Eval-Pipeline gegen ein held-out Test-Set, weil Closed-API-Updates automatisch passieren und stille Capability-Regressionen mehrfach dokumentiert sind.
Für Agenturen und B2B-Entscheider
Ein durchdachter LLM-Router ist 2026 kein Nice-to-have, sondern der Hebel, an dem Kosten, Antwortqualität und DSGVO-Konformität eines Agenten gleichzeitig hängen. Die richtige Architektur ist fast immer hybrid - die eigentliche Arbeit liegt darin, pro Workload sauber zu entscheiden, welcher Schritt Frontier-Qualität braucht, welcher auf einem günstigen EU-Modell laufen kann und wo Souveränität bindend ist. Genau diese Routing-Logik, die Vendor-Portabilität und die passende Sovereign-EU- oder Closed-Frontier-Mischung konzipiert Blck Alpaca als Wiener Agentur für KI-Agenten gemeinsam mit DACH-Unternehmen. Wenn Sie wissen wollen, welcher Modell-Mix zu Ihren Workloads, Ihrem Compliance-Profil und Ihrem Budget passt, sprechen Sie mit uns.
Häufig gestellte Fragen
Was ist ein LLM-Router und warum braucht ein Agent ihn?
Wann lohnt sich ein großes Frontier-Modell gegenüber einem kleinen?
Ist Open-Source-LLM 2026 gut genug für produktive Agenten?
Welche Rolle spielt EU-Hosting und Souveränität bei der Modellwahl?
Was kostet falsches Routing konkret?
Tiefer einsteigen?
Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.