Zum Inhalt springen
2.14Fortgeschritten8 min

LLM-Router: Wann großes Frontier-Modell, wann klein, wann Open Source?

Blck Alpaca·
Definition

Ein LLM-Router ist eine Routing-Logik, die jeden Agenten-Schritt automatisch dem passenden Modell zuweist: große Frontier-Modelle für komplexes Reasoning, kleine günstige Modelle für einfache Schritte, Open-Source- oder EU-gehostete Modelle für Souveränität und Kostenkontrolle. Die Wahl folgt vier Kriterien: Qualität, Kosten, Latenz und Compliance.

Auf einen Blick

  • Modellwahl ist 2026 keine Einmal-Entscheidung, sondern eine per-Schritt-Routing-Logik: Ein Agent kann je nach Teilaufgabe zwischen Frontier, Workhorse und kleinem Speed-Modell wechseln.
  • Der Capability-Gap zwischen bester Open-Weight (Kimi K2.6, DeepSeek V4 Pro, Mistral Large 3) und Frontier-Closed (Claude Opus 4.7, GPT-5.5 Pro, Gemini 3.1 Pro) ist laut Research von 12-18 Monaten (2024) auf 3-6 Monate (2026) geschrumpft.
  • Der Kostenhebel ist real: Closed-Frontier bleibt laut Research 8-100x teurer auf Output als günstige Open-Weight-Modelle (Stand 2026) - Routing einfacher Schritte auf kleine Modelle senkt die Token-Rechnung massiv.
  • Open vs. proprietär ist laut Research keine binäre, sondern eine Portfolio-Frage entlang vier Dimensionen: Weights-Control, Hosting-Souveränität, Customization-Pfad, Kosten-Profil.
  • Für DACH-B2B ist Hosting-Souveränität ein hartes Routing-Kriterium: workforce-defining und kundendaten-verarbeitende Agenten gehören auf Sovereign-EU-Substrat, capability-gebundene Analyse-Workloads können auf US-Closed-Frontier laufen.
  • China-Open-Weight (DeepSeek, Kimi, Qwen) ist lizenzrechtlich permissiv, trägt laut Research aber ein geopolitisches Tail-Risiko und braucht eine bewusste Workload-Begrenzung.

Ein LLM-Router ist eine Routing-Logik, die jeden Schritt eines KI-Agenten automatisch dem passenden Modell zuweist. Große Frontier-Modelle übernehmen komplexes Reasoning und Tool-Orchestrierung, kleine günstige Modelle erledigen einfache Schritte wie Klassifikation oder Extraktion, und Open-Source- bzw. EU-gehostete Modelle decken Souveränitäts- und Kostenanforderungen ab. Statt einer Einmal-Entscheidung "welches Modell nehmen wir?" wird die Modellwahl damit zu einer fortlaufenden Zuordnung von Aufgabe zu Modell entlang vier Kriterien: Qualität, Kosten, Latenz und Compliance.

Die zentrale Einsicht für 2026: Die Frage "großes oder kleines Modell, proprietär oder Open Source?" ist laut der zugrundeliegenden Research keine binäre Entscheidung mehr, sondern eine Portfolio-Allokation. Ein produktiver Agent läuft selten auf einem einzigen Modell.

Drei Schnellantworten

  • Wann groß (Frontier-Closed)? Bei komplexem Reasoning, agentic Coding auf Spitzen-Tier, very-long-context-Aufgaben, Premium-Multimodal und seltenen hochwertigen Analyse-Schritten. Diese Kategorie umfasst in DACH-Konzernen typischerweise 15-35 % des Token-Volumens, trägt aber 60-80 % des wahrgenommenen strategischen Werts.
  • Wann klein (Workhorse/Speed)? Bei einfachen, häufigen, gut definierten Schritten: Klassifikation, Extraktion, Summarisation, Routing-Entscheidungen selbst, Standard-Formatierung. Hier ist der Frontier-Premium laut Research nicht mehr ökonomisch zwingend.
  • Wann Open Source / EU-Hosting? Wenn Souveränität, Datenresidenz, Kostenkontrolle bei hohem Volumen oder Mitbestimmungs-Anforderungen dominieren - insbesondere bei workforce-defining und kundendaten-verarbeitenden Agenten.

Warum die binäre Modellfrage 2026 nicht mehr trägt

Der Capability-Gap zwischen bester Open-Weight und Frontier-Closed hat sich laut Research von 12-18 Monaten (2024) auf 3-6 Monate (2026) verengt; auf einzelnen Workloads ist er null oder negativ. Konkret: Kimi K2.6 (1T-Parameter, Modified MIT, Open-Weight) liegt auf dem Artificial-Analysis-Intelligence-Index auf Platz 4 overall - hinter nur Anthropic, Google und OpenAI - und erreicht auf SWE-Bench Pro mit 58,6 % Parität mit GPT-5.5. DeepSeek V4 Pro erzielt auf SWE-Bench Verified 80,6 % und ein Codeforces-Rating von 3.206, das höchste je publizierte Wettkampf-Coding-Rating.

Gleichzeitig bleibt der Frontier-Premium für bestimmte Schritte real und nicht-trivial: Auf FrontierMath erreicht GPT-5.5 Pro das beste öffentliche Math-Resultat, auf GPQA Diamond führt Gemini 3.1 Pro mit 94,3 %, Claude Opus 4.7 liegt auf SWE-Bench Verified bei 87,6 %. Für seltene, hochwertige Reasoning-Workloads - juristische Recherche, wissenschaftliche Hypothesenbildung, komplexe Finanzanalyse - bleibt Frontier-Closed materiell überlegen.

Für die Modellwahl heißt das: Die ehrliche Frage ist nicht "Open oder Closed?", sondern "Welcher Schritt gehört auf welche Tier?".

Der Kostenhebel: Warum Routing sich rechnet

Der ökonomische Treiber hinter LLM-Routing ist die Preisspreizung. Closed-Frontier bleibt laut Research 8-100x teurer auf Output als günstige Open-Weight-Modelle. Wer jeden Agenten-Schritt - auch das simple Klassifizieren einer E-Mail - auf das Frontier-Modell schickt, bezahlt Premium-Preise für Qualität, die der Schritt gar nicht benötigt.

Die folgende Übersicht zeigt repräsentative Listenpreise (Stand April-Mai 2026, USD pro Million Tokens Input/Output). Preise und Modellversionen ändern sich schnell und sind vor jeder mehrjährigen Verpflichtung zu verifizieren.

Modell

Tier

Preis in/out (USD/1M Tok., Stand 2026)

Souveränitäts-Profil

Claude Opus 4.7

Frontier-Closed

5 / 25

US-jurisdiktional (EU-Region verfügbar)

GPT-5.5 Pro

Frontier-Closed

30 / 180

US-jurisdiktional (Azure-EU)

Gemini 3.1 Pro

Frontier-Closed

2 / 12 (>200K: 4 / 18)

US-jurisdiktional (Vertex-EU)

Claude Sonnet 4.6

Workhorse-Closed

ca. 3 / 15

US-jurisdiktional

Claude Haiku 4.5

Speed-Closed

ca. 1 / 5

US-jurisdiktional

Mistral Large 3 (675B/41B aktiv)

Frontier-near, Apache 2.0

0,50 / 1,50

EU-Sovereign (FR)

Ministral 3

Speed, Open-Weight

0,15 / 0,40

EU-Sovereign

Kimi K2.6 (1T/32B aktiv)

Frontier-near, Modified MIT

0,60 / 2,50 (Moonshot)

CN-Origin, geopolitisches Tail-Risiko

DeepSeek V4 Flash

Workhorse, MIT-derived

0,14 / 0,28

CN-Origin, geopolitisches Tail-Risiko

Die Spreizung ist drastisch: Im typischen Vergleich liegt der Output-Preis um Faktor 8 bis 100 auseinander; stellt man das teuerste Frontier-Modell dem günstigsten Workhorse gegenüber, kostet GPT-5.5 Pro auf Output sogar rund das 640-fache von DeepSeek V4 Flash. Genau diese Lücke macht Routing zum wirtschaftlichen Standard - nicht aus ideologischen, sondern aus rein betriebswirtschaftlichen Gründen.

Das Router-Pattern: Aufgabe zu Modell

Ein LLM-Router ordnet eingehende Schritte ihrer Komplexitäts- und Compliance-Klasse zu und wählt das günstigste Modell, das die Anforderung erfüllt. In der Praxis übernimmt häufig ein kleines, schnelles Modell selbst die Klassifikation der Aufgabe, bevor die eigentliche Arbeit auf das passende Zielmodell geht. Die Routing-Tabelle ist das Herzstück:

Szenario

Modelltyp

Begründung

Komplexes mehrstufiges Reasoning, agentic Coding-Plan

Frontier-Closed (Claude Opus 4.7, GPT-5.5 Pro)

Capability-Premium real; bestes Resultat auf härtesten Aufgaben rechtfertigt den hohen Output-Preis

Frontier-Math, wissenschaftliche Hypothesenbildung

Frontier-Closed (GPT-5.5 Pro)

Bestes öffentliches Math-Resultat laut Research; seltener, hochwertiger Workload

Tool-Orchestrierung, Terminal-/Shell-Tasks

Frontier-Closed (GPT-5.5 führt Terminal-Bench, Claude Opus stark)

Agentic-Capability entscheidet über Erfolgsquote

Standard-Coding, Code-Refactoring at scale

Frontier-near Open-Weight (DeepSeek V4 Pro, Kimi K2.6)

Math/Coding-Parität zu Frontier-Closed; deutlich günstiger

Klassifikation, Extraktion, Summarisation (Batch)

Workhorse/Speed Open-Weight (DeepSeek V4 Flash, Ministral)

50-80 % der Frontier-Capability ausreichend; Kostenvorteil dominiert

Deutschsprachige Workhorse-Workflows

EU-Open-Weight (Mistral, Aleph Alpha Pharia, Cohere Aya, Teuken-7B)

Deutsch-Performance struktureller Differentiator; US-Open-Weight (Llama, ca. 8 % nicht-englisch) schwächer

Workforce-defining Agent (HR-Bot, internes Wissen)

Sovereign-EU (Mistral/Aleph Alpha auf STACKIT, OVHcloud, T-Systems)

Mitbestimmung, DSGVO und Reputation kompoundieren; Compliance-Vereinfacher

Kundendaten-verarbeitender Agent (EU-Daten)

Sovereign-EU oder min. US-Hyperscaler EU-Region mit DPA

EU-Region reduziert DSGVO-Reibung, eliminiert aber nicht US-Jurisdiktion

Capability-gebundene Analyse ohne Personendaten

US-Closed-Frontier akzeptabel

Capability-Premium ökonomisch substanziell, kein Souveränitäts-Constraint

Latenz-kritische interaktive Antwort

Speed-Tier (Claude Haiku, Groq/Cerebras-gehostet)

Sub-Sekunden-TTFT; Qualität nachrangig gegenüber Reaktionszeit

Die vier Tradeoff-Dimensionen

Die Research strukturiert die Modellwahl entlang vier Dimensionen, die ein guter Router gemeinsam abbildet:

  • Qualität (Weights-Control & Capability): Wie viel Reasoning-Tiefe braucht der Schritt wirklich? Und wer kontrolliert das Modell - liegt es als Closed-API allein in der Vendor-Roadmap, oder ist es als Open-Weight zu einem anderen Inference-Provider oder Self-Hosting portierbar?
  • Kosten (Cost-Profile): Per-Token-Closed (Premium, voll variabel), Per-Token-Open-Weight via Inference-Provider (Mid-Tier) oder Self-Hosting (Fix-Kosten, marginale Token-Kosten nahe null bei hoher Auslastung). Self-Hosting wird laut Research erst ab konstant 5-50 Mio. Tokens/Tag wirklich attraktiv und nur mit vorhandener MLOps-Kapazität.
  • Latenz: Speed-Spezialisten wie Groq (LPU) und Cerebras (Wafer-Scale) liefern Sub-Sekunden-Time-to-First-Token für ausgewählte Modelle - relevant für interaktive Agenten, irrelevant für nächtliche Batch-Verarbeitung.
  • Compliance (Hosting-Sovereignty): Eine EU-Region auf einem US-Hyperscaler ist laut Research nicht dasselbe wie Sovereign-EU. Sie reduziert Latenz und DSGVO-Reibung, eliminiert aber nicht die US-Jurisdiktion (CLOUD Act, OFAC). Strukturell außerhalb der US-Reichweite liegen nur Sovereign-EU-Stacks (STACKIT, OVHcloud, T-Systems Open Telekom Cloud, IONOS, Hetzner) und On-Prem.

Open Source vs. proprietär: die nüchterne Abwägung

Hier lohnt der genaue Blick, weil "Open" mehrdimensional ist. Open-Weight bedeutet, dass die Gewichte herunterladbar sind - nicht automatisch, dass die Lizenz uneingeschränkt ist. Mistral Large 3 (Apache 2.0, EU-Sovereign) und Phi-4 (MIT) sind permissiv. Llama 4 dagegen unterliegt der Llama Community License mit einer 700-Mio.-MAU-Schwelle und einer EU-Multimodal-Restriktion - eine direkte regulatorische Reaktion auf den EU AI Act; die OSI klassifiziert Llama explizit als nicht Open-Source.

China-Open-Weight (DeepSeek V4 unter MIT-derived, Kimi K2.6 unter Modified MIT, Qwen 3.6-27B unter Apache 2.0) ist lizenzrechtlich genuin permissiv - permissiver als Llama. Aber die Herkunfts-Jurisdiktion ist laut Research nicht durch Lizenz-Permissivität neutralisierbar. Für DACH-Konzerne mit US-Tochter, US-Vertragspartner-Verpflichtungen oder kritischer Infrastruktur trägt diese Option ein unbestimmtes geopolitisches Tail-Risiko (Export Controls, Reputationsrisiko), das explizit pro Workload zu begrenzen ist - akzeptabel etwa für Coding-Agents auf öffentlichem Code oder Batch-Klassifikation auf öffentlich zugänglichen Texten, problematisch bei sensiblen Kundendaten.

Souveränität ist 2026 zudem ein messbares Beschaffungs-Kriterium: Laut Bitkom-Daten sehen sich 89 % der deutschen Digital-Importeure abhängig, 72 % der Bevölkerung halten Deutschland bei KI für zu USA-abhängig. In Betriebsrats-Verhandlungen ist Sovereign-EU-Substrat strukturell reibungsärmer, weil Audit-Rechte, Datenresidenz und Vendor-Jurisdiktion einfacher zu vereinbaren sind.

Ein dezenter, aber wichtiger Hinweis: Die Compliance- und Lizenz-Aussagen hier sind keine Rechtsberatung. Relevant für das Routing ist eine Grenze aus der Research: Wer ein Open-Weight-Modell substanziell fine-tunet (indikative EU-AI-Act-Schwelle: mehr als ein Drittel des Base-Pretraining-Computes, default 3,33 × 10²² FLOPs), kann selbst zum GPAI-Provider werden. LoRA/QLoRA liegt typischerweise weit darunter; Continued Pretraining überschreitet die Schwelle fast immer. Das ist ein Argument, in der Customization-Pipeline auf RAG plus Prompt-Engineering zu setzen statt auf schweres Fine-Tuning - und ein Grund, die konkrete rechtliche Bewertung qualifiziert prüfen zu lassen.

Praxisbeispiel: Ein Support-Agent mit gemischtem Routing

Ein Kundenservice-Agent bearbeitet täglich 100.000 Anfragen. Ohne Router läuft alles auf Claude Opus 4.7 (5/25 USD pro Mio. Tokens). Mit Router sieht die Zuordnung so aus:

  • Schritt 1 - Intent-Klassifikation (70 % der Last): Ein Speed-Open-Weight-Modell wie Ministral 3 (0,15/0,40 USD) auf EU-Region-Inference (z. B. DeepInfra Frankfurt) klassifiziert die Anfrage. Souveränitätskonform, da EU-gehostet, und um Faktor ~60 günstiger auf Output als Opus.
  • Schritt 2 - Standard-Antwort aus Wissensbasis (20 % der Last): Ein EU-Workhorse wie Mistral Large 3 (0,50/1,50 USD, Apache 2.0, EU-Sovereign) generiert die Antwort per RAG - starke Deutsch-Performance, datenresident.
  • Schritt 3 - Eskalation mit komplexem Vertrags-Reasoning (10 % der Last): Hier greift das Frontier-Modell (Claude Opus 4.7), weil die Antwortqualität geschäftskritisch ist und der Premium sich rechtfertigt.

Das Ergebnis: Der teure Frontier-Pfad trägt nur noch ein Zehntel der Last, der überwiegende Teil läuft auf günstigen, EU-souveränen Modellen. Pseudocode der Routing-Entscheidung:

```
intent = classify(anfrage) # Ministral 3, EU-Region
if intent in EINFACH:
return mistral_large_3(rag(anfrage)) # EU-Sovereign Workhorse
elif intent == VERTRAG_KOMPLEX:
return claude_opus_47(anfrage) # Frontier nur wo nötig
```

Damit Routing nicht zur Vendor-Falle wird, empfiehlt die Research einen Portabilitäts-Layer (etwa LiteLLM oder OpenRouter für Multi-Provider-Routing) und mindestens einen dünnen Open-Weight-Migrationspfad für die wichtigsten Workloads - plus eine kontinuierliche Eval-Pipeline gegen ein held-out Test-Set, weil Closed-API-Updates automatisch passieren und stille Capability-Regressionen mehrfach dokumentiert sind.

Für Agenturen und B2B-Entscheider

Ein durchdachter LLM-Router ist 2026 kein Nice-to-have, sondern der Hebel, an dem Kosten, Antwortqualität und DSGVO-Konformität eines Agenten gleichzeitig hängen. Die richtige Architektur ist fast immer hybrid - die eigentliche Arbeit liegt darin, pro Workload sauber zu entscheiden, welcher Schritt Frontier-Qualität braucht, welcher auf einem günstigen EU-Modell laufen kann und wo Souveränität bindend ist. Genau diese Routing-Logik, die Vendor-Portabilität und die passende Sovereign-EU- oder Closed-Frontier-Mischung konzipiert Blck Alpaca als Wiener Agentur für KI-Agenten gemeinsam mit DACH-Unternehmen. Wenn Sie wissen wollen, welcher Modell-Mix zu Ihren Workloads, Ihrem Compliance-Profil und Ihrem Budget passt, sprechen Sie mit uns.

Häufig gestellte Fragen

Was ist ein LLM-Router und warum braucht ein Agent ihn?
Ein LLM-Router entscheidet pro Agenten-Schritt, welches Modell die Anfrage bearbeitet. Statt jeden Schritt auf das teuerste Frontier-Modell zu schicken, leitet er einfache Aufgaben (Klassifikation, Extraktion, Formatierung) an kleine, günstige Modelle und reserviert große Modelle für komplexes Reasoning oder Tool-Orchestrierung. Das optimiert Kosten, Latenz und Compliance gleichzeitig, ohne die Antwortqualität bei den anspruchsvollen Schritten zu opfern.
Wann lohnt sich ein großes Frontier-Modell gegenüber einem kleinen?
Laut Research bleibt der Frontier-Premium real für eine Minderheit der Workloads: agentic Coding auf Sonnet-4.6+-Tier, very-long-context-Reasoning, Premium-Multimodal und Frontier-Math (GPT-5.5 Pro erreicht hier das beste öffentliche Resultat). Empirisch fallen in DACH-Konzernen typischerweise 15-35 % des Token-Volumens in diese Kategorie, tragen aber 60-80 % des wahrgenommenen strategischen Werts. Für Klassifikation, Extraktion, Summarisation und Standard-Coding ist der Premium nicht mehr ökonomisch zwingend.
Ist Open-Source-LLM 2026 gut genug für produktive Agenten?
Für reine Text- und Coding-Workloads ist der Open-Weight-Gap laut Research geschlossen oder minimal: Kimi K2.6 liegt auf dem Artificial-Analysis-Intelligence-Index auf Platz 4 overall und erreicht auf SWE-Bench Pro mit 58,6 % Parität mit GPT-5.5. Bei Premium-Vision/Audio/Video und Frontier-Math bleibt Closed-Frontier vorne. Auf dem deutschen Workhorse-Tier sind EU-Modelle (Mistral, Aleph Alpha, Cohere Aya, Teuken) strukturell stärker als US-Open-Weight wie Llama, das nur auf ca. 8 % nicht-englischen Daten trainiert wurde.
Welche Rolle spielt EU-Hosting und Souveränität bei der Modellwahl?
Hosting-Souveränität ist eine eigene Routing-Dimension. Eine EU-Region auf einem US-Hyperscaler reduziert laut Research Latenz und DSGVO-Reibung, eliminiert aber nicht die US-Jurisdiktion (CLOUD Act, OFAC). Echte Souveränität bieten nur Sovereign-EU-Stacks wie STACKIT, OVHcloud, T-Systems oder On-Prem. Für regulierte, kundendaten- oder mitarbeiterdaten-verarbeitende Agenten ist Sovereign-EU-Substrat ein struktureller Compliance-Vereinfacher und in Betriebsrats-Verhandlungen reibungsärmer.
Was kostet falsches Routing konkret?
Closed-Frontier-Modelle bleiben laut Research 8-100x teurer auf Output als günstige Open-Weight-Modelle. Beispiel Stand 2026: GPT-5.5 Pro kostet 30 USD Input / 180 USD Output pro Mio. Tokens, DeepSeek V4 Flash 0,14 / 0,28 USD, Mistral Large 3 0,50 / 1,50 USD. Wer jeden Klassifikations- oder Extraktions-Schritt auf das Frontier-Modell schickt, zahlt ein Vielfaches für Qualität, die der Schritt nicht braucht. Preise ändern sich schnell und sind vor jeder Verpflichtung zu verifizieren.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.