Tokenisierung und Context Window: Was Agent-Latenz und -Kosten treibt
Tokenisierung zerlegt Text in Tokens, die kleinsten Verarbeitungseinheiten eines LLM; das Context Window ist die maximale Tokenzahl, die ein Modell pro Anfrage gemeinsam verarbeitet. Bei AI-Agenten bestimmen beide direkt Kosten und Latenz, weil jeder Schritt den gesamten bisherigen Kontext erneut mitschleppt.
Auf einen Blick
- ✓Tokens sind die Abrechnungs- und Verarbeitungseinheit von LLMs: Kosten und Latenz hängen fast vollständig von der Tokenzahl ab, nicht von der Zeichenzahl.
- ✓Das Context Window ist endlich. Multi-Step-Agenten füllen es schnell, weil jeder Schritt Historie, Tool-Outputs und System-Prompt erneut mitsendet, sodass die abgerechnete Tokenmenge über den Lauf überproportional wächst.
- ✓Bei vollem oder sehr langem Kontext sinkt die Antwortqualität messbar (Lost-in-the-Middle): Informationen in der Mitte langer Eingaben werden schlechter genutzt als am Anfang oder Ende.
- ✓Output-Tokens kosten meist ein Mehrfaches der Input-Tokens (oft das Drei- bis Sechsfache); lange Kontexte verteuern zusätzlich, etwa Gemini 3.1 Pro mit Tarifaufschlag oberhalb 200K Tokens (Stand 2026).
- ✓Gegenstrategien sind Kontext-Kompression, Summarisierung der Historie und Retrieval (RAG) statt alles in den Prompt zu laden. Sie senken Kosten, Latenz und Degradationsrisiko gleichzeitig.
- ✓Modellwahl ist ein Kostenhebel: Workhorse- und Open-Weight-Modelle liegen pro Token oft Faktor 8 bis 100 unter Frontier-Closed-Modellen (Stand 2026).
Tokenisierung zerlegt Text in Tokens, die kleinsten Verarbeitungseinheiten eines LLM; das Context Window ist die maximale Tokenzahl, die ein Modell pro Anfrage gemeinsam verarbeiten kann. Bei AI-Agenten bestimmen beide direkt Kosten und Latenz, weil jeder Agent-Schritt den gesamten bisherigen Kontext erneut an das Modell sendet. Wer Agenten produktiv betreibt, steuert über diese zwei Grössen den grössten Teil der laufenden Kosten und der Antwortzeit.
- Tokens sind die Abrechnungs- und Verarbeitungseinheit. Kosten und Latenz hängen an der Tokenzahl, nicht an der Zeichenzahl. Deutscher Text erzeugt pro Wort tendenziell mehr Tokens als englischer.
- Das Context Window ist endlich. Multi-Step-Agenten füllen es schnell, weil jeder Schritt System-Prompt, gesamte Historie und alle Tool-Ergebnisse mitschleppt. Die pro Lauf abgerechnete Tokenmenge wächst dadurch überproportional.
- Voller Kontext heißt nicht besserer Kontext. Bei sehr langen Eingaben sinkt die Qualität messbar (Lost-in-the-Middle). Kontext-Management ist kein Nice-to-have, sondern Kosten- und Qualitätshebel zugleich.
Was Tokens sind und warum sie der Kostentreiber sind
Ein LLM verarbeitet keinen Klartext, sondern Tokens. Der Tokenizer zerlegt Eingabetext in Einheiten, die meist einem Wortteil, einem kurzen ganzen Wort oder einem Satzzeichen entsprechen. Das Modell rechnet ausschließlich mit diesen Tokens, und alle Anbieter rechnen pro Token ab, getrennt nach Input (was hineingeht) und Output (was generiert wird).
Für die Praxis sind zwei Eigenschaften entscheidend. Erstens ist die Token-Dichte sprachabhängig: Im Deutschen entspricht ein Token grob 0,6 bis 0,8 Wörtern. Lange Komposita, Umlaute und Flexionsendungen führen dazu, dass derselbe Sachverhalt auf Deutsch oft mehr Tokens benötigt als auf Englisch. Für DACH-Workloads heißt das: gleiche Aufgabe, höherer Tokenverbrauch, höhere Kosten und schnellere Füllung des Context Windows.
Zweitens ist Output meist deutlich teurer als Input. Bei den am Markt verfügbaren Modellen liegt der Output-Preis typisch beim Drei- bis Sechsfachen des Input-Preises - bei einzelnen günstigen Workhorse-Modellen ist der Aufschlag kleiner, bei Frontier-Modellen eher am oberen Rand. Ein Agent, der lange, ausführliche Antworten produziert, ist daher überproportional teuer im Verhältnis zur Menge an Output-Tokens.
Wie das Context Window funktioniert
Das Context Window ist die maximale Anzahl Tokens, die ein Modell in einer Anfrage gemeinsam sehen kann - Input und generierter Output zusammen. Alles, was das Modell für eine Antwort berücksichtigen soll, muss in dieses Fenster passen: System-Anweisung, Konversationsverlauf, eingespielte Dokumente, Tool-Definitionen und Tool-Ergebnisse.
Die Fenstergrössen sind in den letzten Jahren stark gewachsen. Aktuelle Frontier-Modelle bieten sehr große Kontexte: Claude Opus 4.7 und Gemini 3.1 Pro arbeiten mit rund 1 Million Tokens, Gemini je nach Bereitstellung mit bis zu 2 Millionen, Mistral Large 3 mit 256K, Llama 4 Scout sogar mit bis zu 10 Millionen Tokens (alle Angaben Stand 2026). Ein größeres Fenster verschiebt die harte Obergrenze - es macht das Mitschleppen von Kontext aber nicht gratis. Zwei Effekte bleiben: Kosten und Latenz steigen mit der Inputlänge, und die Antwortqualität degradiert bei sehr langen Eingaben.
Kontext-Wachstum bei Multi-Step-Agenten
Ein einzelner Chat-Aufruf ist kostenmäßig unkritisch. Das Problem entsteht beim agentischen Muster: Ein Agent löst eine Aufgabe nicht in einem Aufruf, sondern in vielen Schritten - planen, ein Tool aufrufen, Ergebnis bewerten, nächstes Tool aufrufen, und so weiter. Bei jedem dieser Schritte wird der gesamte bisherige Verlauf erneut als Input gesendet, weil das Modell zustandslos ist und sich nichts merkt.
Daraus folgt das zentrale ökonomische Muster von Agenten: ein überproportional wachsender Token-Verbrauch. Wenn Schritt 1 noch 2.000 Input-Tokens hat, Schritt 2 bereits 5.000, Schritt 3 dann 9.000 und so weiter, summiert sich der abgerechnete Token-Verbrauch über den Lauf nicht linear, sondern weit überproportional - jeder Schritt schleppt ja den gewachsenen Kontext aller vorherigen Schritte mit. Jeder zusätzliche Tool-Output - eine API-Antwort, ein durchsuchtes Dokument, ein Suchergebnis - vergrößert den Kontext für alle folgenden Schritte. Lange Tool-Ausgaben sind hier der häufigste stille Kostentreiber.
Latenz folgt derselben Logik. Die Zeit bis zum ersten Token und die Gesamt-Antwortzeit steigen mit der Inputlänge, weil das Modell den kompletten Kontext einlesen muss, bevor es antwortet. Ein Agent, der gegen Ende eines langen Laufs 80.000 Tokens Kontext mitführt, ist pro Schritt spürbar langsamer als am Anfang - genau dann, wenn der Nutzer ohnehin schon wartet.
Degradation: Lost-in-the-Middle bei vollem Kontext
Ein verbreiteter Trugschluss lautet: Wenn das Fenster groß genug ist, kann man einfach alles hineinpacken. Das stimmt technisch, aber nicht qualitativ. LLMs nutzen Informationen am Anfang und am Ende einer langen Eingabe zuverlässiger als Informationen in der Mitte - ein Effekt, der als Lost-in-the-Middle bekannt ist. Je länger der Kontext, desto höher das Risiko, dass die entscheidende Information schlechter gewichtet wird oder untergeht.
Für Agenten ist das doppelt relevant. Erstens füllt ein Agent seinen Kontext oft mit Historie, die für den aktuellen Schritt irrelevant ist. Zweitens kann ein überfüllter Kontext dazu führen, dass das Modell ältere Anweisungen oder frühe Tool-Ergebnisse aus der Mitte des Verlaufs ignoriert - mit dem Resultat, dass die Antwortqualität trotz technisch ausreichendem Platz sinkt. Mehr Kontext ist also nicht automatisch mehr Leistung; ab einem Punkt ist weniger, aber kuratierter Kontext besser.
Begriffe und ihre Agent-Implikation
Begriff | Bedeutung | Agent-Implikation |
|---|---|---|
Token | Kleinste Verarbeitungs- und Abrechnungseinheit; Wortteil, kurzes Wort oder Satzzeichen | Treibt Kosten und Latenz; deutscher Text erzeugt pro Wort mehr Tokens |
Tokenisierung | Zerlegung von Text in Tokens durch den Tokenizer | Bestimmt, wie teuer eine gegebene Eingabe wird; sprach- und modellabhängig |
Context Window | Maximale Tokenzahl (Input plus Output) pro Anfrage | Harte Obergrenze; bei Multi-Step-Agenten schnell ausgeschöpft |
Input-Tokens | An das Modell gesendeter Kontext | Wachsen mit jedem Agent-Schritt; Hauptursache überproportionaler Kosten |
Output-Tokens | Vom Modell generierte Antwort | Typisch 3- bis 6-fach teurer als Input; lange Antworten gezielt begrenzen |
Lost-in-the-Middle | Schwächere Nutzung von Information in der Mitte langer Eingaben | Überfüllter Kontext senkt Qualität; Kuratierung schlägt Vollständigkeit |
Kontext-Kompression | Verdichtung/Zusammenfassung des Verlaufs | Senkt Tokenzahl, Latenz und Degradationsrisiko in langen Läufen |
Retrieval (RAG) | Nur relevante Snippets per Suche einspielen statt Volltext | Hält Kontext klein und fokussiert; senkt Kosten und verbessert Trefferqualität |
Beispielrechnung: Tokens zu Kosten
Ein Support-Agent löst eine Anfrage in 6 Schritten. Pro Schritt sendet er den gesamten Kontext erneut. Vereinfachte Annahme zum Input-Verlauf: 2.000, 5.000, 9.000, 14.000, 20.000, 27.000 Tokens - in Summe rund 77.000 Input-Tokens. Dazu generiert er pro Schritt etwa 500 Output-Tokens, also rund 3.000 Output-Tokens insgesamt.
Rechnen wir das mit drei Preisniveaus durch (Preise pro 1 Mio. Tokens, Input/Output, Stand 2026):
Modell (Stand 2026) | Input-Preis | Output-Preis | Input-Kosten (77K) | Output-Kosten (3K) | Gesamt pro Lauf |
|---|---|---|---|---|---|
Claude Opus 4.7 (Frontier) | $5,00 | $25,00 | $0,385 | $0,075 | ~$0,46 |
Mistral Large 3 (EU-Sovereign) | $0,50 | $1,50 | $0,039 | $0,0045 | ~$0,043 |
DeepSeek V4 Flash (Workhorse) | $0,14 | $0,28 | $0,0108 | $0,00084 | ~$0,012 |
Ein einzelner Lauf wirkt billig. Aber bei 50.000 solcher Läufe pro Monat ergeben sich grob 23.000 US-Dollar mit dem Frontier-Modell gegenüber rund 2.150 US-Dollar mit dem EU-Sovereign-Modell und rund 600 US-Dollar mit dem günstigen Workhorse-Modell. Der Faktor zwischen Frontier- und Workhorse-Tier liegt je nach Modell zwischen 8 und 100 (Stand 2026). Zwei Lehren: Erstens dominiert bei Agenten der mitgeschleppte Input das Budget, nicht der Output. Zweitens ist die Modellwahl pro Teilschritt ein massiver Kostenhebel.
Hinzu kommt ein Long-Context-Aufschlag. Gemini 3.1 Pro etwa wird oberhalb von 200.000 Tokens teurer: Der Input-Preis verdoppelt sich, der Output-Preis steigt ebenfalls deutlich ($4 / $18 statt $2 / $12 pro 1 Mio. Tokens, Stand 2026). Wer den Kontext eines Agenten unkontrolliert über diese Schwelle wachsen lässt, zahlt nicht nur für mehr Tokens, sondern auch einen höheren Tarif pro Token.
Gegenstrategien: Kontext klein und fokussiert halten
Die Kunst des Agent-Engineerings besteht darin, dem Modell pro Schritt nur das zu geben, was es wirklich braucht. Drei Strategien, die sich kombinieren lassen:
- Kontext-Kompression und Summarisierung. Ältere Schritte werden zu einer kurzen Zusammenfassung verdichtet, statt den Volltext-Verlauf mitzuschleppen. Lange Tool-Outputs werden auf das Ergebnis reduziert. Das senkt Input-Tokens, Latenz und das Lost-in-the-Middle-Risiko gleichzeitig.
- Retrieval statt Volltext (RAG). Statt ganze Wissensdatenbanken oder Dokumente in den Prompt zu laden, werden per Suche nur die relevanten Snippets eingespielt. Das hält den Kontext klein und erhöht die Trefferqualität, weil das Modell nicht durch Irrelevantes abgelenkt wird.
- Modell-Routing und Prompt-Caching. Einfache Teilschritte (Klassifikation, Extraktion, Formatierung) laufen auf günstigen Workhorse- oder Open-Weight-Modellen; teure Frontier-Modelle werden nur für die komplexen Schritte reserviert. Prompt-Caching reduziert zusätzlich die Kosten für wiederkehrende, stabile Kontextteile wie System-Prompts.
Ergänzend gilt: Output gezielt begrenzen (knappe, strukturierte Antworten statt ausschweifender Prosa) und Tool-Ergebnisse auf das Nötige zuschneiden. In der Summe entscheiden diese Maßnahmen darüber, ob ein Agent in der Pilotphase elegant aussieht und im Produktivbetrieb wirtschaftlich bleibt.
Für Agenturen und B2B-Entscheider
Tokenisierung und Context Window sind keine technischen Randthemen, sondern die zwei wichtigsten Stellschrauben für die Wirtschaftlichkeit eines AI-Agenten. Wer eine Agent-Lösung budgetiert, sollte die Kosten nicht pro Anfrage, sondern pro vollständigem Multi-Step-Lauf und hochgerechnet auf das erwartete Monatsvolumen kalkulieren - inklusive des überproportionalen Kontext-Wachstums. Für Agenturen liegt der Beratungswert darin, Kunden vor der bösen Überraschung zu bewahren, dass ein im Pilot günstiger Agent unter Last unkalkulierbar teuer oder langsam wird. Blck Alpaca unterstützt DACH-Unternehmen dabei, Agent-Architekturen so zu konzipieren, dass Kontext-Management, Modell-Routing und Retrieval von Anfang an eingebaut sind - für planbare Kosten, akzeptable Latenz und stabile Antwortqualität im Produktivbetrieb.
Häufig gestellte Fragen
Was ist der Unterschied zwischen einem Token und einem Wort?
Warum werden Agenten mit jedem Schritt langsamer und teurer?
Was bedeutet Lost-in-the-Middle und warum ist es für Agenten relevant?
Löst ein grösseres Context Window das Problem?
Wie senke ich Token-Kosten in einem produktiven Agenten konkret?
Tiefer einsteigen?
Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.