Zum Inhalt springen
10.5Fortgeschritten7 min

Token-Economics: Wie AI-Agent-Kosten wirklich entstehen

Blck Alpaca·
Definition

Token-Economics bei AI Agents bezeichnet die Kostenmechanik, bei der jeder Agenten-Lauf nach verbrauchten Tokens abgerechnet wird: Input-, Output-, Cached- und Reasoning-Tokens. Anders als beim Chatbot vervielfachen Agenten den Verbrauch durch Multi-Step-Schleifen, Tool-Calls und Sub-Agenten - der Listenpreis weicht 2- bis 10-fach von den realen Produktionskosten ab.

Auf einen Blick

  • Ein einzelner Agenten-Lauf erzeugt 2026 typisch 5 bis 20 LLM-Aufrufe (Planner, Tool-Call, Auswertung, Verifikation) - Sub-Agenten-Kaskaden multiplizieren den Token-Verbrauch zusätzlich um das 3- bis 10-Fache.
  • Vier Token-Arten treiben die Rechnung: Input, Output (teurer), Cached-Input (bei Anthropic 90 Prozent günstiger) und Reasoning-Tokens (werden zum Output-Tarif abgerechnet).
  • API-Tokens sind selten mehr als 30 bis 50 Prozent der Gesamtkosten (TCO) - Vektor-Store, Observability, Compute, Retries und Compliance machen den Rest aus.
  • Prompt-Caching ist der größte FinOps-Hebel 2026: 60 bis 90 Prozent Cache-Trefferquote senken Input-Kosten um 70 bis 80 Prozent.
  • Eval-getriebenes Model-Routing (kleines Modell als Default, großes nur bei messbarer Lücke) spart 30 bis 60 Prozent ohne Qualitätsverlust.
  • Alle Preise Stand 2026 sind volatil - Budget-Guardrails wie Token-Caps pro Workflow sind Pflicht, nicht Kür.

Token-Economics bei AI Agents bezeichnet die Kostenmechanik, bei der jeder Agenten-Lauf nach verbrauchten Tokens abgerechnet wird: Input-, Output-, Cached- und Reasoning-Tokens. Anders als beim Chatbot vervielfachen Agenten den Verbrauch durch Multi-Step-Schleifen, Tool-Calls und Sub-Agenten. Der Listenpreis weicht dadurch typisch um das 2- bis 10-Fache von den realen Produktionskosten ab. Wer ein Agenten-Budget plant, muss diese Mechanik verstehen, sonst kalkuliert er die Hälfte der Rechnung weg.

  • Tokens sind die Abrechnungseinheit, nicht Anfragen. Eine Nutzeranfrage an einen Agenten erzeugt Stand 2026 typisch 5 bis 20 LLM-Aufrufe - jeder davon kostet erneut.
  • Output und Reasoning sind teuer, Cached-Input ist billig. Output kostet meist das 3- bis 5-Fache des Inputs; wiederverwendeter Kontext (Cache) bei Anthropic nur 10 Prozent.
  • API-Tokens sind selten mehr als 30 bis 50 Prozent der Gesamtkosten. Vektor-Store, Observability, Compute, Retries und Compliance treiben den Rest.

Die vier Token-Arten und wie sie abrechnen

Jeder LLM-Aufruf zerfällt in unterschiedlich bepreiste Token-Buckets. Wer nur den Output sieht, unterschätzt den Input systematisch - denn der Agent schleppt System-Prompt, Tool-Definitionen und wachsenden Kontext bei jedem Schritt erneut mit.

  • Input-Tokens umfassen alles, was ins Modell geht: System-Prompt, Tool-Definitionen, abgerufener RAG-Kontext, Konversationsverlauf und die eigentliche Anfrage. Ein Workflow mit fünf definierten Tools zu je 150 Tokens addiert allein 750 Input-Tokens zu jedem Request.
  • Output-Tokens sind die generierte Antwort. Sie kosten regelmäßig das Drei- bis Fünffache des Inputs. Bei Claude Sonnet liegt der Tarif Stand 2026 bei 3 USD Input gegen 15 USD Output pro Million Tokens - Faktor fünf.
  • Cached-Input-Tokens sind wiederverwendeter, stabiler Kontext. Anthropic liest Cache zu 0,1-fachem Basispreis (90 Prozent Rabatt), OpenAI auf der GPT-5.x-Familie zu rund 10 Prozent des Basispreises. Das ist der wirkungsstärkste Kosten-Hebel, der seit Beginn der nutzungsbasierten Abrechnung eingeführt wurde.
  • Reasoning-Tokens entstehen beim internen Nachdenken von Reasoning-Modellen. Sie werden Stand 2026 bei OpenAI und Anthropic schlicht zum Output-Tarif abgerechnet. Praktische Folge: Ein Aufruf mit 20.000 Reasoning-Tokens kostet bei 25 USD/Mio. Output rund 0,50 USD allein für das Denken - bevor ein einziges sichtbares Wort generiert ist.

Der Multiplikator: warum Agenten den Verbrauch explodieren lassen

Der entscheidende Unterschied zum Chatbot ist nicht der Token-Preis, sondern die Aufrufanzahl. Eine einzige Nutzeranfrage, die 2023 noch ein Modell-Call war, übersetzt sich 2026 routinemäßig in eine Kette: Planner, Tool-Auswahl, Interpretation des Tool-Ergebnisses, Nächster-Schritt-Entscheidung, Output-Formatierung, oft mit expliziten Verifikationsschleifen. Das sind 5 bis 20 Aufrufe. Sub-Agenten-Kaskaden treiben das gelegentlich auf 50 und mehr.

Drei Multiplikatoren stapeln sich:

  • Multi-Step-Ausführung addiert +50 bis +200 Prozent auf die direkte API-Linie. Jeder Tool-Call ist ein eigener Completion-Aufruf mit eigenem Kontext.
  • Sub-Agenten-Fan-out vervielfacht den Token-Verbrauch um das 3- bis 10-Fache gegenüber Einzel-Agenten. Jeder Sub-Agent ist eine separate Completion mit eigenem Kontextfenster und eigenen Tool-Definitionen.
  • Fehlschlag und Retry addieren das 1,3- bis 3-Fache bei schwacher Verifikation. Agentische Workflows, die scheitern und neu starten, verbrennen Tokens auf dem Weg dorthin.

Hinzu kommt das Kontext-Wachstum: Mit jedem Schritt wächst der Konversationsverlauf, der als Input erneut bezahlt wird. Lange Kontexte sind doppelt teuer - oberhalb von 200.000 Tokens berechnen mehrere Anbieter (Gemini-Pro-Modelle, OpenAI GPT-5.5 ab 272.000 Tokens) einen Aufschlag von 2-fach Input und 1,5-fach Output. Naives Vollstopfen des Kontextfensters ist daher selten die günstige Lösung.

Versteckte Kosten: die Rechnung unter der API-Linie

Bei einer agentischen Last auf Konzern-Skala ist die API-Token-Linie selten mehr als 30 bis 50 Prozent der Gesamtkosten (TCO). Budgets, die nur die Preisliste des Modellanbieters ansetzen, verfehlen systematisch die halbe Rechnung. Die folgenden Posten sind im DACH-Raum die häufigsten blinden Flecken (Anteile als Richtwert für eine repräsentative Konzern-Last, Stand 2026):

Kostentreiber

Ursache

Hebel

Direkte Modell-Tokens

Input, Output, Reasoning pro Aufruf

Caching, Routing, Eval-basierte Modellwahl

Tool-Use-Kaskade

5 bis 20 LLM-Aufrufe pro Anfrage

max_iterations und max_tool_calls als Hard-Cap

Sub-Agenten-Fan-out

jede Sub-Agenten-Completion separat

Advisor-Muster statt voller Sub-Agenten-Kaskade

Retry-Schleifen

schwache Verifikation, fehlgeschlagene Läufe

bessere Verifikation, Token-Budget pro Trace

Indirekte Modellkosten

Tool-Definitionen als Input je Call (5 Tools = 750 Tokens)

Tool-Definitionen cachen, Output-Schemas verschlanken

Vektor-Store und Embeddings

RAG-Speicher, Embedding-Generierung, Queries

self-hosted Qdrant statt managed; gezieltes Retrieval

Compute und Sandbox

Container, VM-Minuten für Coding-/Tool-Agenten

nur bei tatsächlichem Bedarf hochfahren

Observability

Monitoring des Token-Verbrauchs

self-hosted Langfuse statt Datadog auf Konzern-Skala

EU-Region-Aufschlag

rund 10 Prozent (OpenAI auf EU-Endpunkten, Anthropic auf inference_geo: "us")

Steady-State auf EU, Burst nach US wo DSGVO es zulässt

Souveränitäts-Aufpreis

1,5- bis 3-facher Preis bei SAP, Telekom, OVHcloud

nur für regulierte Lasten, sonst Verhandlungshebel

Compliance-Ops

AVV-Kette, Sub-Prozessor-Disclosure je Anbieter

Anbieterzahl niedrig halten, Vertragsvorlagen nutzen

Die versteckten Posten in Zahlen: Vektor-Store und Embeddings liegen bei 5 bis 15 Prozent der Gesamtkosten, Observability bei 2 bis 8 Prozent, Compute und Sandbox bei 10 bis 25 Prozent. Im DACH-Raum kommen Faktoren dazu, die auf keiner kalifornischen Preisliste stehen: der EU-Region-Aufschlag von rund 10 Prozent, der Souveränitäts-Aufpreis von Faktor 1,5 bis 3, sowie laufende Compliance-Kosten von realistisch 5.000 bis 20.000 Euro pro Jahr und aktivem Vertragspartner. Diese DACH-spezifischen Faktoren erhöhen die Gesamtkosten um 15 bis 35 Prozent gegenüber einer vergleichbaren US-Last.

Der Modellwahl-Hebel: klein, groß, oder geroutet

Nicht jeder Schritt braucht das teuerste Modell. Der zweitgrößte FinOps-Hebel nach Caching ist Routing - das günstige Modell als Standard, das teure nur bei messbarer Lücke. Die Preisspreizung ist erheblich (Stand 2026): Claude Haiku liegt bei 1 USD Input / 5 USD Output pro Million, Sonnet bei 3 / 15, Opus bei 5 / 25; GPT-5.5 bei 5 / 30. Auf der offenen Seite unterbietet DeepSeek V4 Flash mit 0,14 USD Input das Frontier-Niveau auf der Input-Seite um den Faktor 36.

Anthropic hat das Routing-Muster Stand 2026 mit dem Advisor Tool formalisiert (Beta seit 9. April 2026): Sonnet oder Haiku als Ausführer, Opus als bei Bedarf zugeschalteter Berater in einem einzigen API-Aufruf. Die veröffentlichten Benchmarks zeigen, wie stark der Hebel ist: Sonnet plus Opus-Advisor erreichte 74,8 Prozent auf SWE-bench Multilingual gegenüber 72,1 Prozent für Sonnet allein - bei 11,9 Prozent geringeren Kosten als Opus solo. Haiku plus Opus-Advisor verdoppelte den BrowseComp-Score (19,7 auf 41,2 Prozent) bei 85 Prozent geringeren Kosten als Sonnet solo.

Die nüchterne Faustregel dahinter: Das günstigste Modell, das den Eval besteht, ist das richtige Modell. Anthropics eigener Vergleich Sonnet gegen Opus zeigt rund Faktor fünf Kostenunterschied bei 1 bis 2 Prozentpunkten Benchmark-Abstand auf den meisten Workflows. Teams, die nach Eval-Ergebnis statt nach Bauchgefühl routen, senken die Modellkosten typisch um 30 bis 60 Prozent ohne Qualitätsverlust.

Rechenbeispiel: 1.000 Agenten-Läufe

Konkret, mit Sonnet-Tarifen (3 USD Input / 15 USD Output pro Million, Stand 2026, volatil). Angenommen ein Recherche-Agent mit durchschnittlich 8 LLM-Aufrufen pro Lauf, je 4.000 Input- und 800 Output-Tokens.

Unoptimiert, ohne Caching:

  • Input: 1.000 Läufe x 8 Aufrufe x 4.000 Tokens = 32 Mio. Tokens x 3 USD = 96 USD
  • Output: 1.000 x 8 x 800 = 6,4 Mio. Tokens x 15 USD = 96 USD
  • Direkte Token-Kosten: rund 192 USD pro 1.000 Läufe

Mit 80 Prozent Cache-Trefferquote auf dem stabilen Kontextanteil (System-Prompt und Tool-Definitionen, cached zu 0,30 USD/Mio. statt 3 USD): Der gecachte Input-Anteil fällt auf rund ein Fünftel seines Preises. Die gewichteten Input-Kosten sinken von 96 auf etwa 25 bis 30 USD, der Output bleibt. Gesamt: rund 120 bis 125 USD - eine Ersparnis von rund 35 Prozent allein durch Caching.

Wenn dann noch 60 Prozent der Aufrufe per Routing auf Haiku (1 / 5 USD) statt Sonnet laufen, weil der Eval es zulässt, sinkt die direkte Linie weiter Richtung 70 bis 80 USD pro 1.000 Läufe. Und das ist nur die API-Linie - rechnet man Vektor-Store, Observability und Compliance-Ops dazu, liegen die realen Gesamtkosten erneut deutlich höher. Genau deshalb sind Token-Caps pro Workflow (max_iterations, max_tool_calls, max_sub_agent_depth) Stand 2026 der Governance-Standard: Sie verhindern, dass ein einziger außer Kontrolle geratener Lauf die Kalkulation sprengt.

FinOps und Budget-Guardrails

Die wirksamen Maßnahmen sind kein Geheimwissen, sondern Ingenieurspraxis. Gestapelt liefert ein gut instrumentiertes FinOps-Programm 60 bis 80 Prozent Kostenreduktion gegenüber dem unoptimierten Ausgangswert:

  • Aggressives Prompt-Caching als größter Einzelhebel: 60 bis 90 Prozent Cache-Trefferquote senken Input-Kosten um 70 bis 80 Prozent. Der 5-Minuten-Cache amortisiert sich nach dem ersten Lese-Zugriff, der 1-Stunden-Cache nach dem zweiten.
  • Eval-getriebenes Routing über LiteLLM, OpenRouter oder Portkey - billiges Modell als Default, Advisor-/Eskalations-Muster für die harten Fälle.
  • Batch-API für Nicht-Echtzeit-Lasten mit pauschal 50 Prozent Rabatt, kombinierbar mit Caching - ein gecachter Batch-Request kann auf 5 Prozent des Standardpreises fallen.
  • Token-Budget pro Workflow mit Hard-Caps und Kostenattribution pro Mandant, Team oder Workflow - ohne diese Attribution kann FinOps die einzige Frage des CFO nicht beantworten: Welche Geschäftseinheit verursacht diese Rechnung?
  • Open-Weight-Fallback für die Long-Tail-Lasten (Zusammenfassung, Klassifikation, einfache Extraktion) - im DACH-Raum über EU-gehostete Anbieter wie Together AI EU-Region oder DeepInfra Frankfurt, da die China-gehostete DeepSeek-Direkt-API für DSGVO-gebundene Lasten ausscheidet.

Für Agenturen und B2B-Entscheider

Wer im DACH-Raum AI-Agenten produktiv betreibt oder für Kunden baut, sollte die Token-Ökonomie zur Kernkompetenz machen - denn die größten Kostenhebel liegen nicht im Vertrag, sondern in der technischen Umsetzung. Procurement-Teams, die um fünf Prozent Mengenrabatt ringen, lassen anderswo fünfzig Prozent liegen. Für Agenturen bedeutet das: Cost-Attribution pro Kunde via Helicone oder Portkey, transparente Kostenweitergabe mit klarer Marge auf der operativen Komplexität (10 Vertragspartner heißen 10 AVV-Ketten), und souveränes Hosting als Premium-Tier für Kunden mit DSGVO-Bindung. Für B2B gilt: Eval-getriebene Modellwahl, Caching ab Tag eins, Token-Caps pro Workflow und ein Exit-Pfad zu Open-Weight-Anbietern für jede Last, die eine sinnvolle Monatsschwelle überschreitet. Blck Alpaca aus Wien begleitet DACH-Unternehmen genau bei dieser Kalkulation - von der Workflow-Architektur über FinOps-Guardrails bis zur souveränen Bereitstellung. Hinweis: Sämtliche Preisangaben in diesem Artikel sind Stand 2026 und volatil; die Preisbänder verschieben sich quartalsweise und sollten vor jeder Budget-Entscheidung gegen die aktuelle Anbieter-Dokumentation geprüft werden.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Input-, Output- und Reasoning-Tokens?
Input-Tokens sind alles, was an das Modell geht (System-Prompt, Tool-Definitionen, Kontext, Nutzeranfrage). Output-Tokens sind die generierte Antwort und kosten meist das Drei- bis Fünffache des Inputs. Reasoning-Tokens entstehen beim internen Nachdenken von Reasoning-Modellen und werden Stand 2026 bei OpenAI und Anthropic zum Output-Tarif abgerechnet - ein Aufruf mit 20.000 Reasoning-Tokens kostet bei 25 USD/Mio. Output rund 0,50 USD allein fürs Denken. Cached-Input-Tokens sind wiederverwendeter Kontext und kosten bei Anthropic nur 10 Prozent des Basis-Inputs.
Warum kostet ein AI Agent so viel mehr als ein Chatbot?
Ein Chatbot ist ein Aufruf: Frage rein, Antwort raus. Ein Agent durchläuft pro Nutzeranfrage typisch 5 bis 20 LLM-Aufrufe - Planung, Tool-Auswahl, Auswertung des Tool-Ergebnisses, Nächster-Schritt-Entscheidung, Verifikation. Bei jedem Aufruf wachsen Kontext und Tool-Definitionen mit, die als Input erneut bezahlt werden. Sub-Agenten-Muster vervielfachen das um das 3- bis 10-Fache, fehlgeschlagene Läufe mit Retry um das 1,3- bis 3-Fache. So entsteht der 5- bis 50-fache Mehrverbrauch gegenüber dem klassischen Prompt-in/Antwort-raus-Muster.
Wie berechne ich die LLM-Kosten eines Agenten realistisch?
Nicht nur den Token-Tarif anschauen. Rechnen Sie pro Lauf: durchschnittliche Aufrufanzahl mal durchschnittliche Input- und Output-Tokens pro Aufruf, gewichtet mit dem Cache-Trefferanteil. Dann den Multi-Step- und Sub-Agenten-Faktor sowie den Retry-Aufschlag addieren. Anschließend die versteckten Posten dazurechnen: Embeddings und Vektor-Store (5 bis 15 Prozent), Observability (2 bis 8 Prozent), Compute/Sandbox (10 bis 25 Prozent), Compliance-Ops. Die API-Tokens sind am Ende meist unter der Hälfte der Gesamtkosten.
Welche Maßnahmen senken AI-Agent-Kosten am stärksten?
Drei Hebel dominieren Stand 2026. Erstens aggressives Prompt-Caching: stabile System-Prompts und Tool-Definitionen cachen senkt Input-Kosten um 70 bis 80 Prozent. Zweitens eval-getriebenes Model-Routing: das günstigste Modell, das den Test besteht, ist das richtige - das spart 30 bis 60 Prozent. Drittens Batch-Verarbeitung für Nicht-Echtzeit-Lasten mit pauschal 50 Prozent Rabatt, kombinierbar mit Caching. Gestapelt erreicht ein gut instrumentiertes FinOps-Programm 60 bis 80 Prozent Kostenreduktion gegenüber dem unoptimierten Ausgangswert.
Welche versteckten Kosten werden bei AI-Agent-Budgets am häufigsten übersehen?
Die teuersten blinden Flecken sind: Tool-Definitionen, die bei jedem Aufruf als Input mitbezahlt werden (5 Tools mit je 150 Tokens sind 750 Tokens pro Request); Retry-Schleifen bei schwacher Verifikation; der Vektor-Store für RAG; Observability-Tooling; sowie im DACH-Raum der EU-Region-Aufschlag von rund 10 Prozent, der Souveränitäts-Aufpreis von Faktor 1,5 bis 3 und die laufenden Compliance-Kosten pro Vertragspartner. Diese DACH-Faktoren erhöhen die Gesamtkosten um 15 bis 35 Prozent gegenüber einer vergleichbaren US-Last.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.