Pricing-Modelle für Agent-Infrastruktur: Retainer, Project, Outcome
Pricing für AI-Agenten in der Agentur bündelt vier Modelle: Retainer (monatliche Pauschale), Project/Fixed (Festpreis pro Lieferung), Outcome-Based (Bezahlung pro Ergebnis) und Hybrid. Entscheidend ist Wert- statt Stundenbasierung, da KI-Effizienz die Arbeitszeit vom Ergebnis entkoppelt, sowie Margenschutz gegenüber volatilen Token-Kosten.
Auf einen Blick
- ✓Vier Grundmodelle: Retainer, Project/Fixed, Outcome-/Performance-based und Hybrid - jedes mit eigenem Margenrisiko und passendem Einsatzfeld.
- ✓Stundensätze brechen unter KI-Effizienz zusammen: Wertbasierte Preisgestaltung koppelt das Honorar vom verkürzten Zeitaufwand ab und schützt die Marge.
- ✓Token- und Infrastrukturkosten sind nur 30-50 Prozent der echten TCO - Durchleitung mit transparenter Marge (typisch 30-50 Prozent) schlägt die versteckte Pauschale.
- ✓Outcome-Pricing (z. B. pro gelöstem Ticket) richtet Anreize aus, verlagert aber das Volumen- und Kostenrisiko vollständig auf die Agentur.
- ✓Margenschutz braucht harte Token-Caps pro Workflow, Caching (50-90 Prozent Ersparnis auf Input) und Eval-getriebene Modellwahl - nicht den Lieferantenrabatt.
- ✓Token-Ökonomie ist 2026 volatil: Jede Pauschale braucht eine Preisgleitklausel und einen quartalsweisen Kostenreview.
Pricing für AI-Agenten in der Agentur bündelt vier Modelle: Retainer (monatliche Pauschale), Project/Fixed (Festpreis pro Lieferung), Outcome-Based (Bezahlung pro Ergebnis) und Hybrid. Entscheidend ist Wert- statt Stundenbasierung, da KI-Effizienz die Arbeitszeit vom Ergebnis entkoppelt, sowie konsequenter Margenschutz gegenüber volatilen Token-Kosten. Wer Agent-Infrastruktur wie klassische Dienstleistung nach Stunden abrechnet, verschenkt systematisch Wert und unterschätzt die Kostenstruktur.
- Retainer für laufenden Betrieb, Monitoring und Weiterentwicklung; Project/Fixed für abgegrenzte Implementierungen; Outcome-Based nur bei messbaren, stabilen Ergebnissen.
- Token- und Infrastrukturkosten sind nur 30-50 Prozent der echten TCO - der Rest sind Engineering, Eval, Compliance und Human-in-the-Loop.
- Token-Ökonomie ist 2026 volatil: jede Pauschale braucht Caps, Caching und eine Preisgleitklausel, sonst frisst ein Modellwechsel die Marge.
Warum Stundenbasierung bei AI-Agenten scheitert
Das klassische Agenturmodell verkauft Zeit. AI-Agenten brechen diese Logik, weil sie das Ergebnis vom Zeitaufwand entkoppeln. Eine Recherche- oder Klassifikationsaufgabe, die als Handarbeit Tage band, läuft als Agenten-Workflow in Minuten. Wer weiterhin Stunden abrechnet, bestraft die eigene Effizienz: Je besser die Agentur automatisiert, desto weniger verdient sie an derselben Leistung. Wertbasierte Preisgestaltung dreht das um - bemessen wird der Geschäftswert für den Kunden, nicht die intern verbrauchte Zeit.
Gleichzeitig ist die Kostenseite tückischer geworden. Ein einzelner Nutzer-Request entspricht 2026 nicht mehr einem einzigen Modellaufruf, sondern typischerweise 5-20 LLM-Calls (Planner, Tool-Auswahl, Tool-Ergebnis, Kritik, Revision, Verifikation). Agentische Workflows haben den Token-Verbrauch pro Request gegenüber dem simplen Chatbot-Muster um das 5- bis 50-Fache erhöht. Sub-Agenten-Kaskaden multiplizieren das nochmals um das 3- bis 10-Fache. Eine Pauschale, die auf dem alten "ein Prompt, eine Antwort"-Bild kalkuliert ist, verliert hier schnell die Marge.
Die vier Pricing-Modelle im Überblick
Retainer (monatliche Pauschale). Der Kunde zahlt eine feste Monatsgebühr für Betrieb, Monitoring, Eval-Iteration und kontinuierliche Verbesserung der Agenten. Ideal für laufende Agent-Infrastruktur, die gepflegt und an Modell-Updates angepasst werden muss. Der Retainer sichert planbaren Umsatz und amortisiert die Compliance-Einrichtung über die Laufzeit - im DACH-Raum ein gewichtiges Argument, weil mehrjährige Mandate die AVV- und Sub-Prozessor-Aufwände rechtfertigen.
Project / Fixed (Festpreis). Ein abgegrenzter Lieferumfang - etwa die Implementierung eines Voice-Agents oder eines Service-Workflows - zu einem fixen Preis. Klar kommunizierbar und für Erstprojekte beliebt. Das Margenrisiko liegt beim Scope: Unterschätzte Token-Kaskaden, Retry-Loops oder Integrationsaufwand in SAP-lastige DACH-Stacks fressen die Kalkulation. Festpreise gehören mit Puffer und sauberem Change-Request-Prozess versehen.
Outcome- / Performance-based. Bezahlt wird pro Ergebnis - pro gelöstem Ticket, qualifiziertem Lead, abgeschlossenem Vorgang. Der strukturelle Vorteil: Anbieter- und Kundeninteressen sind auf den Erfolg ausgerichtet. Das strukturelle Risiko: Die Agentur trägt das Kostenrisiko jeder Transaktion. Liegt die Erfolgsrate unter der Annahme, entsteht Verlust pro Ergebnis. Im Markt etabliert sich dieses Modell vor allem im Customer-Service - Intercom Fin liegt bei 0,99 US-Dollar pro gelöster Konversation, HubSpot senkte im April 2026 auf 0,50 US-Dollar, Zendesk verlangt 1,50 US-Dollar (committed) bis 2,00 US-Dollar (Pay-as-you-go) pro Resolution, Salesforce Agentforce 0,10 US-Dollar pro Aktion oder 2,00 US-Dollar pro Konversation (alle Stand 2026). Sierra publiziert keine Preise; Drittschätzungen nennen Jahres-1-Gesamtkosten von 200.000 bis 350.000 US-Dollar und mehr. Voraussetzung für Outcome-Pricing ist eine belastbare, gemessene Baseline der Erfolgsrate - ohne sie ist es ein Blindflug.
Hybrid. Die De-facto-Norm 2026: eine feste Basis (Retainer oder Setup) plus eine verbrauchs- oder ergebnisabhängige Komponente plus durchgeleitete Token-Kosten. Hybrid kombiniert planbaren Deckungsbeitrag mit fairer Lastverteilung und ist für die meisten Agentur-Mandate die robusteste Struktur.
Modellvergleich: Wann sinnvoll, Vor- und Nachteil, Margenrisiko
Modell | Wann sinnvoll | Vorteil / Nachteil | Margenrisiko |
|---|---|---|---|
Retainer | Laufender Betrieb, Monitoring, kontinuierliche Weiterentwicklung; mehrjährige Mandate | Planbarer Umsatz, amortisiert Compliance-Setup / Token-Verbrauch nicht abgedeckt, Scope-Creep | Mittel - steigt bei volatilen Token-Kosten ohne Cap; Preisgleitklausel nötig |
Project / Fixed | Abgegrenzte Implementierung mit klarem Lieferumfang; Erstprojekte | Klar kommunizierbar, klare Erwartung / starre Grenzen, Nachträge schwierig | Hoch - unterschätzte Kaskaden, Retry-Loops (+20-50 %) und Integration fressen den Festpreis |
Outcome / Performance | Messbares, stabiles Ergebnis (gelöstes Ticket, Lead); bekannte Erfolgsrate | Anreize ausgerichtet, hohe Zahlungsbereitschaft / Agentur trägt Kosten- und Volumenrisiko | Sehr hoch - Verlust pro Ergebnis bei zu niedriger Erfolgsrate oder Verbrauchsspitzen |
Hybrid | Standardfall: Basis + Verbrauch/Ergebnis + Token-Durchleitung | Robuster Deckungsbeitrag, faire Lastverteilung / komplexere Abrechnung | Niedrig bis mittel - Risiko anteilig geteilt; bestes Margenprofil |
Token-Kosten: Durchleitung oder Pauschale
Der Posten, der am billigsten aussieht - die reine API-Compute - ist nicht der, in dem die Kosten stecken. Direkte Modellkosten machen bei einem typischen agentischen Workload nur 30-50 Prozent der Gesamt-TCO aus. Der Rest verteilt sich auf Tool-Kaskaden, Sub-Agenten, Sandbox-Compute, Vektor-DB, Observability, Compliance-Ops und Operations-Labour. Eine Agentur, die nur die Token-Liste kalkuliert, übersieht die Hälfte der Rechnung.
Für die Behandlung der Token-Kosten gibt es zwei saubere Wege:
- Durchleitung (Pass-through): Direkte API- und Plattformkosten werden pro Mandant getrackt (etwa über Helicone oder Portkey nach Key) und mit transparentem Aufschlag weiterverrechnet - branchenüblich 30-50 Prozent Marge auf die durchgeleiteten Kosten. Das Volatilitätsrisiko liegt beim Kunden, die Abrechnung ist nachvollziehbar.
- Pauschale: Token-Kosten sind im Festpreis oder Retainer eingepreist. Kundenfreundlich und planbar, aber nur tragfähig mit harten
max_tokens-,max_iterations- undmax_tool_calls-Caps pro Workflow, aggressivem Caching ab Tag eins und einem Sicherheitspuffer.
Caching ist dabei der größte Margenhebel: Anthropic gewährt auf Cache-Reads einen Rabatt von 90 Prozent (Stand 2026). Bei Claude Sonnet 4.6 fällt der Input von 3,00 auf 0,30 US-Dollar pro Million Token; eine Trefferquote von 80 Prozent senkt die effektiven Input-Kosten um 70-80 Prozent. Eval-getriebene Modellwahl - das günstigste Modell, das den Eval besteht - spart zusätzlich 30-60 Prozent. Gestapelt liefert ein gut instrumentierter FinOps-Ansatz 60-80 Prozent Kostenreduktion gegenüber der unoptimierten Baseline. Das ist der Spielraum, aus dem die Agentur-Marge entsteht - nicht aus dem Lieferantenrabatt.
Beispiel-Kalkulation: Customer-Service-Agent mit Outcome-Pricing
Eine Agentur betreibt für einen DACH-Kunden einen Service-Agenten, der 5.000 Tickets pro Monat bearbeitet. Architektur: Claude Sonnet 4.6 als Executor mit aktivem Prompt-Caching auf System-Prompt und Tool-Definitionen.
Annahmen pro gelöstem Ticket (Stand 2026, illustrativ):
- Direkter LLM-Verbrauch pro Konversation: rund 15.000 Input-Token (überwiegend gecacht) und 1.500 Output-Token über mehrere Agent-Schritte.
- Gecachter Input bei 0,30 US-Dollar/Mio. → ca. 0,0045 US-Dollar; Output bei 15 US-Dollar/Mio. → ca. 0,0225 US-Dollar.
- Direkte Modellkosten: rund 0,03 US-Dollar pro Ticket.
- Plus Tool-Kaskade, Retry-Risiko und Indirektkosten (Embeddings, Tool-Definitionen): realistisch 0,08-0,12 US-Dollar pro Ticket all-in auf der Infrastrukturseite.
Pseudocode für die Margenkalkulation:
```
kosten_direkt = 0.03 # USD pro Ticket, gecacht
kosten_allin = 0.10 # + Kaskade, Retry, Indirekt
eu_uplift = 1.10 # 10 % EU-Region-Aufschlag
kosten_dach = kosten_allin * eu_uplift # = 0.11
outcome_preis = 0.50 # Verrechnung pro geloestem Ticket
marge_pro_ticket = outcome_preis - kosten_dach # = 0.39
deckungsbeitrag_mt = marge_pro_ticket * 5000 # = 1'950 USD/Monat
```
Bei 5.000 Tickets ergibt das einen monatlichen Deckungsbeitrag von rund 1.950 US-Dollar - sofern die Erfolgsrate stabil ist. Kippt die Resolution-Rate oder steigen Retry-Loops um 20-50 Prozent, schmilzt die Marge pro Ticket schnell. Genau deshalb braucht Outcome-Pricing eine gemessene Baseline und einen Floor-Retainer, der die Fixkosten (Eval-Iteration, Compliance, Monitoring) unabhängig vom Volumen deckt. Hinweis: Die Token-Ökonomie ist 2026 volatil - günstige Open-Weight-Modelle wie DeepSeek V4 Flash liegen bei 0,14 US-Dollar/Mio. Input und damit rund 36-fach unter GPT-5.5; ein Modellwechsel kann die Kalkulation in beide Richtungen verschieben.
Margenschutz und DACH-Realität
Drei Hebel sichern die Marge unabhängig vom gewählten Modell:
- Preisgleitklausel und Caps. Jeder Retainer und Festpreis enthält eine Anpassungsklausel für Token-Kostenänderungen und harte Verbrauchsgrenzen pro Workflow. Die Token-Ökonomie 2026 ist ein bewegliches Ziel.
- Engineering-first statt Contract-first. Caching, Routing, Batch (50 Prozent Rabatt bei 24-Stunden-SLA) und Open-Weight-Fallback für Long-Tail-Workloads bestimmen 50-80 Prozent der Rechnung - mehr als jeder Lieferantenrabatt.
- DACH-Overhead explizit einpreisen. EU-Region kostet bei OpenAI und Anthropic 10 Prozent Aufschlag, souveränes Hosting das 1,5- bis 3-Fache, die AVV-Kette 5-20k Euro pro Jahr und Anbieter zuzüglich 10-50k Euro Onboarding. In Summe erhöhen DACH-Faktoren die TCO um 15-35 Prozent gegenüber einem US-Workload. Mehrjährige Mandate amortisieren diesen Compliance-Aufwand - ein Argument für Retainer und gegen Einzelprojekte.
Für Agenturen und B2B-Entscheider
Für Agenturen heißt das: Verlassen Sie die Stundenlogik. Bauen Sie ein Hybrid-Modell mit Floor-Retainer, transparenter Token-Durchleitung (30-50 Prozent Marge, pro Mandant getrackt) und einer optionalen Outcome-Komponente dort, wo Sie die Erfolgsrate gemessen kennen. Verankern Sie Caps, Caching und eine Preisgleitklausel vertraglich - das schützt die Marge, wenn sich die Token-Preise verschieben.
Für B2B-Entscheider, die Agent-Leistungen einkaufen: Fragen Sie nach der Kostenstruktur hinter dem Preis, nicht nur nach dem Stundensatz. Ein seriöses Angebot weist Token-Durchleitung, Caching-Strategie und DACH-Compliance-Aufwand transparent aus. Wenn Sie eine Agent-Infrastruktur planen und ein belastbares, margensicheres Pricing-Modell für Ihren Anwendungsfall entwickeln möchten, sprechen Sie mit uns - wir kalkulieren Token-Ökonomie, TCO und Modellwahl entlang Ihres realen Workloads.
Häufig gestellte Fragen
Welches Pricing-Modell ist für AI-Agenten am besten geeignet?
Warum funktioniert Stundenabrechnung bei AI-Agenten nicht mehr?
Sollte eine Agentur Token-Kosten durchleiten oder pauschalieren?
Was sind typische Margenrisiken bei Outcome-Based Pricing?
Wie groß ist der DACH-Aufschlag auf die Agentur-Kalkulation?
Tiefer einsteigen?
Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.