10.9Fortgeschritten7 min

Pricing-Modelle für Agent-Infrastruktur: Retainer, Project, Outcome

Blck Alpaca·9. Juni 2026

Definition

Pricing für AI-Agenten in der Agentur bündelt vier Modelle: Retainer (monatliche Pauschale), Project/Fixed (Festpreis pro Lieferung), Outcome-Based (Bezahlung pro Ergebnis) und Hybrid. Entscheidend ist Wert- statt Stundenbasierung, da KI-Effizienz die Arbeitszeit vom Ergebnis entkoppelt, sowie Margenschutz gegenüber volatilen Token-Kosten.

Auf einen Blick

✓Vier Grundmodelle: Retainer, Project/Fixed, Outcome-/Performance-based und Hybrid - jedes mit eigenem Margenrisiko und passendem Einsatzfeld.
✓Stundensätze brechen unter KI-Effizienz zusammen: Wertbasierte Preisgestaltung koppelt das Honorar vom verkürzten Zeitaufwand ab und schützt die Marge.
✓Token- und Infrastrukturkosten sind nur 30-50 Prozent der echten TCO - Durchleitung mit transparenter Marge (typisch 30-50 Prozent) schlägt die versteckte Pauschale.
✓Outcome-Pricing (z. B. pro gelöstem Ticket) richtet Anreize aus, verlagert aber das Volumen- und Kostenrisiko vollständig auf die Agentur.
✓Margenschutz braucht harte Token-Caps pro Workflow, Caching (50-90 Prozent Ersparnis auf Input) und Eval-getriebene Modellwahl - nicht den Lieferantenrabatt.
✓Token-Ökonomie ist 2026 volatil: Jede Pauschale braucht eine Preisgleitklausel und einen quartalsweisen Kostenreview.

Pricing für AI-Agenten in der Agentur bündelt vier Modelle: Retainer (monatliche Pauschale), Project/Fixed (Festpreis pro Lieferung), Outcome-Based (Bezahlung pro Ergebnis) und Hybrid. Entscheidend ist Wert- statt Stundenbasierung, da KI-Effizienz die Arbeitszeit vom Ergebnis entkoppelt, sowie konsequenter Margenschutz gegenüber volatilen Token-Kosten. Wer Agent-Infrastruktur wie klassische Dienstleistung nach Stunden abrechnet, verschenkt systematisch Wert und unterschätzt die Kostenstruktur.

Retainer für laufenden Betrieb, Monitoring und Weiterentwicklung; Project/Fixed für abgegrenzte Implementierungen; Outcome-Based nur bei messbaren, stabilen Ergebnissen.
Token- und Infrastrukturkosten sind nur 30-50 Prozent der echten TCO - der Rest sind Engineering, Eval, Compliance und Human-in-the-Loop.
Token-Ökonomie ist 2026 volatil: jede Pauschale braucht Caps, Caching und eine Preisgleitklausel, sonst frisst ein Modellwechsel die Marge.

Warum Stundenbasierung bei AI-Agenten scheitert

Das klassische Agenturmodell verkauft Zeit. AI-Agenten brechen diese Logik, weil sie das Ergebnis vom Zeitaufwand entkoppeln. Eine Recherche- oder Klassifikationsaufgabe, die als Handarbeit Tage band, läuft als Agenten-Workflow in Minuten. Wer weiterhin Stunden abrechnet, bestraft die eigene Effizienz: Je besser die Agentur automatisiert, desto weniger verdient sie an derselben Leistung. Wertbasierte Preisgestaltung dreht das um - bemessen wird der Geschäftswert für den Kunden, nicht die intern verbrauchte Zeit.

Gleichzeitig ist die Kostenseite tückischer geworden. Ein einzelner Nutzer-Request entspricht 2026 nicht mehr einem einzigen Modellaufruf, sondern typischerweise 5-20 LLM-Calls (Planner, Tool-Auswahl, Tool-Ergebnis, Kritik, Revision, Verifikation). Agentische Workflows haben den Token-Verbrauch pro Request gegenüber dem simplen Chatbot-Muster um das 5- bis 50-Fache erhöht. Sub-Agenten-Kaskaden multiplizieren das nochmals um das 3- bis 10-Fache. Eine Pauschale, die auf dem alten "ein Prompt, eine Antwort"-Bild kalkuliert ist, verliert hier schnell die Marge.

Die vier Pricing-Modelle im Überblick

Retainer (monatliche Pauschale). Der Kunde zahlt eine feste Monatsgebühr für Betrieb, Monitoring, Eval-Iteration und kontinuierliche Verbesserung der Agenten. Ideal für laufende Agent-Infrastruktur, die gepflegt und an Modell-Updates angepasst werden muss. Der Retainer sichert planbaren Umsatz und amortisiert die Compliance-Einrichtung über die Laufzeit - im DACH-Raum ein gewichtiges Argument, weil mehrjährige Mandate die AVV- und Sub-Prozessor-Aufwände rechtfertigen.

Project / Fixed (Festpreis). Ein abgegrenzter Lieferumfang - etwa die Implementierung eines Voice-Agents oder eines Service-Workflows - zu einem fixen Preis. Klar kommunizierbar und für Erstprojekte beliebt. Das Margenrisiko liegt beim Scope: Unterschätzte Token-Kaskaden, Retry-Loops oder Integrationsaufwand in SAP-lastige DACH-Stacks fressen die Kalkulation. Festpreise gehören mit Puffer und sauberem Change-Request-Prozess versehen.

Outcome- / Performance-based. Bezahlt wird pro Ergebnis - pro gelöstem Ticket, qualifiziertem Lead, abgeschlossenem Vorgang. Der strukturelle Vorteil: Anbieter- und Kundeninteressen sind auf den Erfolg ausgerichtet. Das strukturelle Risiko: Die Agentur trägt das Kostenrisiko jeder Transaktion. Liegt die Erfolgsrate unter der Annahme, entsteht Verlust pro Ergebnis. Im Markt etabliert sich dieses Modell vor allem im Customer-Service - Intercom Fin liegt bei 0,99 US-Dollar pro gelöster Konversation, HubSpot senkte im April 2026 auf 0,50 US-Dollar, Zendesk verlangt 1,50 US-Dollar (committed) bis 2,00 US-Dollar (Pay-as-you-go) pro Resolution, Salesforce Agentforce 0,10 US-Dollar pro Aktion oder 2,00 US-Dollar pro Konversation (alle Stand 2026). Sierra publiziert keine Preise; Drittschätzungen nennen Jahres-1-Gesamtkosten von 200.000 bis 350.000 US-Dollar und mehr. Voraussetzung für Outcome-Pricing ist eine belastbare, gemessene Baseline der Erfolgsrate - ohne sie ist es ein Blindflug.

Hybrid. Die De-facto-Norm 2026: eine feste Basis (Retainer oder Setup) plus eine verbrauchs- oder ergebnisabhängige Komponente plus durchgeleitete Token-Kosten. Hybrid kombiniert planbaren Deckungsbeitrag mit fairer Lastverteilung und ist für die meisten Agentur-Mandate die robusteste Struktur.

Modellvergleich: Wann sinnvoll, Vor- und Nachteil, Margenrisiko

Modell	Wann sinnvoll	Vorteil / Nachteil	Margenrisiko
Retainer	Laufender Betrieb, Monitoring, kontinuierliche Weiterentwicklung; mehrjährige Mandate	Planbarer Umsatz, amortisiert Compliance-Setup / Token-Verbrauch nicht abgedeckt, Scope-Creep	Mittel - steigt bei volatilen Token-Kosten ohne Cap; Preisgleitklausel nötig
Project / Fixed	Abgegrenzte Implementierung mit klarem Lieferumfang; Erstprojekte	Klar kommunizierbar, klare Erwartung / starre Grenzen, Nachträge schwierig	Hoch - unterschätzte Kaskaden, Retry-Loops (+20-50 %) und Integration fressen den Festpreis
Outcome / Performance	Messbares, stabiles Ergebnis (gelöstes Ticket, Lead); bekannte Erfolgsrate	Anreize ausgerichtet, hohe Zahlungsbereitschaft / Agentur trägt Kosten- und Volumenrisiko	Sehr hoch - Verlust pro Ergebnis bei zu niedriger Erfolgsrate oder Verbrauchsspitzen
Hybrid	Standardfall: Basis + Verbrauch/Ergebnis + Token-Durchleitung	Robuster Deckungsbeitrag, faire Lastverteilung / komplexere Abrechnung	Niedrig bis mittel - Risiko anteilig geteilt; bestes Margenprofil

Token-Kosten: Durchleitung oder Pauschale

Der Posten, der am billigsten aussieht - die reine API-Compute - ist nicht der, in dem die Kosten stecken. Direkte Modellkosten machen bei einem typischen agentischen Workload nur 30-50 Prozent der Gesamt-TCO aus. Der Rest verteilt sich auf Tool-Kaskaden, Sub-Agenten, Sandbox-Compute, Vektor-DB, Observability, Compliance-Ops und Operations-Labour. Eine Agentur, die nur die Token-Liste kalkuliert, übersieht die Hälfte der Rechnung.

Für die Behandlung der Token-Kosten gibt es zwei saubere Wege:

Durchleitung (Pass-through): Direkte API- und Plattformkosten werden pro Mandant getrackt (etwa über Helicone oder Portkey nach Key) und mit transparentem Aufschlag weiterverrechnet - branchenüblich 30-50 Prozent Marge auf die durchgeleiteten Kosten. Das Volatilitätsrisiko liegt beim Kunden, die Abrechnung ist nachvollziehbar.
Pauschale: Token-Kosten sind im Festpreis oder Retainer eingepreist. Kundenfreundlich und planbar, aber nur tragfähig mit harten max_tokens-, max_iterations- und max_tool_calls-Caps pro Workflow, aggressivem Caching ab Tag eins und einem Sicherheitspuffer.

Caching ist dabei der größte Margenhebel: Anthropic gewährt auf Cache-Reads einen Rabatt von 90 Prozent (Stand 2026). Bei Claude Sonnet 4.6 fällt der Input von 3,00 auf 0,30 US-Dollar pro Million Token; eine Trefferquote von 80 Prozent senkt die effektiven Input-Kosten um 70-80 Prozent. Eval-getriebene Modellwahl - das günstigste Modell, das den Eval besteht - spart zusätzlich 30-60 Prozent. Gestapelt liefert ein gut instrumentierter FinOps-Ansatz 60-80 Prozent Kostenreduktion gegenüber der unoptimierten Baseline. Das ist der Spielraum, aus dem die Agentur-Marge entsteht - nicht aus dem Lieferantenrabatt.

Beispiel-Kalkulation: Customer-Service-Agent mit Outcome-Pricing

Eine Agentur betreibt für einen DACH-Kunden einen Service-Agenten, der 5.000 Tickets pro Monat bearbeitet. Architektur: Claude Sonnet 4.6 als Executor mit aktivem Prompt-Caching auf System-Prompt und Tool-Definitionen.

Annahmen pro gelöstem Ticket (Stand 2026, illustrativ):

Direkter LLM-Verbrauch pro Konversation: rund 15.000 Input-Token (überwiegend gecacht) und 1.500 Output-Token über mehrere Agent-Schritte.
Gecachter Input bei 0,30 US-Dollar/Mio. → ca. 0,0045 US-Dollar; Output bei 15 US-Dollar/Mio. → ca. 0,0225 US-Dollar.
Direkte Modellkosten: rund 0,03 US-Dollar pro Ticket.
Plus Tool-Kaskade, Retry-Risiko und Indirektkosten (Embeddings, Tool-Definitionen): realistisch 0,08-0,12 US-Dollar pro Ticket all-in auf der Infrastrukturseite.

Pseudocode für die Margenkalkulation:

```
kosten_direkt = 0.03 # USD pro Ticket, gecacht
kosten_allin = 0.10 # + Kaskade, Retry, Indirekt
eu_uplift = 1.10 # 10 % EU-Region-Aufschlag
kosten_dach = kosten_allin * eu_uplift # = 0.11
outcome_preis = 0.50 # Verrechnung pro gelöstem Ticket
marge_pro_ticket = outcome_preis - kosten_dach # = 0.39
deckungsbeitrag_mt = marge_pro_ticket * 5000 # = 1'950 USD/Monat
```

Bei 5.000 Tickets ergibt das einen monatlichen Deckungsbeitrag von rund 1.950 US-Dollar - sofern die Erfolgsrate stabil ist. Kippt die Resolution-Rate oder steigen Retry-Loops um 20-50 Prozent, schmilzt die Marge pro Ticket schnell. Genau deshalb braucht Outcome-Pricing eine gemessene Baseline und einen Floor-Retainer, der die Fixkosten (Eval-Iteration, Compliance, Monitoring) unabhängig vom Volumen deckt. Hinweis: Die Token-Ökonomie ist 2026 volatil - günstige Open-Weight-Modelle wie DeepSeek V4 Flash liegen bei 0,14 US-Dollar/Mio. Input und damit rund 36-fach unter GPT-5.5; ein Modellwechsel kann die Kalkulation in beide Richtungen verschieben.

Margenschutz und DACH-Realität

Drei Hebel sichern die Marge unabhängig vom gewählten Modell:

Preisgleitklausel und Caps. Jeder Retainer und Festpreis enthält eine Anpassungsklausel für Token-Kostenänderungen und harte Verbrauchsgrenzen pro Workflow. Die Token-Ökonomie 2026 ist ein bewegliches Ziel.
Engineering-first statt Contract-first. Caching, Routing, Batch (50 Prozent Rabatt bei 24-Stunden-SLA) und Open-Weight-Fallback für Long-Tail-Workloads bestimmen 50-80 Prozent der Rechnung - mehr als jeder Lieferantenrabatt.
DACH-Overhead explizit einpreisen. EU-Region kostet bei OpenAI und Anthropic 10 Prozent Aufschlag, souveränes Hosting das 1,5- bis 3-Fache, die AVV-Kette 5-20k Euro pro Jahr und Anbieter zuzüglich 10-50k Euro Onboarding. In Summe erhöhen DACH-Faktoren die TCO um 15-35 Prozent gegenüber einem US-Workload. Mehrjährige Mandate amortisieren diesen Compliance-Aufwand - ein Argument für Retainer und gegen Einzelprojekte.

Für Agenturen und B2B-Entscheider

Für Agenturen heißt das: Verlasse die Stundenlogik. Baue ein Hybrid-Modell mit Floor-Retainer, transparenter Token-Durchleitung (30-50 Prozent Marge, pro Mandant getrackt) und einer optionalen Outcome-Komponente dort, wo du die Erfolgsrate gemessen kennst. Verankere Caps, Caching und eine Preisgleitklausel vertraglich - das schützt die Marge, wenn sich die Token-Preise verschieben.

Für B2B-Entscheider, die Agent-Leistungen einkaufen: Frage nach der Kostenstruktur hinter dem Preis, nicht nur nach dem Stundensatz. Ein seriöses Angebot weist Token-Durchleitung, Caching-Strategie und DACH-Compliance-Aufwand transparent aus. Wenn du eine Agent-Infrastruktur planst und ein belastbares, margensicheres Pricing-Modell für deinen Anwendungsfall entwickeln möchtest, sprich mit uns - wir kalkulieren Token-Ökonomie, TCO und Modellwahl entlang deines realen Workloads.

Häufig gestellte Fragen

Welches Pricing-Modell ist für AI-Agenten am besten geeignet?

Es gibt kein universell bestes Modell. Für laufenden Betrieb und Weiterentwicklung eignet sich der Retainer, für klar abgegrenzte Implementierungen der Project-/Festpreis. Outcome-Based passt nur bei messbaren, stabilen Ergebnissen (etwa gelöste Tickets) und ausreichender Datenbasis zur Erfolgsrate. In der Praxis dominiert 2026 ein Hybrid: feste Basis plus verbrauchs- oder ergebnisabhängige Komponente plus durchgeleitete Token-Kosten.

Warum funktioniert Stundenabrechnung bei AI-Agenten nicht mehr?

AI-Agenten entkoppeln das Ergebnis von der Arbeitszeit. Eine Aufgabe, die früher Tage kostete, läuft als Agenten-Workflow in Minuten. Wer Stunden abrechnet, bestraft sich für die eigene Effizienz und verschenkt den geschaffenen Wert. Wertbasierte Preisgestaltung bemisst das Honorar am Geschäftsergebnis für den Kunden, nicht am Zeitaufwand der Agentur.

Sollte eine Agentur Token-Kosten durchleiten oder pauschalieren?

Beide Wege sind tragfähig. Durchleitung mit transparentem Aufschlag (typisch 30-50 Prozent Marge auf direkte API- und Plattformkosten, über Tools wie Helicone oder Portkey pro Mandant getrackt) verlagert das Volatilitätsrisiko zum Kunden und schafft Vertrauen. Eine Pauschale ist kundenfreundlicher und planbarer, braucht aber harte Token-Caps, eine Preisgleitklausel und einen Sicherheitspuffer, weil die Token-Ökonomie 2026 volatil ist.

Was sind typische Margenrisiken bei Outcome-Based Pricing?

Beim Outcome-Pricing trägt die Agentur das Kostenrisiko jeder Transaktion. Liegt die Erfolgsrate unter der Kalkulation oder explodieren Retry-Loops (plus 20-50 Prozent auf die API-Kosten), entsteht Verlust pro Ergebnis. Hinzu kommt das Volumenrisiko: Verbrauchsspitzen können das vereinbarte Budget in Wochen aufzehren. Outcome-Pricing setzt deshalb eine belastbare, gemessene Baseline der Erfolgsrate voraus.

Wie groß ist der DACH-Aufschlag auf die Agentur-Kalkulation?

DACH-spezifische Faktoren erhöhen die echte TCO um rund 15-35 Prozent gegenüber einem vergleichbaren US-Workload (Stand 2026): 10 Prozent EU-Region-Aufschlag bei OpenAI und Anthropic, das 1,5- bis 3-Fache bei souveränem Hosting, eine AVV-Kette mit 5-20k Euro pro Jahr und aktivem Anbieter sowie Mitbestimmungs- und Compliance-Aufwand. Diese Posten gehören explizit in jedes Modell einkalkuliert.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← White-Label Agent Layer: Wie Agenturen die Kundenbeziehung behalten NächsterAgentur-Tech-Stack 2026: HubSpot, Clay, n8n und LangGraph kombiniert →