10.14Fortgeschritten8 min

Agentur-KPIs mit AI Agents besser messen

Q: Welche KPIs sollte eine Agentur für AI-Agent-Leistungen mindestens messen?

Kundenseitig: Erledigungs- bzw. Erfolgsrate (Success Rate), Qualität (Faithfulness/Halluzinationsrate, Citation Accuracy), Conversion bzw. Cost-out oder Cycle-Time und Time-to-Value. Intern: Auslastung der AI Product Manager, Projekt-Marge, Token-/Inferenzkosten pro Task, Latenz (P50/P95/P99) sowie Fehler- und HITL-Eskalationsrate. Mindestens je eine Kennzahl aus den Kategorien Task, Qualität, Kosten und Verlässlichkeit pro Release.

Q: Was ist der Unterschied zwischen Leading- und Lagging-KPIs bei AI Agents?

Leading-Indikatoren sind Frühindikatoren, die sich schnell bewegen und steuerbar sind: Adoptionsrate, Tasks pro Nutzer, Eval-Pass-Rate, KI-Literacy-Quote, HITL-Eskalationsrate. Lagging-Indikatoren messen das Geschäftsergebnis verzögert: Umsatz-Lift, Cost-out, NPS/CSAT, Retention, Marge. Faustregel: beide reporten, aber Zielvereinbarungen und Boni an Lagging-KPIs koppeln, damit nicht Adoption ohne Wert belohnt wird.

Q: Wie rechnet eine Agentur den ROI von AI Agents seriös?

Bottom-up pro Use Case: Zeitersparnis in Prozent mal Volumen mal vollkostenbasierte Stückkosten ergibt die Brutto-Einsparung; davon Lizenz-, Deployment-, Observability- und vor allem HITL-Kosten (oft 30 bis 60 Prozent der Einsparung) abziehen. Als Produktivitätsannahme den belegten Korridor von rund 14 Prozent (Brynjolfsson, Li, Raymond) nutzen, nicht 10x-Versprechen. Bei breiten horizontalen Copilots offen kommunizieren, dass der ROI auf Positionsebene oft nicht messbar ist.

Q: Warum ist die HITL-Rate eine so wichtige Kennzahl?

Die Human-in-the-Loop-Eskalationsrate steuert direkt die Marge. Jede Eskalation bindet menschliche Prüfzeit, die häufig 30 bis 60 Prozent der Brutto-Einsparung wieder aufzehrt. Eine sinkende HITL-Rate bei stabiler Qualität ist daher ein zentrales Wert-Signal. Wichtig: Eine hohe Eskalationsrate ist nicht per se schlecht; gut kalibrierte Eskalation in risikoreichen oder kundennahen Prozessen ist ein Feature, kein Defekt.

Blck Alpaca·9. Juni 2026

Definition

Agentur-KPIs für AI Agents sind die Kennzahlen, mit denen eine Agentur Wert und Wirtschaftlichkeit von Agenten-Leistungen belegt: kundenseitig Output, Qualität, Conversion und Time-to-Value, intern Auslastung, Marge, Token-Kosten sowie Fehler- und HITL-Rate. Entscheidend ist die Trennung von Adoptions-Vanity-Metriken und auditierbaren Wert-Metriken.

Auf einen Blick

✓Adoption ist notwendig, aber nicht hinreichend: Anzahl Pilotprojekte, eingesetzte Tools und aktive Nutzer korrelieren nicht mit Wertschöpfung. Auf Outcome-Metriken (Cost-out, Cycle-Time, Conversion, Marge) steuern.
✓Leading- und Lagging-Indikatoren beide reporten, aber das Team auf Lagging-KPIs vergüten. Firmen, die auf Adoption belohnen, bekommen hohe Adoption und keinen Wert.
✓ROI konservativ rechnen: belastbarer Referenzwert ist die Brynjolfsson-Studie mit 14 Prozent Produktivität (34 Prozent bei Einsteigern), nicht 10x. GitHub-Copilots 55 Prozent gelten nur für isolierte Coding-Tasks; end-to-end zeigt Bain 10 bis 15 Prozent.
✓Selbstauskünfte zur Zeitersparnis sind unzuverlässig: Im METR-Feldversuch waren erfahrene Entwickler faktisch 19 Prozent langsamer, glaubten aber an plus 20 Prozent. Telemetrie und Outcome-Metriken schlagen Self-Reports.
✓Größter versteckter Kostenblock ist die Human-in-the-Loop-Prüfung: oft 30 bis 60 Prozent der Brutto-Einsparung. Wer HITL-Kosten nicht misst, überschätzt die Marge.
✓Konzentration schlägt Proliferation: AI-Leiter fokussieren laut BCG 3,5 Use Cases gegenüber 6,1 bei Nachzüglern und erwarten den 2,1-fachen ROI. Harte Kill-Gates bei 6 und 12 Monaten sind wertvoller als weiche Governance.

Agentur-KPIs für AI Agents sind die Kennzahlen, mit denen eine Agentur den Wert und die Wirtschaftlichkeit ihrer Agenten-Leistungen belegt: kundenseitig Output, Qualität, Conversion und Time-to-Value, intern Auslastung, Marge, Token-Kosten sowie Fehler- und HITL-Rate. Entscheidend ist die Trennung von schnell wachsenden Adoptions-Zahlen und den wenigen auditierbaren Wert-Metriken, die ein CFO nachvollziehen kann.

Kundenseite messen, nicht nur Nutzung: Erfolgsrate, Qualität, Conversion/Cost-out und Time-to-Value belegen Wert beim Kunden. Lizenz-Auslastung allein belegt ihn nicht.
Intern auf die Marge schauen: Token-Kosten pro Task, Auslastung und vor allem die HITL-Eskalationsrate entscheiden, ob ein Agenten-Projekt profitabel ist.
Konservativ rechnen: Belastbarer Referenzwert ist eine Produktivitätssteigerung von rund 14 Prozent, nicht das oft versprochene Zehnfache.

Warum die meisten Agentur-Dashboards die falsche Zahl feiern

Der häufigste KPI-Fehler in DACH-Projekten 2026 ist, den Erfolg allein an der Adoption festzumachen. Ein Programm mit voller Lizenzauslastung, das nie eine P&L-Position bewegt hat, ist ein Programm ohne Wirkung. Empirisch ist die Lage eindeutig: Anzahl gestarteter Pilotprojekte, Anzahl identifizierter Use Cases und Anzahl eingesetzter KI-Tools korrelieren nicht mit Wertschöpfung. BCG zeigt im AI Radar das klarste Gegenbeispiel: AI-Leiter konzentrieren sich auf durchschnittlich 3,5 Use Cases, Nachzügler verteilen sich auf 6,1, und die Leiter erwarten dabei den 2,1-fachen ROI. Konzentration schlägt Proliferation. Hinzu kommt: rund 60 Prozent der befragten Unternehmen definieren oder überwachen überhaupt keinen finanziellen KPI für ihren KI-Wert.

Für eine Agentur heißt das: Das Reporting muss zwei Schichten sauber trennen: Adoptionsmetriken (notwendig, nicht hinreichend) und Outcome-Metriken (die, auf die es ankommt).

Kundenseitige KPIs: Output, Qualität, Conversion, Time-to-Value

Beim Kunden zählt, was der Agent im Prozess bewirkt. Vier Dimensionen sind führend:

Output / Erfolgsrate (Success Rate): Anteil der Aufgaben, die der Agent korrekt zu einem Endzustand bringt: die wichtigste einzelne Headline-Zahl. Ergänzend Task-Completion (erreicht der Agent überhaupt einen terminalen Zustand?), um „aufgegeben" von „falsch beantwortet" zu unterscheiden.
Qualität: Faithfulness bzw. Halluzinationsrate (Anteil der Aussagen, die durch abgerufenen Kontext oder Weltwissen gedeckt sind) und (besonders für Recht, Medizin, Finanzen) Citation Accuracy auf Aussagenebene. Konsistenz über wiederholte Läufe gehört dazu: Ein Agent, der 90 Prozent der Fälle löst, aber unvorhersehbar 10 Prozent kippt, ist oft schlechter als einer mit 80 Prozent, der berechenbar und behebbar scheitert.
Conversion / Wirkung: je nach Prozess Lead-to-Quote-Rate, Deflection-Rate im Service, CSAT/NPS, Cycle-Time-Reduktion (Case-to-Close), Defekt- bzw. Fehlerquote.
Time-to-Value: Wie schnell entsteht der erste messbare ROI? Realistische DACH-Erwartungen liegen für Service-Tier-1-Augmentierung bei 3 bis 6 Monaten, für CRM-eingebettete Sales-/Marketing-Copilots bei 6 bis 9, für interne Wissens-/Suchagenten bei 6 bis 12 und für dokumentenlastige Back-Office-Prozesse bei 9 bis 15 Monaten. Drei-Monats-Versprechen sind unseriös.

Interne KPIs: Auslastung, Marge, Token-Kosten, Fehler-/HITL-Rate

Die zweite KPI-Familie schützt die Wirtschaftlichkeit der Agentur selbst:

Auslastung der knappen Rollen, vor allem der AI Product Manager, die Use Cases und Outcomes verantworten.
Projekt-Marge als Lagging-Kennzahl, von Finance validiert.
Token-/Inferenzkosten pro Task: Input-Tokens, Output-Tokens und (seit 2025 entscheidend) Reasoning-Tokens, die bei Reasoning-Modellen die Kosten dominieren können. Reporting-Einheiten: Euro pro Task und Euro pro 1.000 Tasks, dazu Latenz P50/P95/P99.
Fehler- und HITL-Rate: Die Human-in-the-Loop-Eskalationsrate ist der direkte Hebel auf die Marge. Jede Eskalation bindet Prüfzeit, die häufig 30 bis 60 Prozent der Brutto-Deflection-Einsparung wieder aufzehrt: der größte versteckte Kostenblock in Service- und Dokumenten-Agenten. Wichtig zur Interpretation: Eine hohe Eskalationsrate ist nicht automatisch schlecht; gut kalibrierte Eskalation in risikoreichen Prozessen ist ein Feature. Maßgeblich ist der Trend nach unten bei stabiler Qualität.

Leading vs. Lagging: und die Vergütungs-Regel

Frühindikatoren bewegen sich schnell und sind steuerbar; Spätindikatoren zeigen das Geschäftsergebnis verzögert, aber belastbar.

KPI	Definition	Quelle	Zielrichtung
Adoptionsrate (WAU/MAU)	Aktive Nutzer pro Funktion / Lizenzen	Produkt-Telemetrie	Leading: hoch, aber nur Voraussetzung
Tasks pro Nutzer/Tag	Genutzte Agenten-Interaktionen	Produkt-Telemetrie	Leading: hoch
Eval-Pass-Rate	Bestandene Asserts/Judge-Checks pro Release	Eval-Pipeline (CI/CD)	Leading: hoch halten
HITL-Eskalationsrate	Anteil Tasks mit menschlicher Prüfung	Agenten-Logs/Tracing	Leading: kontrolliert sinkend
Success Rate	Anteil korrekt erledigter Aufgaben	Outcome-Scorer	Outcome: hoch
Halluzinationsrate	Anteil nicht gedeckter Aussagen	LLM-Judge / MiniCheck	Outcome: niedrig
Cycle-Time-Reduktion	Median Durchlaufzeit vs. Baseline	Prozess-Daten	Lagging: sinkend
Cost-out / Marge	Einsparung bzw. DB, von Finance bestätigt	Finance	Lagging: steigend
NPS/CSAT	Zufriedenheit kundennaher Prozesse	Befragung	Lagging: stabil/steigend
Token-Kosten/Task	€-Inferenzkosten je Vorgang	Observability/Gateway	Effizienz: niedrig

Die Disziplin ist explizit zu machen: beides reporten, aber auf Lagging vergüten. Jede der herangezogenen Studien zeigt dasselbe Muster: Teams, die auf Adoption belohnt werden, liefern hohe Adoption und keinen Wert; Teams, die auf Outcomes belohnt werden, liefern messbaren Wert.

ROI konservativ rechnen: 14 Prozent, nicht 10x

Der belastbarste dokumentierte Produktivitätswert für KI im Unternehmen stammt aus der Studie von Brynjolfsson, Li und Raymond (NBER WP 31161, 2023; QJE 2025): 14 Prozent mehr gelöste Vorgänge pro Stunde im Kundenservice im Schnitt, 34 Prozent bei Einsteigern und gering qualifizierten Kräften, kaum Effekt bei erfahrenen Profis. Das ist das obere Ende des Glaubwürdigen für Service, und ein strategischer Hinweis: KI verteilt Wert die Skill-Kurve hinunter.

Zwei Korrekturen gehören in jede Agentur-Kalkulation:

Der GitHub-Copilot-Klassiker „55 Prozent schneller" gilt nur für eng spezifizierte, isolierte Coding-Aufgaben: nicht für End-to-End-Lieferung. Dort findet Bain (Technology Report 2025) typische 10 bis 15 Prozent, oft nicht in höherwertige Arbeit zurückgewonnen, weil Review-, Test- und Deployment-Engpässe nachgelagert bleiben.
Selbstauskünfte sind unzuverlässig. Im METR-Feldversuch (arXiv 2507.09089, 2025) waren 16 erfahrene Open-Source-Entwickler mit KI 19 Prozent langsamer, prognostizierten aber vorab plus 24 Prozent und glaubten nachher an plus 20 Prozent; ML- und Ökonomie-Experten sagten sogar 38 bis 39 Prozent Beschleunigung voraus. Boardroom-Übersetzung: auf Telemetrie und Outcome-Metriken steuern, nicht auf Self-Reports.

Daraus folgt die saubere Bottom-up-Formel, die ein CFO prüfen kann:

```
Brutto-Einsparung = Zeitersparnis% x Jahres-Volumen x Vollkosten je Vorgang
Netto-ROI = Brutto-Einsparung

- - - - Lizenz/Plattform
        Deployment/Integration
        Observability/Eval
        HITL-Prüfung (30-60% der Brutto-Einsparung)
```

Ehrlich bleiben muss man beim „ROI-ist-nicht-messbar"-Problem: Wenn LLM-Kosten klein gegenüber dem Gesamt-OpEx sind, zeigt sich der Gewinn als schnellere Arbeit, nicht als messbare Kostensenkung auf Positionsebene. Bei breiten horizontalen Copilots ist der ROI line-item oft nicht detektierbar: das ist kein Scheitern, wenn die Wette bewusst als Capability-Investition deklariert wurde.

Beispiel-Dashboard: Service-Tier-1-Agent eines Mittelständlers

Annahme: 120.000 Service-Vorgänge/Jahr, Vollkosten 6 € je Vorgang, Deflection 40 Prozent, Per-Conversation-Inferenzkosten 0,30 € (Korridor laut Research: 0,10–1,00 €).

Kennzahl	Wert	Kategorie/Zielrichtung
Deflection-Rate	40 %	Outcome: steigend
Success Rate (gelöst)	88 %	Outcome: hoch
Halluzinationsrate	1,8 %	Qualität: niedrig
HITL-Eskalationsrate	17 % → Trend ↓	Leading: sinkend
CSAT vs. Baseline	+3 Punkte	Lagging: stabil/steigend
Token-Kosten/Vorgang	0,30 €	Effizienz: niedrig
Latenz P95	4,1 s	UX: niedrig
Brutto-Einsparung/Jahr	120.000 × 40 % × 6 € = 288.000 €	Berechnung
: HITL-Recapture (~45 %)	−130.000 €	Marge-relevant
: Lizenz/Betrieb/Eval	−90.000 €	Marge-relevant
Netto-Wert Jahr 1	≈ 68.000 €	Lagging, Finance-validiert

Das Dashboard macht zweierlei sichtbar: Die scheinbar teure Position (Token-Kosten) ist nicht der Kostentreiber: HITL und Betrieb sind es. Und die HITL-Rate ist die Stellschraube, an der sich der Netto-Wert über die Folgequartale entscheidet.

OKR-Form, die der CFO prüfen kann

Ziel: Belastbare Agenten-Fähigkeit in der Kern-Umsatzfunktion aufbauen.

KR1: 70 %+ aktive Wochen-Adoption des Agenten in der Funktion binnen 9 Monaten.
KR2: 25 %+ Reduktion der Median-Cycle-Time des Zielprozesses gegen Baseline binnen 12 Monaten.
KR3: NPS/CSAT ohne Verschlechterung (oder +5 %) über den Zeitraum.
KR4: HITL-Eskalationsrate <20 % binnen 12 Monaten mit messbarem Abwärtstrend.
KR5: Netto-P&L-Beitrag von Finance validiert binnen 18 Monaten.

Diese Form zwingt zu Outcomes, die auditierbar sind, und zu Kill-Disziplin. Harte Gates sind wertvoller als weiche Governance: bei 6 Monaten ohne klaren ROI-Pfad (Adoption flach unter 30 Prozent, keine messbare Verbesserung) und bei 12 Monaten ohne quantitatives ROI-Signal das Projekt beenden, Budget zurückholen, kein Zombie. Jedes Agenten-Programm braucht ein explizites Kill-Kriterium in der Gründungs-Charta.

Für Agenturen und B2B-Entscheider

Wer Agenten-Leistungen verkauft, verkauft künftig Outcomes, nicht Tool-Zugang. Eine Agentur, die ihren Kunden ein zweischichtiges KPI-Modell liefert (Leading-Frühindikatoren fürs Steuern, Lagging-Wertmetriken für die Vergütung) und den ROI konservativ mit 14-Prozent-Logik statt 10x-Versprechen rechnet, gewinnt Vertrauen im Boardroom. Blck Alpaca baut genau solche Mess- und Eval-Setups auf: vom kundenseitigen Outcome-Dashboard (Success Rate, Qualität, Conversion, Time-to-Value) bis zur internen Margen- und HITL-Kostenrechnung. Wenn du für deine Agentur oder dein Unternehmen ein auditierbares KPI-Gerüst für AI-Agent-Projekte aufsetzen willst, sprich mit uns: wir definieren die Metriken vor dem Deployment, mit Baseline und Finance-Freigabe.

Häufig gestellte Fragen

Welche KPIs sollte eine Agentur für AI-Agent-Leistungen mindestens messen?

Kundenseitig: Erledigungs- bzw. Erfolgsrate (Success Rate), Qualität (Faithfulness/Halluzinationsrate, Citation Accuracy), Conversion bzw. Cost-out oder Cycle-Time und Time-to-Value. Intern: Auslastung der AI Product Manager, Projekt-Marge, Token-/Inferenzkosten pro Task, Latenz (P50/P95/P99) sowie Fehler- und HITL-Eskalationsrate. Mindestens je eine Kennzahl aus den Kategorien Task, Qualität, Kosten und Verlässlichkeit pro Release.

Was ist der Unterschied zwischen Leading- und Lagging-KPIs bei AI Agents?

Leading-Indikatoren sind Frühindikatoren, die sich schnell bewegen und steuerbar sind: Adoptionsrate, Tasks pro Nutzer, Eval-Pass-Rate, KI-Literacy-Quote, HITL-Eskalationsrate. Lagging-Indikatoren messen das Geschäftsergebnis verzögert: Umsatz-Lift, Cost-out, NPS/CSAT, Retention, Marge. Faustregel: beide reporten, aber Zielvereinbarungen und Boni an Lagging-KPIs koppeln, damit nicht Adoption ohne Wert belohnt wird.

Wie rechnet eine Agentur den ROI von AI Agents seriös?

Bottom-up pro Use Case: Zeitersparnis in Prozent mal Volumen mal vollkostenbasierte Stückkosten ergibt die Brutto-Einsparung; davon Lizenz-, Deployment-, Observability- und vor allem HITL-Kosten (oft 30 bis 60 Prozent der Einsparung) abziehen. Als Produktivitätsannahme den belegten Korridor von rund 14 Prozent (Brynjolfsson, Li, Raymond) nutzen, nicht 10x-Versprechen. Bei breiten horizontalen Copilots offen kommunizieren, dass der ROI auf Positionsebene oft nicht messbar ist.

Was sind typische Vanity-Metriken, die man vermeiden sollte?

Anzahl gestarteter Pilotprojekte, Anzahl identifizierter Use Cases und Anzahl eingesetzter KI-Tools. Keine dieser Zahlen korreliert laut BCG mit Wertschöpfung; Leader fokussieren 3,5 Use Cases statt 6,1 und erwarten den 2,1-fachen ROI. Auch reine Selbstauskünfte zur Zeitersparnis sind riskant, weil Nutzer ihren Gewinn systematisch überschätzen (METR: geglaubte plus 20 Prozent versus faktische minus 19 Prozent).

Warum ist die HITL-Rate eine so wichtige Kennzahl?