Agentur-KPIs mit AI Agents besser messen
Agentur-KPIs für AI Agents sind die Kennzahlen, mit denen eine Agentur Wert und Wirtschaftlichkeit von Agenten-Leistungen belegt: kundenseitig Output, Qualität, Conversion und Time-to-Value, intern Auslastung, Marge, Token-Kosten sowie Fehler- und HITL-Rate. Entscheidend ist die Trennung von Adoptions-Vanity-Metriken und auditierbaren Wert-Metriken.
Auf einen Blick
- ✓Adoption ist notwendig, aber nicht hinreichend: Anzahl Pilotprojekte, eingesetzte Tools und aktive Nutzer korrelieren nicht mit Wertschöpfung. Auf Outcome-Metriken (Cost-out, Cycle-Time, Conversion, Marge) steuern.
- ✓Leading- und Lagging-Indikatoren beide reporten, aber das Team auf Lagging-KPIs vergüten. Firmen, die auf Adoption belohnen, bekommen hohe Adoption und keinen Wert.
- ✓ROI konservativ rechnen: belastbarer Referenzwert ist die Brynjolfsson-Studie mit 14 Prozent Produktivität (34 Prozent bei Einsteigern), nicht 10x. GitHub-Copilots 55 Prozent gelten nur für isolierte Coding-Tasks; end-to-end zeigt Bain 10 bis 15 Prozent.
- ✓Selbstauskünfte zur Zeitersparnis sind unzuverlässig: Im METR-Feldversuch waren erfahrene Entwickler faktisch 19 Prozent langsamer, glaubten aber an plus 20 Prozent. Telemetrie und Outcome-Metriken schlagen Self-Reports.
- ✓Größter versteckter Kostenblock ist die Human-in-the-Loop-Prüfung: oft 30 bis 60 Prozent der Brutto-Einsparung. Wer HITL-Kosten nicht misst, überschätzt die Marge.
- ✓Konzentration schlägt Proliferation: AI-Leiter fokussieren laut BCG 3,5 Use Cases gegenüber 6,1 bei Nachzüglern und erwarten den 2,1-fachen ROI. Harte Kill-Gates bei 6 und 12 Monaten sind wertvoller als weiche Governance.
Agentur-KPIs für AI Agents sind die Kennzahlen, mit denen eine Agentur den Wert und die Wirtschaftlichkeit ihrer Agenten-Leistungen belegt: kundenseitig Output, Qualität, Conversion und Time-to-Value, intern Auslastung, Marge, Token-Kosten sowie Fehler- und HITL-Rate. Entscheidend ist die Trennung von schnell wachsenden Adoptions-Zahlen und den wenigen auditierbaren Wert-Metriken, die ein CFO nachvollziehen kann.
- Kundenseite messen, nicht nur Nutzung: Erfolgsrate, Qualität, Conversion/Cost-out und Time-to-Value belegen Wert beim Kunden – Lizenz-Auslastung allein belegt ihn nicht.
- Intern auf die Marge schauen: Token-Kosten pro Task, Auslastung und vor allem die HITL-Eskalationsrate entscheiden, ob ein Agenten-Projekt profitabel ist.
- Konservativ rechnen: Belastbarer Referenzwert ist eine Produktivitätssteigerung von rund 14 Prozent, nicht das oft versprochene Zehnfache.
Warum die meisten Agentur-Dashboards die falsche Zahl feiern
Der häufigste KPI-Fehler in DACH-Projekten 2026 ist, den Erfolg allein an der Adoption festzumachen. Ein Programm mit voller Lizenzauslastung, das nie eine P&L-Position bewegt hat, ist ein Programm ohne Wirkung. Empirisch ist die Lage eindeutig: Anzahl gestarteter Pilotprojekte, Anzahl identifizierter Use Cases und Anzahl eingesetzter KI-Tools korrelieren nicht mit Wertschöpfung. BCG zeigt im AI Radar das klarste Gegenbeispiel – AI-Leiter konzentrieren sich auf durchschnittlich 3,5 Use Cases, Nachzügler verteilen sich auf 6,1, und die Leiter erwarten dabei den 2,1-fachen ROI. Konzentration schlägt Proliferation. Hinzu kommt: rund 60 Prozent der befragten Unternehmen definieren oder überwachen überhaupt keinen finanziellen KPI für ihren KI-Wert.
Für eine Agentur heißt das: Das Reporting muss zwei Schichten sauber trennen – Adoptionsmetriken (notwendig, nicht hinreichend) und Outcome-Metriken (die, auf die es ankommt).
Kundenseitige KPIs: Output, Qualität, Conversion, Time-to-Value
Beim Kunden zählt, was der Agent im Prozess bewirkt. Vier Dimensionen sind führend:
- Output / Erfolgsrate (Success Rate): Anteil der Aufgaben, die der Agent korrekt zu einem Endzustand bringt – die wichtigste einzelne Headline-Zahl. Ergänzend Task-Completion (erreicht der Agent überhaupt einen terminalen Zustand?), um „aufgegeben" von „falsch beantwortet" zu unterscheiden.
- Qualität: Faithfulness bzw. Halluzinationsrate (Anteil der Aussagen, die durch abgerufenen Kontext oder Weltwissen gedeckt sind) und – besonders für Recht, Medizin, Finanzen – Citation Accuracy auf Aussagenebene. Konsistenz über wiederholte Läufe gehört dazu: Ein Agent, der 90 Prozent der Fälle löst, aber unvorhersehbar 10 Prozent kippt, ist oft schlechter als einer mit 80 Prozent, der berechenbar und behebbar scheitert.
- Conversion / Wirkung: je nach Prozess Lead-to-Quote-Rate, Deflection-Rate im Service, CSAT/NPS, Cycle-Time-Reduktion (Case-to-Close), Defekt- bzw. Fehlerquote.
- Time-to-Value: Wie schnell entsteht der erste messbare ROI? Realistische DACH-Erwartungen liegen für Service-Tier-1-Augmentierung bei 3 bis 6 Monaten, für CRM-eingebettete Sales-/Marketing-Copilots bei 6 bis 9, für interne Wissens-/Suchagenten bei 6 bis 12 und für dokumentenlastige Back-Office-Prozesse bei 9 bis 15 Monaten. Drei-Monats-Versprechen sind unseriös.
Interne KPIs: Auslastung, Marge, Token-Kosten, Fehler-/HITL-Rate
Die zweite KPI-Familie schützt die Wirtschaftlichkeit der Agentur selbst:
- Auslastung der knappen Rollen, vor allem der AI Product Manager, die Use Cases und Outcomes verantworten.
- Projekt-Marge als Lagging-Kennzahl, von Finance validiert.
- Token-/Inferenzkosten pro Task: Input-Tokens, Output-Tokens und – seit 2025 entscheidend – Reasoning-Tokens, die bei Reasoning-Modellen die Kosten dominieren können. Reporting-Einheiten: Euro pro Task und Euro pro 1.000 Tasks, dazu Latenz P50/P95/P99.
- Fehler- und HITL-Rate: Die Human-in-the-Loop-Eskalationsrate ist der direkte Hebel auf die Marge. Jede Eskalation bindet Prüfzeit, die häufig 30 bis 60 Prozent der Brutto-Deflection-Einsparung wieder aufzehrt – der größte versteckte Kostenblock in Service- und Dokumenten-Agenten. Wichtig zur Interpretation: Eine hohe Eskalationsrate ist nicht automatisch schlecht; gut kalibrierte Eskalation in risikoreichen Prozessen ist ein Feature. Maßgeblich ist der Trend nach unten bei stabiler Qualität.
Leading vs. Lagging – und die Vergütungs-Regel
Frühindikatoren bewegen sich schnell und sind steuerbar; Spätindikatoren zeigen das Geschäftsergebnis verzögert, aber belastbar.
KPI | Definition | Quelle | Zielrichtung |
|---|---|---|---|
Adoptionsrate (WAU/MAU) | Aktive Nutzer pro Funktion / Lizenzen | Produkt-Telemetrie | Leading – hoch, aber nur Voraussetzung |
Tasks pro Nutzer/Tag | Genutzte Agenten-Interaktionen | Produkt-Telemetrie | Leading – hoch |
Eval-Pass-Rate | Bestandene Asserts/Judge-Checks pro Release | Eval-Pipeline (CI/CD) | Leading – hoch halten |
HITL-Eskalationsrate | Anteil Tasks mit menschlicher Prüfung | Agenten-Logs/Tracing | Leading – kontrolliert sinkend |
Success Rate | Anteil korrekt erledigter Aufgaben | Outcome-Scorer | Outcome – hoch |
Halluzinationsrate | Anteil nicht gedeckter Aussagen | LLM-Judge / MiniCheck | Outcome – niedrig |
Cycle-Time-Reduktion | Median Durchlaufzeit vs. Baseline | Prozess-Daten | Lagging – sinkend |
Cost-out / Marge | Einsparung bzw. DB, von Finance bestätigt | Finance | Lagging – steigend |
NPS/CSAT | Zufriedenheit kundennaher Prozesse | Befragung | Lagging – stabil/steigend |
Token-Kosten/Task | €-Inferenzkosten je Vorgang | Observability/Gateway | Effizienz – niedrig |
Die Disziplin ist explizit zu machen: beides reporten, aber auf Lagging vergüten. Jede der herangezogenen Studien zeigt dasselbe Muster – Teams, die auf Adoption belohnt werden, liefern hohe Adoption und keinen Wert; Teams, die auf Outcomes belohnt werden, liefern messbaren Wert.
ROI konservativ rechnen: 14 Prozent, nicht 10x
Der belastbarste dokumentierte Produktivitätswert für KI im Unternehmen stammt aus der Studie von Brynjolfsson, Li und Raymond (NBER WP 31161, 2023; QJE 2025): 14 Prozent mehr gelöste Vorgänge pro Stunde im Kundenservice im Schnitt, 34 Prozent bei Einsteigern und gering qualifizierten Kräften, kaum Effekt bei erfahrenen Profis. Das ist das obere Ende des Glaubwürdigen für Service – und ein strategischer Hinweis: KI verteilt Wert die Skill-Kurve hinunter.
Zwei Korrekturen gehören in jede Agentur-Kalkulation:
- Der GitHub-Copilot-Klassiker „55 Prozent schneller" gilt nur für eng spezifizierte, isolierte Coding-Aufgaben – nicht für End-to-End-Lieferung. Dort findet Bain (Technology Report 2025) typische 10 bis 15 Prozent, oft nicht in höherwertige Arbeit zurückgewonnen, weil Review-, Test- und Deployment-Engpässe nachgelagert bleiben.
- Selbstauskünfte sind unzuverlässig. Im METR-Feldversuch (arXiv 2507.09089, 2025) waren 16 erfahrene Open-Source-Entwickler mit KI 19 Prozent langsamer, prognostizierten aber vorab plus 24 Prozent und glaubten nachher an plus 20 Prozent; ML- und Ökonomie-Experten sagten sogar 38 bis 39 Prozent Beschleunigung voraus. Boardroom-Übersetzung: auf Telemetrie und Outcome-Metriken steuern, nicht auf Self-Reports.
Daraus folgt die saubere Bottom-up-Formel, die ein CFO prüfen kann:
```
Brutto-Einsparung = Zeitersparnis% x Jahres-Volumen x Vollkosten je Vorgang
Netto-ROI = Brutto-Einsparung
- Lizenz/Plattform
- Deployment/Integration
- Observability/Eval
- HITL-Prüfung (30-60% der Brutto-Einsparung)
```
Ehrlich bleiben muss man beim „ROI-ist-nicht-messbar"-Problem: Wenn LLM-Kosten klein gegenüber dem Gesamt-OpEx sind, zeigt sich der Gewinn als schnellere Arbeit, nicht als messbare Kostensenkung auf Positionsebene. Bei breiten horizontalen Copilots ist der ROI line-item oft nicht detektierbar – das ist kein Scheitern, wenn die Wette bewusst als Capability-Investition deklariert wurde.
Beispiel-Dashboard: Service-Tier-1-Agent eines Mittelständlers
Annahme: 120.000 Service-Vorgänge/Jahr, Vollkosten 6 € je Vorgang, Deflection 40 Prozent, Per-Conversation-Inferenzkosten 0,30 € (Korridor laut Research: 0,10–1,00 €).
Kennzahl | Wert | Kategorie/Zielrichtung |
|---|---|---|
Deflection-Rate | 40 % | Outcome – steigend |
Success Rate (gelöst) | 88 % | Outcome – hoch |
Halluzinationsrate | 1,8 % | Qualität – niedrig |
HITL-Eskalationsrate | 17 % → Trend ↓ | Leading – sinkend |
CSAT vs. Baseline | +3 Punkte | Lagging – stabil/steigend |
Token-Kosten/Vorgang | 0,30 € | Effizienz – niedrig |
Latenz P95 | 4,1 s | UX – niedrig |
Brutto-Einsparung/Jahr | 120.000 × 40 % × 6 € = 288.000 € | Berechnung |
– HITL-Recapture (~45 %) | −130.000 € | Marge-relevant |
– Lizenz/Betrieb/Eval | −90.000 € | Marge-relevant |
Netto-Wert Jahr 1 | ≈ 68.000 € | Lagging, Finance-validiert |
Das Dashboard macht zweierlei sichtbar: Die scheinbar teure Position (Token-Kosten) ist nicht der Kostentreiber – HITL und Betrieb sind es. Und die HITL-Rate ist die Stellschraube, an der sich der Netto-Wert über die Folgequartale entscheidet.
OKR-Form, die der CFO prüfen kann
Ziel: Belastbare Agenten-Fähigkeit in der Kern-Umsatzfunktion aufbauen.
- KR1: 70 %+ aktive Wochen-Adoption des Agenten in der Funktion binnen 9 Monaten.
- KR2: 25 %+ Reduktion der Median-Cycle-Time des Zielprozesses gegen Baseline binnen 12 Monaten.
- KR3: NPS/CSAT ohne Verschlechterung (oder +5 %) über den Zeitraum.
- KR4: HITL-Eskalationsrate <20 % binnen 12 Monaten mit messbarem Abwärtstrend.
- KR5: Netto-P&L-Beitrag von Finance validiert binnen 18 Monaten.
Diese Form zwingt zu Outcomes, die auditierbar sind – und zu Kill-Disziplin. Harte Gates sind wertvoller als weiche Governance: bei 6 Monaten ohne klaren ROI-Pfad (Adoption flach unter 30 Prozent, keine messbare Verbesserung) und bei 12 Monaten ohne quantitatives ROI-Signal das Projekt beenden, Budget zurückholen, kein Zombie. Jedes Agenten-Programm braucht ein explizites Kill-Kriterium in der Gründungs-Charta.
Für Agenturen und B2B-Entscheider
Wer Agenten-Leistungen verkauft, verkauft künftig Outcomes, nicht Tool-Zugang. Eine Agentur, die ihren Kunden ein zweischichtiges KPI-Modell liefert – Leading-Frühindikatoren fürs Steuern, Lagging-Wertmetriken für die Vergütung – und den ROI konservativ mit 14-Prozent-Logik statt 10x-Versprechen rechnet, gewinnt Vertrauen im Boardroom. Blck Alpaca baut genau solche Mess- und Eval-Setups auf: vom kundenseitigen Outcome-Dashboard (Success Rate, Qualität, Conversion, Time-to-Value) bis zur internen Margen- und HITL-Kostenrechnung. Wenn Sie für Ihre Agentur oder Ihr Unternehmen ein auditierbares KPI-Gerüst für AI-Agent-Projekte aufsetzen wollen, sprechen Sie mit uns – wir definieren die Metriken vor dem Deployment, mit Baseline und Finance-Freigabe.
Häufig gestellte Fragen
Welche KPIs sollte eine Agentur für AI-Agent-Leistungen mindestens messen?
Was ist der Unterschied zwischen Leading- und Lagging-KPIs bei AI Agents?
Wie rechnet eine Agentur den ROI von AI Agents seriös?
Was sind typische Vanity-Metriken, die man vermeiden sollte?
Warum ist die HITL-Rate eine so wichtige Kennzahl?
Tiefer einsteigen?
Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.