Zum Inhalt springen
10.14Fortgeschritten8 min

Agentur-KPIs mit AI Agents besser messen

Blck Alpaca·
Definition

Agentur-KPIs für AI Agents sind die Kennzahlen, mit denen eine Agentur Wert und Wirtschaftlichkeit von Agenten-Leistungen belegt: kundenseitig Output, Qualität, Conversion und Time-to-Value, intern Auslastung, Marge, Token-Kosten sowie Fehler- und HITL-Rate. Entscheidend ist die Trennung von Adoptions-Vanity-Metriken und auditierbaren Wert-Metriken.

Auf einen Blick

  • Adoption ist notwendig, aber nicht hinreichend: Anzahl Pilotprojekte, eingesetzte Tools und aktive Nutzer korrelieren nicht mit Wertschöpfung. Auf Outcome-Metriken (Cost-out, Cycle-Time, Conversion, Marge) steuern.
  • Leading- und Lagging-Indikatoren beide reporten, aber das Team auf Lagging-KPIs vergüten. Firmen, die auf Adoption belohnen, bekommen hohe Adoption und keinen Wert.
  • ROI konservativ rechnen: belastbarer Referenzwert ist die Brynjolfsson-Studie mit 14 Prozent Produktivität (34 Prozent bei Einsteigern), nicht 10x. GitHub-Copilots 55 Prozent gelten nur für isolierte Coding-Tasks; end-to-end zeigt Bain 10 bis 15 Prozent.
  • Selbstauskünfte zur Zeitersparnis sind unzuverlässig: Im METR-Feldversuch waren erfahrene Entwickler faktisch 19 Prozent langsamer, glaubten aber an plus 20 Prozent. Telemetrie und Outcome-Metriken schlagen Self-Reports.
  • Größter versteckter Kostenblock ist die Human-in-the-Loop-Prüfung: oft 30 bis 60 Prozent der Brutto-Einsparung. Wer HITL-Kosten nicht misst, überschätzt die Marge.
  • Konzentration schlägt Proliferation: AI-Leiter fokussieren laut BCG 3,5 Use Cases gegenüber 6,1 bei Nachzüglern und erwarten den 2,1-fachen ROI. Harte Kill-Gates bei 6 und 12 Monaten sind wertvoller als weiche Governance.

Agentur-KPIs für AI Agents sind die Kennzahlen, mit denen eine Agentur den Wert und die Wirtschaftlichkeit ihrer Agenten-Leistungen belegt: kundenseitig Output, Qualität, Conversion und Time-to-Value, intern Auslastung, Marge, Token-Kosten sowie Fehler- und HITL-Rate. Entscheidend ist die Trennung von schnell wachsenden Adoptions-Zahlen und den wenigen auditierbaren Wert-Metriken, die ein CFO nachvollziehen kann.

  • Kundenseite messen, nicht nur Nutzung: Erfolgsrate, Qualität, Conversion/Cost-out und Time-to-Value belegen Wert beim Kunden – Lizenz-Auslastung allein belegt ihn nicht.
  • Intern auf die Marge schauen: Token-Kosten pro Task, Auslastung und vor allem die HITL-Eskalationsrate entscheiden, ob ein Agenten-Projekt profitabel ist.
  • Konservativ rechnen: Belastbarer Referenzwert ist eine Produktivitätssteigerung von rund 14 Prozent, nicht das oft versprochene Zehnfache.

Warum die meisten Agentur-Dashboards die falsche Zahl feiern

Der häufigste KPI-Fehler in DACH-Projekten 2026 ist, den Erfolg allein an der Adoption festzumachen. Ein Programm mit voller Lizenzauslastung, das nie eine P&L-Position bewegt hat, ist ein Programm ohne Wirkung. Empirisch ist die Lage eindeutig: Anzahl gestarteter Pilotprojekte, Anzahl identifizierter Use Cases und Anzahl eingesetzter KI-Tools korrelieren nicht mit Wertschöpfung. BCG zeigt im AI Radar das klarste Gegenbeispiel – AI-Leiter konzentrieren sich auf durchschnittlich 3,5 Use Cases, Nachzügler verteilen sich auf 6,1, und die Leiter erwarten dabei den 2,1-fachen ROI. Konzentration schlägt Proliferation. Hinzu kommt: rund 60 Prozent der befragten Unternehmen definieren oder überwachen überhaupt keinen finanziellen KPI für ihren KI-Wert.

Für eine Agentur heißt das: Das Reporting muss zwei Schichten sauber trennen – Adoptionsmetriken (notwendig, nicht hinreichend) und Outcome-Metriken (die, auf die es ankommt).

Kundenseitige KPIs: Output, Qualität, Conversion, Time-to-Value

Beim Kunden zählt, was der Agent im Prozess bewirkt. Vier Dimensionen sind führend:

  • Output / Erfolgsrate (Success Rate): Anteil der Aufgaben, die der Agent korrekt zu einem Endzustand bringt – die wichtigste einzelne Headline-Zahl. Ergänzend Task-Completion (erreicht der Agent überhaupt einen terminalen Zustand?), um „aufgegeben" von „falsch beantwortet" zu unterscheiden.
  • Qualität: Faithfulness bzw. Halluzinationsrate (Anteil der Aussagen, die durch abgerufenen Kontext oder Weltwissen gedeckt sind) und – besonders für Recht, Medizin, Finanzen – Citation Accuracy auf Aussagenebene. Konsistenz über wiederholte Läufe gehört dazu: Ein Agent, der 90 Prozent der Fälle löst, aber unvorhersehbar 10 Prozent kippt, ist oft schlechter als einer mit 80 Prozent, der berechenbar und behebbar scheitert.
  • Conversion / Wirkung: je nach Prozess Lead-to-Quote-Rate, Deflection-Rate im Service, CSAT/NPS, Cycle-Time-Reduktion (Case-to-Close), Defekt- bzw. Fehlerquote.
  • Time-to-Value: Wie schnell entsteht der erste messbare ROI? Realistische DACH-Erwartungen liegen für Service-Tier-1-Augmentierung bei 3 bis 6 Monaten, für CRM-eingebettete Sales-/Marketing-Copilots bei 6 bis 9, für interne Wissens-/Suchagenten bei 6 bis 12 und für dokumentenlastige Back-Office-Prozesse bei 9 bis 15 Monaten. Drei-Monats-Versprechen sind unseriös.

Interne KPIs: Auslastung, Marge, Token-Kosten, Fehler-/HITL-Rate

Die zweite KPI-Familie schützt die Wirtschaftlichkeit der Agentur selbst:

  • Auslastung der knappen Rollen, vor allem der AI Product Manager, die Use Cases und Outcomes verantworten.
  • Projekt-Marge als Lagging-Kennzahl, von Finance validiert.
  • Token-/Inferenzkosten pro Task: Input-Tokens, Output-Tokens und – seit 2025 entscheidend – Reasoning-Tokens, die bei Reasoning-Modellen die Kosten dominieren können. Reporting-Einheiten: Euro pro Task und Euro pro 1.000 Tasks, dazu Latenz P50/P95/P99.
  • Fehler- und HITL-Rate: Die Human-in-the-Loop-Eskalationsrate ist der direkte Hebel auf die Marge. Jede Eskalation bindet Prüfzeit, die häufig 30 bis 60 Prozent der Brutto-Deflection-Einsparung wieder aufzehrt – der größte versteckte Kostenblock in Service- und Dokumenten-Agenten. Wichtig zur Interpretation: Eine hohe Eskalationsrate ist nicht automatisch schlecht; gut kalibrierte Eskalation in risikoreichen Prozessen ist ein Feature. Maßgeblich ist der Trend nach unten bei stabiler Qualität.

Leading vs. Lagging – und die Vergütungs-Regel

Frühindikatoren bewegen sich schnell und sind steuerbar; Spätindikatoren zeigen das Geschäftsergebnis verzögert, aber belastbar.

KPI

Definition

Quelle

Zielrichtung

Adoptionsrate (WAU/MAU)

Aktive Nutzer pro Funktion / Lizenzen

Produkt-Telemetrie

Leading – hoch, aber nur Voraussetzung

Tasks pro Nutzer/Tag

Genutzte Agenten-Interaktionen

Produkt-Telemetrie

Leading – hoch

Eval-Pass-Rate

Bestandene Asserts/Judge-Checks pro Release

Eval-Pipeline (CI/CD)

Leading – hoch halten

HITL-Eskalationsrate

Anteil Tasks mit menschlicher Prüfung

Agenten-Logs/Tracing

Leading – kontrolliert sinkend

Success Rate

Anteil korrekt erledigter Aufgaben

Outcome-Scorer

Outcome – hoch

Halluzinationsrate

Anteil nicht gedeckter Aussagen

LLM-Judge / MiniCheck

Outcome – niedrig

Cycle-Time-Reduktion

Median Durchlaufzeit vs. Baseline

Prozess-Daten

Lagging – sinkend

Cost-out / Marge

Einsparung bzw. DB, von Finance bestätigt

Finance

Lagging – steigend

NPS/CSAT

Zufriedenheit kundennaher Prozesse

Befragung

Lagging – stabil/steigend

Token-Kosten/Task

€-Inferenzkosten je Vorgang

Observability/Gateway

Effizienz – niedrig

Die Disziplin ist explizit zu machen: beides reporten, aber auf Lagging vergüten. Jede der herangezogenen Studien zeigt dasselbe Muster – Teams, die auf Adoption belohnt werden, liefern hohe Adoption und keinen Wert; Teams, die auf Outcomes belohnt werden, liefern messbaren Wert.

ROI konservativ rechnen: 14 Prozent, nicht 10x

Der belastbarste dokumentierte Produktivitätswert für KI im Unternehmen stammt aus der Studie von Brynjolfsson, Li und Raymond (NBER WP 31161, 2023; QJE 2025): 14 Prozent mehr gelöste Vorgänge pro Stunde im Kundenservice im Schnitt, 34 Prozent bei Einsteigern und gering qualifizierten Kräften, kaum Effekt bei erfahrenen Profis. Das ist das obere Ende des Glaubwürdigen für Service – und ein strategischer Hinweis: KI verteilt Wert die Skill-Kurve hinunter.

Zwei Korrekturen gehören in jede Agentur-Kalkulation:

  • Der GitHub-Copilot-Klassiker „55 Prozent schneller" gilt nur für eng spezifizierte, isolierte Coding-Aufgaben – nicht für End-to-End-Lieferung. Dort findet Bain (Technology Report 2025) typische 10 bis 15 Prozent, oft nicht in höherwertige Arbeit zurückgewonnen, weil Review-, Test- und Deployment-Engpässe nachgelagert bleiben.
  • Selbstauskünfte sind unzuverlässig. Im METR-Feldversuch (arXiv 2507.09089, 2025) waren 16 erfahrene Open-Source-Entwickler mit KI 19 Prozent langsamer, prognostizierten aber vorab plus 24 Prozent und glaubten nachher an plus 20 Prozent; ML- und Ökonomie-Experten sagten sogar 38 bis 39 Prozent Beschleunigung voraus. Boardroom-Übersetzung: auf Telemetrie und Outcome-Metriken steuern, nicht auf Self-Reports.

Daraus folgt die saubere Bottom-up-Formel, die ein CFO prüfen kann:

```
Brutto-Einsparung = Zeitersparnis% x Jahres-Volumen x Vollkosten je Vorgang
Netto-ROI = Brutto-Einsparung

            • Lizenz/Plattform
            • Deployment/Integration
            • Observability/Eval
            • HITL-Prüfung (30-60% der Brutto-Einsparung)
              ```

Ehrlich bleiben muss man beim „ROI-ist-nicht-messbar"-Problem: Wenn LLM-Kosten klein gegenüber dem Gesamt-OpEx sind, zeigt sich der Gewinn als schnellere Arbeit, nicht als messbare Kostensenkung auf Positionsebene. Bei breiten horizontalen Copilots ist der ROI line-item oft nicht detektierbar – das ist kein Scheitern, wenn die Wette bewusst als Capability-Investition deklariert wurde.

Beispiel-Dashboard: Service-Tier-1-Agent eines Mittelständlers

Annahme: 120.000 Service-Vorgänge/Jahr, Vollkosten 6 € je Vorgang, Deflection 40 Prozent, Per-Conversation-Inferenzkosten 0,30 € (Korridor laut Research: 0,10–1,00 €).

Kennzahl

Wert

Kategorie/Zielrichtung

Deflection-Rate

40 %

Outcome – steigend

Success Rate (gelöst)

88 %

Outcome – hoch

Halluzinationsrate

1,8 %

Qualität – niedrig

HITL-Eskalationsrate

17 % → Trend ↓

Leading – sinkend

CSAT vs. Baseline

+3 Punkte

Lagging – stabil/steigend

Token-Kosten/Vorgang

0,30 €

Effizienz – niedrig

Latenz P95

4,1 s

UX – niedrig

Brutto-Einsparung/Jahr

120.000 × 40 % × 6 € = 288.000 €

Berechnung

– HITL-Recapture (~45 %)

−130.000 €

Marge-relevant

– Lizenz/Betrieb/Eval

−90.000 €

Marge-relevant

Netto-Wert Jahr 1

≈ 68.000 €

Lagging, Finance-validiert

Das Dashboard macht zweierlei sichtbar: Die scheinbar teure Position (Token-Kosten) ist nicht der Kostentreiber – HITL und Betrieb sind es. Und die HITL-Rate ist die Stellschraube, an der sich der Netto-Wert über die Folgequartale entscheidet.

OKR-Form, die der CFO prüfen kann

Ziel: Belastbare Agenten-Fähigkeit in der Kern-Umsatzfunktion aufbauen.

  • KR1: 70 %+ aktive Wochen-Adoption des Agenten in der Funktion binnen 9 Monaten.
  • KR2: 25 %+ Reduktion der Median-Cycle-Time des Zielprozesses gegen Baseline binnen 12 Monaten.
  • KR3: NPS/CSAT ohne Verschlechterung (oder +5 %) über den Zeitraum.
  • KR4: HITL-Eskalationsrate <20 % binnen 12 Monaten mit messbarem Abwärtstrend.
  • KR5: Netto-P&L-Beitrag von Finance validiert binnen 18 Monaten.

Diese Form zwingt zu Outcomes, die auditierbar sind – und zu Kill-Disziplin. Harte Gates sind wertvoller als weiche Governance: bei 6 Monaten ohne klaren ROI-Pfad (Adoption flach unter 30 Prozent, keine messbare Verbesserung) und bei 12 Monaten ohne quantitatives ROI-Signal das Projekt beenden, Budget zurückholen, kein Zombie. Jedes Agenten-Programm braucht ein explizites Kill-Kriterium in der Gründungs-Charta.

Für Agenturen und B2B-Entscheider

Wer Agenten-Leistungen verkauft, verkauft künftig Outcomes, nicht Tool-Zugang. Eine Agentur, die ihren Kunden ein zweischichtiges KPI-Modell liefert – Leading-Frühindikatoren fürs Steuern, Lagging-Wertmetriken für die Vergütung – und den ROI konservativ mit 14-Prozent-Logik statt 10x-Versprechen rechnet, gewinnt Vertrauen im Boardroom. Blck Alpaca baut genau solche Mess- und Eval-Setups auf: vom kundenseitigen Outcome-Dashboard (Success Rate, Qualität, Conversion, Time-to-Value) bis zur internen Margen- und HITL-Kostenrechnung. Wenn Sie für Ihre Agentur oder Ihr Unternehmen ein auditierbares KPI-Gerüst für AI-Agent-Projekte aufsetzen wollen, sprechen Sie mit uns – wir definieren die Metriken vor dem Deployment, mit Baseline und Finance-Freigabe.

Häufig gestellte Fragen

Welche KPIs sollte eine Agentur für AI-Agent-Leistungen mindestens messen?
Kundenseitig: Erledigungs- bzw. Erfolgsrate (Success Rate), Qualität (Faithfulness/Halluzinationsrate, Citation Accuracy), Conversion bzw. Cost-out oder Cycle-Time und Time-to-Value. Intern: Auslastung der AI Product Manager, Projekt-Marge, Token-/Inferenzkosten pro Task, Latenz (P50/P95/P99) sowie Fehler- und HITL-Eskalationsrate. Mindestens je eine Kennzahl aus den Kategorien Task, Qualität, Kosten und Verlässlichkeit pro Release.
Was ist der Unterschied zwischen Leading- und Lagging-KPIs bei AI Agents?
Leading-Indikatoren sind Frühindikatoren, die sich schnell bewegen und steuerbar sind: Adoptionsrate, Tasks pro Nutzer, Eval-Pass-Rate, KI-Literacy-Quote, HITL-Eskalationsrate. Lagging-Indikatoren messen das Geschäftsergebnis verzögert: Umsatz-Lift, Cost-out, NPS/CSAT, Retention, Marge. Faustregel: beide reporten, aber Zielvereinbarungen und Boni an Lagging-KPIs koppeln, damit nicht Adoption ohne Wert belohnt wird.
Wie rechnet eine Agentur den ROI von AI Agents seriös?
Bottom-up pro Use Case: Zeitersparnis in Prozent mal Volumen mal vollkostenbasierte Stückkosten ergibt die Brutto-Einsparung; davon Lizenz-, Deployment-, Observability- und vor allem HITL-Kosten (oft 30 bis 60 Prozent der Einsparung) abziehen. Als Produktivitätsannahme den belegten Korridor von rund 14 Prozent (Brynjolfsson, Li, Raymond) nutzen, nicht 10x-Versprechen. Bei breiten horizontalen Copilots offen kommunizieren, dass der ROI auf Positionsebene oft nicht messbar ist.
Was sind typische Vanity-Metriken, die man vermeiden sollte?
Anzahl gestarteter Pilotprojekte, Anzahl identifizierter Use Cases und Anzahl eingesetzter KI-Tools. Keine dieser Zahlen korreliert laut BCG mit Wertschöpfung; Leader fokussieren 3,5 Use Cases statt 6,1 und erwarten den 2,1-fachen ROI. Auch reine Selbstauskünfte zur Zeitersparnis sind riskant, weil Nutzer ihren Gewinn systematisch überschätzen (METR: geglaubte plus 20 Prozent versus faktische minus 19 Prozent).
Warum ist die HITL-Rate eine so wichtige Kennzahl?
Die Human-in-the-Loop-Eskalationsrate steuert direkt die Marge. Jede Eskalation bindet menschliche Prüfzeit, die häufig 30 bis 60 Prozent der Brutto-Einsparung wieder aufzehrt. Eine sinkende HITL-Rate bei stabiler Qualität ist daher ein zentrales Wert-Signal. Wichtig: Eine hohe Eskalationsrate ist nicht per se schlecht; gut kalibrierte Eskalation in risikoreichen oder kundennahen Prozessen ist ein Feature, kein Defekt.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.