10.4Fortgeschritten8 min

Observability für AI Agents: Tracing, Metriken, Logs und Evals

Blck Alpaca·9. Juni 2026

Definition

AI Agent Observability macht das Innenleben eines autonomen Agenten sichtbar: über Tracing (Spans über Reasoning- und Tool-Calls), Metriken (Latenz, Token, Kosten, Erfolgsrate), strukturierte Logs und kontinuierliche Evals. Sie beantwortet, warum ein Agent so entschieden hat, und ist die Voraussetzung, um Multi-Step-Agenten in Produktion überhaupt debuggen, absichern und auditieren zu können.

Auf einen Blick

✓Observability für Agenten ruht auf vier Säulen: Tracing, Metriken, Logs und Evals. Ohne Tracing über Reasoning- und Tool-Call-Spans sind Multi-Step-Agenten faktisch un-debugbar.
✓Ein Agenten-Trace ist hierarchisch: Ein Root-Span pro Anfrage, darunter verschachtelte Spans je LLM-Aufruf, Tool-Call, Retrieval-Schritt und Guardrail, mit Prompt, Antwort, Token-Zahl, Latenz und Kosten pro Span.
✓Tool-Landschaft (Stand 2026): LangSmith (LangChain/LangGraph-nah), Langfuse (Open Source, self-hostbar in der EU), Arize Phoenix sowie der herstellerneutrale Pfad über OpenTelemetry-GenAI-Konventionen und OpenInference.
✓Für DACH-B2B ist die Datenresidenz des Observability-Backends ein eigenes Compliance-Thema: Langfuse self-hosted in der EU, Datadog EU oder Honeycomb EU halten Prompts und Antworten im EU-Raum.
✓Evals gehören in die Observability: Erfolgsrate, Tool-Call-Korrektheit und Antwortqualität werden gegen fixierte Modell- und Prompt-Versionen getaggt. Pflicht für AI-Act-relevante Hochrisiko-Audits.
✓Tracing ist auch ein Sicherheitssignal: Es liefert das Audit-Log für den hohen Blast Radius eines Agenten und ergänzt Egress-Kontrolle und Service-Account-Hygiene aus dem Sicherheits-Pillar.

Anders als ein klassischer Webservice trifft ein Agent nicht eine Anfrage-Antwort-Entscheidung, sondern durchläuft pro Aufgabe mehrere Reasoning-Runden mit zwischengeschalteten Werkzeug-Aufrufen. Genau diese Mehrstufigkeit macht herkömmliches Monitoring blind: Ein HTTP-200 sagt nichts darüber, ob das richtige Tool mit den richtigen Argumenten aufgerufen wurde oder ob das Modell auf halbem Weg falsch abgebogen ist.

Die drei Kernpunkte vorab:

Observability für Agenten besteht aus vier Säulen. Tracing, Metriken, Logs und Evals. Sie greifen ineinander: Der Trace liefert den Pfad, Metriken liefern die Aggregation, Logs liefern den Kontext, Evals liefern das Qualitätsurteil.
Ohne Tracing sind Agenten un-debugbar. Nur ein hierarchischer Trace über alle Reasoning- und Tool-Call-Spans zeigt, an welchem Schritt eine mehrstufige Kette gebrochen ist.
Datenresidenz ist Pflicht-Kriterium. Da Traces Prompts und Antworten, also potenziell Kundendaten, enthalten, ist das Observability-Backend für DACH-B2B selbst ein Compliance-Objekt (Langfuse self-hosted in der EU, Datadog EU, Honeycomb EU).

Warum Agenten ohne Tracing un-debugbar sind

Ein Agent ist nicht-deterministisch. Dieselbe Anfrage kann zu unterschiedlichen Tool-Aufrufen, unterschiedlich vielen Reasoning-Runden und unterschiedlichen Ergebnissen führen. Wenn ein Lauf scheitert oder eine fachlich falsche Antwort produziert, gibt es ohne Tracing keine belastbare Möglichkeit, die Ursache zu isolieren. Mögliche Fehlerquellen in einer einzigen Anfrage:

Das LLM hat falsch reasoniert und ein unpassendes Tool gewählt.
Das Tool wurde mit fehlerhaften Argumenten aufgerufen.
Der Retrieval-Schritt (RAG) hat die falschen Dokumente gezogen.
Ein Guardrail- oder PII-Filter hat eingegriffen und den Kontext verändert.
Eine Modellversion hat sich serverseitig geändert (managed APIs aktualisieren Modelle nach dem Zeitplan des Anbieters).

Ein flaches Output-Log unterscheidet diese Fälle nicht. Tracing macht jeden dieser Schritte als eigenen, zeitlich und kausal eingeordneten Span sichtbar. Damit verschiebt sich Debugging von „Raten anhand des Endergebnisses" zu „den konkreten Span finden, der gebrochen ist". Das Research-Dossier verankert diese Sicht auch architektonisch: Service-Meshes liefern Observability auf Netzwerkebene, und Agenten-Stacks aus vielen Microservices (Orchestrator, Tool-Server, Memory-Store, Vector-DB, Retrieval-Service, Guardrail-Service) sind nur mit einer durchgängigen Observability-Schicht beherrschbar.

Die vier Säulen der Agenten-Observability

Tracing: Spans über Reasoning und Tool-Calls

Ein Trace bildet eine komplette Agenten-Anfrage als Baum ab. Der Root-Span umfasst die gesamte Anfrage; darunter hängen verschachtelte Spans für jeden LLM-Aufruf, jeden Tool-Call, jeden Retrieval-Schritt und jede Guardrail-Prüfung. Jeder Span trägt Ein- und Ausgaben sowie Attribute wie Modellname, Prompt- und Completion-Tokens, Latenz und, abgeleitet, Kosten. Diese hierarchische Struktur ist der entscheidende Unterschied zum klassischen, flachen Request-Log.

Metriken: Latenz, Token, Kosten, Erfolgsrate

Metriken aggregieren über viele Traces hinweg. Vier Signale bilden den Kern:

Latenz, End-to-End und pro Tool-Call-Runde. Relevant, weil laut Dossier ein Agent in Frankfurt, der eine US-Ost-API aufruft, pro Richtung rund 80–130 ms zusätzlich aufbaut, bei mehreren Tool-Runden multipliziert sich das.
Token (Prompt und Completion) je Span als Grundlage der Kostenattribution.
Kosten pro Anfrage, pro Team und pro Use-Case.
Erfolgsrate, der Anteil korrekt abgeschlossener Aufgaben.

Logs: strukturierter Kontext

Strukturierte Logs ergänzen Spans um Detailkontext: Tool-Rohantworten, Retry-Versuche, Guardrail-Auslösungen, abgeschnittene Kontexte. Wichtig ist die Korrelation: Jeder Log-Eintrag sollte über die Trace-ID einem konkreten Span zuordenbar sein, sonst entsteht wieder ein blinder Fleck.

Evals: Qualität als Teil von Observability

Evals sind das Signal, das reines Tracing nicht liefert: die systematische Bewertung der Ausgabequalität. Bewertet werden typischerweise Erfolgsrate, Tool-Call-Korrektheit (wurde das richtige Tool mit den richtigen Argumenten aufgerufen?) und Antwortqualität, per Heuristik, per Referenz-Datensatz oder per „LLM-as-a-Judge". Entscheidend für regulierte Kontexte: Evals und Prompt-Versionen werden gegen fixierte Modellversionen getaggt. Das Dossier nennt dieses Muster explizit: Prompt-Versionen und Evals werden im Gateway- bzw. Observability-Stack gegen konkrete Modellversionen markiert, unter anderem zur Vorbereitung auf AI-Act-Hochrisiko-Audits.

Signal-zu-Tool-Matrix

Die folgende Tabelle ordnet jedes Observability-Signal seiner Mess-Größe und einem typischen Tool zu (Tool-Nennungen aus dem Research-Dossier; Stand 2026).

Signal	Was messen	Tool (Beispiele)
Tracing	Span-Baum über Reasoning- und Tool-Call-Schritte; Prompt/Antwort, Verschachtelung, Dauer je Span	LangSmith, Langfuse, Arize Phoenix; herstellerneutral via OpenTelemetry-GenAI-Konventionen / OpenInference
Latenz	End-to-End und pro Tool-Call-Runde; Tail-Latenz	Langfuse, LangSmith, Datadog EU / Honeycomb EU
Token	Prompt- und Completion-Tokens je Span	Langfuse, LangSmith (Token-Level-Kostenattribution)
Kosten	Kosten pro Anfrage, Team, Use-Case	Langfuse, LangSmith; Aggregation oft im AI-Gateway (LiteLLM, Portkey)
Erfolgsrate / Qualität	Eval-Scores, Tool-Call-Korrektheit, Antwortqualität gegen fixierte Modellversion	Eval-Harness in Langfuse / Arize Phoenix / LangSmith
Logs	Tool-Rohantworten, Retries, Guardrail-Treffer, abgeschnittene Kontexte	Strukturierte Logs, korreliert über Trace-ID
Guardrails / PII	ausgelöste Filter, Redaction-Events	AI-Gateway (Portkey, LiteLLM) plus Trace-Annotation

Der LLM-Observability-Stack: Tools im Überblick

Das Research-Dossier benennt für den Observability-Layer eine klare Auswahl (Stand 2026):

LangSmith, die Tracing- und Eval-Plattform aus dem LangChain-/LangGraph-Umfeld, als Managed-Service. Stark, wenn der Agent ohnehin auf diesem Framework aufsetzt; als managed Option im Dossier in einer Reihe mit Datadog und Honeycomb genannt.
Langfuse, Open Source und damit in der EU self-hostbar (eigenes Rechenzentrum oder EU-Region). Im Dossier sowohl für die regulierte Sovereign-Architektur (kundenkontrollierte Observability) als auch für das Lean-Cloud-Startup-Muster („Langfuse self-hosted") als DSGVO-konformer Pfad gelistet.
Arize Phoenix, Open-Source-Observability und Evaluation, im Dossier als self-hostbare Alternative neben Langfuse genannt.
OpenTelemetry für LLMs / OpenInference, der herstellerneutrale Trace-Standard. Über GenAI-Semantik-Konventionen instrumentiert, bleibt das Backend austauschbar: ein wichtiges Argument gegen Lock-in. Hugging Faces TGI etwa exportierte bereits OpenTelemetry und Prometheus, bevor es im Dezember 2025 in den Maintenance-Modus überging.
Datadog EU / Honeycomb EU, etablierte APM-Backends mit EU-Datenresidenz-Option, im Dossier als managed Pfade für DACH-Residenz aufgeführt.

Ein wichtiger architektonischer Punkt: Das AI-Gateway (LiteLLM, Portkey, Kong) ist oft schon Träger von Teilen der Observability. Gateways übernehmen laut Dossier Multi-Provider-Failover, virtuelles Key-Management, Team-Budgets, Observability, Guardrails und PII-Redaction. In der Praxis attribuiert das Gateway Token und Kosten, während die Tracing-Plattform den Reasoning-Pfad und die Evals hält: beides zusammen ergibt das vollständige Bild.

Beispiel-Trace: Ein Agenten-Lauf, aufgeschlüsselt

Das folgende Pseudo-Beispiel zeigt, wie ein einzelner Support-Agenten-Lauf als Span-Baum aussieht. Die Zahlen sind illustrativ; die Latenz-Größenordnung für transatlantische Aufrufe (80–130 ms/Richtung) stammt aus dem Dossier.

```
TRACE id=ag-7f3c "Kundenanfrage: Rechnung stornieren" gesamt: 4.210 ms | 3.320 Tokens | 0,041 USD
├─ SPAN llm.reason model=gpt-4.x 620 ms | in 540 / out 80 Tok "Plan: Kunde+Rechnung nachschlagen"
├─ SPAN tool.crm_lookup mTLS, in-VPC 180 ms | status=200 args={kunde_id:8842}
├─ SPAN retrieval.vector qdrant-eu 95 ms | 4 Treffer query="Stornorichtlinie B2B"
├─ SPAN llm.reason model=gpt-4.x 710 ms | in 1.980 / out 130 Tok "Storno zulässig, Tool aufrufen"
├─ SPAN tool.invoice_void in-VPC 240 ms | status=200 args={rechnung:RE-2026-0317}
├─ SPAN guardrail.pii redaction 40 ms | 0 Treffer
└─ SPAN llm.compose model=gpt-4.x 2.325 ms| in 380 / out 210 Tok Antworttext an Kunde
EVAL tool_call_correct=PASS | answer_quality=0,92 | getaggt: model=gpt-4.x, prompt=v7
```

Was dieser Trace leistet, das ein Output-Log nicht kann: Wäre die Stornierung fehlgeschlagen, zeigt der Baum sofort, ob tool.invoice_void einen Fehlerstatus lieferte, ob retrieval.vector die falsche Richtlinie zog oder ob der zweite llm.reason-Span falsch entschieden hat. Der größte Latenz-Posten (llm.compose, 2.325 ms) ist unmittelbar als Optimierungskandidat erkennbar. Und die Eval-Zeile bindet das Qualitätsurteil an Modell- und Prompt-Version: die Grundlage für Rollback und Audit.

Bezug zum Monitoring im Sicherheits-Pillar

Tracing ist nicht nur ein Debugging-, sondern auch ein Sicherheitssignal. Agenten haben einen ungewöhnlich hohen „Blast Radius": Ein kompromittierter Agent kann viele Tools aufrufen. Der durchgängige Trace liefert genau das Audit-Log, das diese Angriffsfläche nachvollziehbar macht: welcher Agent hat wann welches Tool mit welcher Identität aufgerufen. Das ergänzt die Kontrollen aus dem Sicherheits- und Identitäts-Kontext: Deny-by-default-Egress mit Allowlist und Logging am Gateway, ein Service-Account je Agent-Tool-Paar statt geteilter Accounts sowie die Rückbindung jedes Aufrufs an die Nutzeridentität über eine Token-Exchange-Kette. Observability auf Netzwerkebene über ein Service-Mesh (mTLS, Workload-Identity, Traffic-Shaping) schließt den Kreis. Detaillierte Mess- und Kontrollmuster zu Egress, Identität und Monitoring behandelt der Sicherheits-Pillar; die Observability-Schicht liefert dafür die Telemetrie-Basis. Die konkrete Token-Ökonomie und Kostenmodellierung wiederum ist Gegenstand des FinOps-Pillars.

Für Agenturen und B2B-Entscheider

Für Marketing-Agenturen, die Agenten-Workflows für Kunden bauen, ist Observability das Lieferobjekt, das einen Pilot von einem auditierbaren Produktivsystem trennt: Erst Trace, Eval und EU-konformes Backend machen einen Agenten betreibbar, abrechenbar und gegenüber dem Kunden-Datenschutz vertretbar. Für DACH-B2B-Entscheider gilt: Wähle das Observability-Backend genauso bewusst wie die Cloud-Region: self-hosted Langfuse, Datadog EU oder Honeycomb EU halten Prompts und Antworten im EU-Raum, und herstellerneutrales OpenTelemetry-Tracing schützt vor Lock-in. Blck Alpaca aus Wien konzipiert und betreibt Agenten-Infrastruktur mit dieser Observability-Schicht von Beginn an: inklusive Tracing, Eval-Harness und DSGVO-konformem Backend. Sprich uns an, wenn du einen Agenten aus dem Pilotstatus in einen auditierbaren Produktivbetrieb überführen willst.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Observability für AI Agents und klassischem APM?

Klassisches Application Performance Monitoring misst Requests, Fehlerraten und Latenz auf Service-Ebene. AI Agent Observability geht tiefer: Sie zeichnet pro Anfrage den gesamten Reasoning-Pfad als Trace auf, jeden LLM-Aufruf, jeden Tool-Call, jeden Retrieval-Schritt, inklusive Prompt, Antwort, Token-Verbrauch und Kosten je Span. Zusätzlich bewertet sie über Evals die Qualität der Ausgabe, nicht nur deren technische Verfügbarkeit. Ein Agent kann technisch fehlerfrei laufen (HTTP 200) und trotzdem die falsche Entscheidung treffen, genau diese Lücke schließt Agenten-Observability.

Warum sind AI Agents ohne Tracing nicht debugbar?

Ein Agent ist nicht-deterministisch und mehrstufig: Auf eine Anfrage folgen oft mehrere Reasoning-Runden mit zwischengeschalteten Tool-Calls. Schlägt das Endergebnis fehl, sagt ein bloßes Output-Log nicht, ob das LLM falsch reasoniert hat, ein Tool eine fehlerhafte Antwort lieferte, der Retrieval-Schritt die falschen Dokumente zog oder ein Guardrail eingriff. Tracing macht jede dieser Stufen als eigenen Span mit Ein- und Ausgaben sichtbar. Erst damit lässt sich der konkrete Schritt isolieren, an dem die Kette gebrochen ist.

Welche Observability-Tools sind für DACH-Unternehmen mit Datenresidenz-Anforderungen geeignet?

Laut Research-Dossier kommen für DSGVO-konforme Setups vor allem Langfuse self-hosted (Open Source, in einer EU-Region oder im eigenen Rechenzentrum betreibbar), Datadog EU und Honeycomb EU in Frage. Managed-Optionen wie LangSmith oder Datadog sind komfortabler, müssen aber gegen die Datenresidenz von Prompts und Antworten geprüft werden, da Traces Kundendaten enthalten können. Herstellerneutral lässt sich über OpenTelemetry-GenAI-Konventionen instrumentieren, sodass das Backend austauschbar bleibt (Stand 2026).

Gehören Evaluations (Evals) zur Observability oder sind das getrennte Disziplinen?

Im Agenten-Kontext verschmelzen beide. Evals, also die systematische Bewertung von Erfolgsrate, Tool-Call-Korrektheit und Antwortqualität, sind das Qualitätssignal, das reines Tracing nicht liefert. In der Praxis werden Evals direkt an die getracten Läufe gehängt und gegen fixierte Modell- und Prompt-Versionen getaggt. Das Research-Dossier nennt genau dieses Muster: Prompt-Versionen und Evals werden im Gateway- bzw. Observability-Stack gegen konkrete Modellversionen markiert, unter anderem als Vorbereitung auf AI-Act-Hochrisiko-Audits.

Welche Metriken sollte man für einen Produktiv-Agenten mindestens erfassen?

Vier Kern-Signale: Latenz (End-to-End und pro Tool-Call-Runde, da transatlantische API-Aufrufe laut Dossier 80–130 ms pro Richtung addieren), Token-Verbrauch (Prompt- und Completion-Tokens je Span als Basis der Kostenattribution), Kosten (pro Anfrage, pro Team, pro Use-Case) und Erfolgsrate (Anteil korrekt abgeschlossener Aufgaben). Ergänzend: Tool-Call-Fehlerrate, Anzahl Reasoning-Runden pro Anfrage und Guardrail-Auslösungen. Detaillierte Token-Ökonomie und Kostenmodellierung behandelt der FinOps-Pillar separat.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← AI Agents auf Kubernetes deployen: Architektur, Skalierung und wann sich K8s lohnt NächsterToken-Economics: Wie AI-Agent-Kosten wirklich entstehen →