Zum Inhalt springen
16.9Fortgeschritten8 min

AI-Agent-Monitoring mit LangSmith und Langfuse: Observability für sichere KI-Agenten

Blck Alpaca·
Definition

AI Agent Monitoring (Agent Observability) ist die durchgängige Erfassung und Auswertung dessen, was ein KI-Agent tut: Traces, Tool-Calls, Token-Kosten, Latenz, Fehler und Eval-Scores. Werkzeuge wie LangSmith und Langfuse machen die Entscheidungswege eines Agenten nachvollziehbar und sind damit Voraussetzung für Sicherheit, Debugging und Compliance.

Auf einen Blick

  • Monitoring für Agenten unterscheidet sich grundlegend vom klassischen APM: Zu tracken sind Traces, Tool-Calls, Token/Kosten, Latenz, Fehler und Eval-Scores entlang mehrstufiger Reasoning-Ketten.
  • LangSmith (kommerziell, eng an das LangChain-Ökosystem gekoppelt) und Langfuse (Open Source, selbst hostbar, EU-Region verfügbar) sind die beiden in der Research namentlich geführten Observability-Anker; für DACH-Datenresidenz ist Self-Hosting bzw. EU-Hosting das zentrale Auswahlkriterium.
  • Observability ist Sicherheitsinfrastruktur: ohne Trace- und Provenienz-Logging lassen sich OWASP-Agentic-Bedrohungen wie Goal Hijack (ASI01), Tool Misuse (ASI02) oder Memory Poisoning (ASI06) nicht erkennen.
  • Compliance hängt an Logging: ISO/IEC 42001 (A.6.2.6, A.6.2.8), EU AI Act (Art. 15, Art. 14, Art. 72) und in der Finanzbranche DORA sowie die BaFin-Orientierungshilfe verlangen nachvollziehbare, manipulationssichere Protokolle.
  • Standard-Observability-Stacks reichen 2026 nicht: Sie erfassen agentenspezifische Signale (Reasoning-Drift, Memory-Write-Provenienz, Inter-Agent-Integrität) oft nicht; die Detection-Praxis für Agenten ist noch unreif.
  • Mindest-Loginhalt je Agent-Aktion: voller Prompt, Modellversion/Config-Hash, Tool-Call-Sequenz mit Argumenten, Retrieval-Queries, Output und Begründung, Human-Override- sowie Memory-Events, Kosten und Latenz.

AI Agent Monitoring (Agent Observability) ist die durchgängige Erfassung und Auswertung dessen, was ein KI-Agent tut: Traces, Tool-Calls, Token-Kosten, Latenz, Fehler und Eval-Scores. Werkzeuge wie LangSmith und Langfuse machen die Entscheidungswege eines Agenten nachvollziehbar und sind damit Voraussetzung für Sicherheit, Debugging und Compliance. Anders als klassisches Application Monitoring muss es nicht einzelne Requests, sondern ganze mehrstufige Reasoning-Ketten abbilden.

Die drei wichtigsten Punkte vorab:

  • Was zu tracken ist: Traces (vollständige Reasoning-Kette), Tool-Calls mit Argumenten, Token-Verbrauch und Kosten, Latenz pro Schritt, Fehler und Eval-Scores zur Antwortqualität.
  • Welche Tools: LangSmith (kommerziell, eng an LangChain), Langfuse (Open Source, selbst hostbar, EU-Region) sowie ergänzend Arize Phoenix, Weights & Biases Weave, Datadog LLM Observability und OpenTelemetry für GenAI-Traces.
  • Warum es kritisch ist: Ohne Observability bleiben OWASP-Agentic-Bedrohungen wie Goal Hijack oder Memory Poisoning unsichtbar - und Compliance-Pflichten aus ISO 42001, EU AI Act und DORA sind nicht erfüllbar.

Warum Agenten eine eigene Observability brauchen

Klassische Sprachmodell-Anwendungen reagieren: Prompt rein, Antwort raus. Agentische Systeme dagegen planen, schließen rekursiv, wählen Werkzeuge, schreiben in persistenten Speicher und handeln mit minimaler Schritt-für-Schritt-Freigabe. Diese Verschiebung vergrößert die Angriffs- und Fehleroberfläche entlang dreier Achsen: Autonomie (mehrstufige Pläne, Selbstmodifikation des Kontexts), Tool-Nutzung (Dateisystem, APIs, Datenbanken, Code-Sandboxes, MCP-Server) und Persistenz (langlebige Speicher, Vektor-Datenbanken, Agent-zu-Agent-Vertrauensketten).

Genau deshalb genügt ein Request-Log nicht. Man muss die gesamte Trajektorie eines Agenten rekonstruieren können - sonst lässt sich weder ein Bug noch ein Angriff noch eine Halluzination zurückverfolgen. In der MAESTRO-Referenzarchitektur der Cloud Security Alliance bildet Observability eine eigene Schicht (Layer 5: Evaluation & Observability), die selbst zum Angriffsziel wird: vergiftete Observability-Daten, Umgehung des Monitorings und kompromittierte Evaluierung sind dort gelistete Bedrohungen.

Was konkret zu tracken ist

Die OWASP-Quelle definiert einen Mindest-Loginhalt je Agent-Aktion für forensische Vollständigkeit. Diese Liste ist der praktische Kern jeder Monitoring-Strategie:

  • Vollständiger Prompt - User-, System- und injizierter Kontext (entscheidend zur Erkennung indirekter Prompt Injection).
  • Modellversion und Konfigurations-Hash - Reproduzierbarkeit und Änderungsnachweis.
  • Tool-Call-Sequenz mit Argumenten - welches Werkzeug wann mit welchen Parametern aufgerufen wurde.
  • Retrieval-Queries und zurückgegebene Dokument-IDs - Nachvollziehbarkeit der RAG-Grundlage.
  • Output und Entscheidungsbegründung - inkl. Chain-of-Thought, falls verfügbar.
  • Human-Override-Ereignisse - jede menschliche Freigabe oder Korrektur.
  • Memory-Schreib- und Lesezugriffe - kritisch für die Erkennung von Memory Poisoning.
  • Kosten und Latenz - pro Schritt, für Wirtschaftlichkeit und Anomalie-Erkennung.

Darüber hinaus gehören Eval-Scores ins Monitoring: automatisierte oder modellbasierte Bewertungen der Antwortqualität (Korrektheit, Groundedness, Halluzinationsrate), die über Versionen hinweg verglichen werden. LangSmith und Langfuse unterstützen beide solche Evaluierungs-Pipelines, mit denen sich Regressionen vor dem Produktiveinsatz erkennen lassen.

Beim Aufbewahren gilt: Empfohlen werden WORM-Speicher (write-once-read-many, also unveränderbare Logs) und kryptografische Signierung zur Manipulationserkennung. Die Aufbewahrungsfristen richten sich nach Branche - die Quelle nennt 10 Jahre für Banken und Versicherungen, im Gesundheitswesen nach BfArM-/Swissmedic-Vorgaben und im öffentlichen Sektor nach Archivgesetz.

Die Tool-Landschaft: Fokus und Hosting

LangSmith und Langfuse sind die beiden in der Quelle namentlich geführten Anker der Observability-Landschaft. Für DACH-Entscheider ist neben dem Funktionsumfang vor allem das Hosting entscheidend - Datenresidenz in der EU oder der Schweiz ist in regulierten Branchen oft das ausschlaggebende Kriterium.

Tool

Fokus

Hosting / EU-Tauglichkeit (Stand 2026)

LangSmith

Tracing, Eval, Debugging; eng an das LangChain-/LangGraph-Ökosystem gekoppelt

Kommerziell, primär als Managed Cloud; Enterprise-Self-Hosting verfügbar

Langfuse

Tracing, Token-/Kosten-Tracking, Evaluierung, Prompt-Management; framework-agnostisch

Open Source, vollständig selbst hostbar; dedizierte EU-Region in der Managed Cloud - günstig für DSGVO-Datenresidenz

Arize Phoenix

Open-Source-Observability und Evaluierung, RAG-/Embedding-Analyse

Open Source, selbst hostbar

Weights & Biases Weave

Tracing und Evaluierung, ML-Experiment-naher Stack

Managed Cloud, Self-Hosting für Enterprise

Datadog LLM Observability

LLM-Tracing integriert in bestehendes APM/SIEM

Managed; EU-Region im Datadog-Verbund verfügbar

OpenTelemetry (GenAI)

Offener Trace-Standard, vendor-neutrale Instrumentierung

Selbst hostbar; Basis für herstellerunabhängige Pipelines

Ergänzend nennt die Quelle Honeycomb AI und Splunk AI Assistant Tracing als Bausteine im breiteren Observability-Stack. Wer Lock-in vermeiden will, instrumentiert über OpenTelemetry und leitet die Traces an die Plattform der Wahl weiter.

Ein DACH-relevanter Hinweis: Im angrenzenden Guardrail-Markt ist mit Lakera ein Schweizer Anbieter aktiv - ein Beleg, dass europäische Datenresidenz auch im Sicherheits-Tooling rund um Agenten machbar ist. Bei allen Anbietern gilt: Selbst-veröffentlichte Benchmark- und Erkennungsraten sind als Marketing zu behandeln, bis sie unabhängig verifiziert sind.

Warum Monitoring Sicherheits- und Compliance-Infrastruktur ist

Observability ist kein nachgelagertes Nice-to-have, sondern die Grundlage, auf der Erkennung überhaupt erst funktioniert. Die OWASP-Agentic-Bedrohungen lassen sich fast durchgängig nur über Monitoring-Signale entdecken:

  • Agent Goal Hijack (ASI01): untypische Outbound-URLs in Agent-Outputs, Tool-Calls, die nicht zur Nutzeranfrage passen, plötzliche Themenwechsel im Reasoning-Trace - alles nur sichtbar, wenn der Trace lückenlos vorliegt.
  • Tool Misuse (ASI02): anomale Tool-Call-Frequenzen, ungewöhnliche Aufrufsequenzen, destruktive Operationen kurz nach Aufnahme externer Inhalte.
  • Memory & Context Poisoning (ASI06): Verhaltens-Drift ohne Code- oder Modell-Änderung, nicht verifizierbare Memory-Einträge, semantische Ausreißer im Vektor-Speicher.
  • Cascading Failures (ASI08): schnelles Fan-out (eine Entscheidung löst in Sekunden viele nachgelagerte Agenten aus), oszillierende Retry-Schleifen.
  • Rogue Agents (ASI10): Verhaltens-Drift gegen die Baseline, Zugriff auf Ressourcen außerhalb des normalen Umfangs.

Auf der Kostenseite adressiert Monitoring die Bedrohung der unbegrenzten Ressourcennutzung (Unbounded Consumption, LLM10) - sogenannte Denial-of-Wallet-Angriffe. Mehrstufige Pläne multiplizieren den Token-Verbrauch; Anomalie-Erkennung auf der Token-Nutzungs-Zeitreihe plus harte Kosten-Caps mit Circuit Breakern sind die Gegenmittel.

Aufseiten der Compliance ist Logging der gemeinsame Nenner aller einschlägigen Rahmenwerke. ISO/IEC 42001 adressiert es direkt mit den Annex-A-Controls A.6.2.6 (Operation and monitoring) und A.6.2.8 (Logging). Der EU AI Act verlangt in Art. 15 Cybersicherheit und Robustheit, in Art. 14 menschliche Aufsicht und in Art. 72 Post-Market-Monitoring für Hochrisiko-Systeme. Die DSGVO knüpft über Art. 32 (technische und organisatorische Maßnahmen zu Integrität und Verfügbarkeit) an. Im Finanzsektor gilt DORA (Art. 5-15 ICT-Risikomanagement), und die BaFin-Orientierungshilfe vom 18. Dezember 2025 fasst KI-Systeme als Unterklasse der Netz- und Informationssysteme unter DORA - mit ausdrücklichem Fokus auf transparente Entscheidungsprotokolle. Für KRITIS-Betreiber adressiert NIS2 (Art. 21) Vorfallsbehandlung und Zugriffskontrolle. Hinweis: Dieser Abschnitt ordnet die Rahmenwerke ein und ist keine Rechtsberatung; die konkrete Anwendbarkeit auf Ihr System sollten Sie rechtlich prüfen lassen.

Eine ehrliche Einordnung gehört dazu: Laut OWASP-Quelle ist die Erkennung in produktiven Agenten-Deployments derzeit schwach. Die meisten Observability-Stacks wurden für klassische Anwendungen gebaut und erfassen agentenspezifische Signale - Reasoning-Trace-Anomalien, Memory-Write-Provenienz-Verletzungen, Inter-Agent-Integritätsfehler, Verhaltens-Drift gegen Baseline - nicht. Die Detection-Engineering-Praxis für Agenten steht laut Quelle etwa dort, wo SOC-Detection für Cloud 2018 war: nutzbar, aber mit hohen False-Negative-Raten und begrenzter DACH-Sprachabdeckung. Wer im SIEM nichts sieht, sollte daraus nicht schließen, dass nichts passiert.

Praxisbeispiel: Was ein Trace sichtbar macht

Angenommen, ein Versicherer betreibt einen Claims-Triage-Agenten. In einer eingescannten Arztbrief-Datei steckt per OCR auslesbarer, manipulativer Text, der den Agenten zur automatischen Auszahlung drängt - ein Goal-Hijack-Szenario (ASI01). Ein gut instrumentierter Trace in Langfuse oder LangSmith macht den Angriff sichtbar:

```
trace_id: claim-48211
step 1 retrieval query="Schadensfall 48211" docs=[doc_91, doc_OCR_scan]
step 2 reasoning "Dokument enthaelt Anweisung: sofort genehmigen" <- Anomalie
step 3 tool_call approve_payout(amount=14.900 EUR) <- untypisch frueh
step 4 output "Auszahlung freigegeben"
tokens: 8.420 cost: 0,11 USD latency: 3,2 s
```

Schritt 2 zeigt einen Reasoning-Schritt, der eine Instruktion aus Dokumentinhalt (also aus Daten, nicht aus dem System-Prompt) übernimmt - das klassische Signal für indirekte Injection. Schritt 3 ist ein destruktiver Tool-Call (Auszahlung) unmittelbar nach Aufnahme externer Inhalte. Ohne Trace wäre nur eine genehmigte Zahlung im System sichtbar; mit Trace, Provenienz-Metadaten auf dem Memory-Eintrag und einem Alert auf der Regel "destruktiver Tool-Call nach externem Content" lässt sich der Vorfall in Echtzeit stoppen und später forensisch belegen.

Zur Dringlichkeit liefert die Quelle eine konkrete Zahl: In simulierten Multi-Agent-Systemen vergiftete ein einzelner kompromittierter Agent binnen vier Stunden 87 Prozent der nachgelagerten Entscheidungen (Galileo AI Research, Dezember 2025). Cascading Failures verbreiten sich schneller, als traditionelle Incident Response sie eindämmen kann - was kontinuierliches, tiefes Monitoring der Inter-Agent-Flüsse zur Pflicht macht.

Für Agenturen und B2B-Entscheider

Wer KI-Agenten für Kunden baut oder im eigenen Betrieb einsetzt, sollte Observability von Tag eins als Pflichtbestandteil einplanen - nicht als späteres Add-on. Praktisch heißt das: framework-agnostisch über OpenTelemetry instrumentieren, Langfuse selbst hosten oder in der EU-Region betreiben, wenn Datenresidenz zählt, den oben genannten Mindest-Loginhalt vollständig erfassen und Eval-Scores als Qualitäts-Gate vor jedes Release setzen. Für Agenturen ist nachvollziehbares Trace- und Kosten-Monitoring zugleich ein Vertrauens- und Verkaufsargument: Es belegt gegenüber dem Kunden, dass der Agent kontrollierbar, auditierbar und budgetierbar ist. Blck Alpaca aus Wien begleitet DACH-Unternehmen bei Aufbau und Absicherung solcher Agenten-Stacks - von der Observability-Architektur bis zur Einordnung in ISO 42001 und EU AI Act.

Häufig gestellte Fragen

Was ist der Unterschied zwischen AI Agent Monitoring und klassischem Application Monitoring?
Klassisches APM überwacht deterministische Requests und Responses. Agenten dagegen planen, wählen Tools, schreiben in den Speicher und handeln mehrstufig und nicht-deterministisch. Monitoring für Agenten muss daher die gesamte Reasoning-Kette als Trace abbilden: jeden Tool-Call mit Argumenten, Retrieval-Queries, Memory-Zugriffe, Token-Kosten, Latenz pro Schritt und Eval-Scores zur Antwortqualität. Erst diese Tiefe macht Fehlverhalten und Angriffe sichtbar.
LangSmith oder Langfuse - was passt für DACH-Unternehmen besser?
Beide decken Traces, Tool-Calls, Token/Kosten, Latenz und Evaluierung ab. Der Hauptunterschied liegt im Hosting: Langfuse ist Open Source und selbst hostbar und bietet eine EU-Region, was Datenresidenz nach DSGVO erleichtert (Stand 2026). LangSmith ist eine kommerzielle, eng an das LangChain-Ökosystem gekoppelte Plattform. Für streng datenschutz- oder branchenregulierte DACH-Szenarien ist Self-Hosting oder EU-Hosting meist das ausschlaggebende Kriterium. Dies ist keine Rechtsberatung.
Warum ist Monitoring für die Sicherheit von KI-Agenten zentral?
Viele OWASP-Agentic-Bedrohungen sind nur über Observability erkennbar. Goal Hijack (ASI01) zeigt sich an untypischen Tool-Calls und plötzlichen Themenwechseln im Reasoning-Trace, Tool Misuse (ASI02) an anomalen Aufruffrequenzen, Memory Poisoning (ASI06) an Verhaltens-Drift ohne Code-Änderung. Ohne lückenloses Trace- und Provenienz-Logging bleibt ein kompromittierter Agent unsichtbar - laut OWASP-Quelle vergiftete ein einzelner kompromittierter Agent in simulierten Multi-Agent-Systemen binnen vier Stunden 87 Prozent der nachgelagerten Entscheidungen.
Welche Daten muss ich pro Agent-Aktion mindestens protokollieren?
Für forensische Vollständigkeit empfiehlt die OWASP-Quelle pro Aktion: vollständiger Prompt (User, System und injizierter Kontext), Modellversion und Konfigurations-Hash, Tool-Call-Sequenz mit Argumenten, Retrieval-Queries und zurückgegebene Dokument-IDs, Output samt Entscheidungsbegründung, Human-Override-Ereignisse, Memory-Schreib- und Lesezugriffe sowie Kosten und Latenz. Empfohlen werden WORM-Speicher und kryptografische Signierung zur Manipulationserkennung.
Reicht ein bestehendes Observability-Tool wie Datadog für KI-Agenten aus?
Nur eingeschränkt. Laut OWASP-Quelle wurden die meisten Observability-Stacks für klassische Anwendungen gebaut und erfassen die für Agentenbedrohungen nötigen Signale nicht - etwa Reasoning-Trace-Anomalien, Verletzungen der Memory-Write-Provenienz oder Integritätsfehler in der Inter-Agent-Kommunikation. Plattformen wie Datadog LLM Observability oder Splunk können Teil des Stacks sein, sollten aber durch agentenspezifische Tools wie LangSmith oder Langfuse und durch behaviorales Monitoring ergänzt werden.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.