Zum Inhalt springen
5.8Fortgeschritten8 min

Fehlerbehandlung in Multi-Agent-Systemen: Retries, Fallbacks, Circuit-Breaker

Blck Alpaca·
Definition

Fehlerbehandlung in Multi-Agent-Systemen umfasst alle Mechanismen, die verhindern, dass der Fehler eines einzelnen Agenten das Gesamtsystem kippt: Timeouts, Retries mit Backoff, Fallback-Agents, Circuit-Breaker und durchgängige Observability. Ziel ist Fehlertoleranz – ein Sub-Agent darf scheitern, ohne dass Fehler kaskadieren oder sich fortpflanzen.

Auf einen Blick

  • Multi-Agent-Systeme haben acht Fehlerklassen, die Einzel-Agenten nicht haben – darunter Kaskaden-Fehler, Resource-Deadlock, Kontext-Fragmentierung und Debuggability-Collapse.
  • Der wichtigste Schutz gegen Fehlerfortpflanzung ist die Trennung von Schreib- und Lesepfaden: Viele Agenten lesen parallel, aber nur ein Agent oder eine Pipeline-Stufe schreibt (Cognition-Prinzip single-threaded writes).
  • Timeouts auf jeder A2A-Task, der explizite Zustand input-required und Sub-Agent-Token-Caps verhindern Deadlocks und Kosten-Explosionen.
  • Ein Verifier-Judge-Agent (oft stärkeres Modell) fängt halluzinierte Fakten ab, bevor der Lead-Agent sie als Wahrheit synthetisiert.
  • Observability ist in DACH keine reine Engineering-Frage, sondern Compliance: durchgängige Trace-IDs über jeden A2A-Task und MCP-Call sind für BaFin/FMA-Auditierbarkeit zunehmend Pflicht.
  • Allianz Project Nemo zeigt das DACH-Muster: ein dedizierter Audit-Agent und Human-in-the-Loop an der kritischen Auszahlungsstufe machen Fehler beherrschbar.

Fehlerbehandlung in Multi-Agent-Systemen umfasst alle Mechanismen, die verhindern, dass der Fehler eines einzelnen Agenten das Gesamtsystem kippt: Timeouts, Retries mit Backoff, Fallback-Agents, Circuit-Breaker und durchgängige Observability. Ziel ist Fehlertoleranz – ein Sub-Agent darf scheitern, ohne dass Fehler kaskadieren oder sich fortpflanzen. In einem Single-Agent-System ist Fehlerbehandlung weitgehend ein gelöstes Problem; sobald mehrere Agenten mit eigenen Kontextfenstern, Tools und Rollen zusammenarbeiten, entstehen Fehlerklassen, die es in einem einzelnen Tool-Use-Loop schlicht nicht gibt.

  • Trennen Sie Lese- und Schreibpfad: Viele Agenten dürfen parallel lesen und vorschlagen, aber nur einer (oder eine Pipeline-Stufe) committet – das ist das wirksamste Mittel gegen Fehlerfortpflanzung.
  • Begrenzen Sie jede Task: Timeout, Token-Cap und ein expliziter failed-Zustand pro Sub-Agent verhindern Deadlocks und Kosten-Explosionen.
  • Verifizieren Sie vor Synthese: Ein Verifier-Judge-Agent fängt halluzinierte Fakten ab, bevor der Lead-Agent sie als Wahrheit in die Antwort schreibt.

Warum Fehlerbehandlung in Multi-Agent-Systemen anders ist

Ein Multi-Agent-System besteht aus mehreren LLM-basierten Agenten – jeder mit eigenem Prompt, eigener Rolle, eigenem Toolset und im strengen Fall eigenem Kontextfenster –, die gemeinsam eine Aufgabe lösen. Genau diese Verteilung erzeugt neue Fehleroberflächen. Es gibt keinen einzelnen Trace mehr, sondern N Sub-Agent-Trajektorien plus eine Synthese. Läufe sind nicht-deterministisch: derselbe Input spawnt unterschiedliche Sub-Agenten in unterschiedlicher Reihenfolge. Und das System kann emergentes Verhalten zeigen, das kein einzelner Agent so geplant hat.

Die zentrale Gefahr ist die Fehlerfortpflanzung. Halluziniert ein Sub-Agent einen Fakt, synthetisiert der Lead-Agent ihn in die finale Antwort, und nachgelagerte Agenten handeln auf Basis dieser falschen Tatsache. Aus einem lokalen Fehler wird ein systemweiter Fehlentscheid. Fehlerbehandlung in Multi-Agent-Systemen bedeutet daher zweierlei: einzelne Agenten robust gegen transiente Ausfälle machen und verhindern, dass sich Fehler entlang der Agent-Kette ausbreiten.

Die acht Fehlerklassen, die Single-Agent-Systeme nicht haben

Die folgende Aufstellung ist der von Anthropic, Cognition, Sierra, Salesforce und Microsoft in Produktion dokumentierte Fehlerkatalog. Wer Multi-Agent in Produktion bringt, muss ihn kennen.

#

Fehlerklasse

Was passiert

Gegenmaßnahme

1

Cascading-Failures (Kaskaden-Fehler)

Sub-Agent halluziniert, Lead synthetisiert es als Fakt, Downstream handelt darauf

Verifier-Judge-Agent, grounded Retrieval, verpflichtende Quellenangaben

2

Echo-Chamber

Sub-Agenten verstärken eine falsche Prämisse des Leads

Modelle/Prompts diversifizieren (MoA-Stil), Critic-Rolle einziehen

3

Authority-Confusion

Sub-Agent überschreibt Lead-Anweisungen, Lead verliert Kontrolle

klare Rollenhierarchien, A2A-Task-Verträge mit starken AgentCards

4

Resource-Deadlock

Agent A wartet auf B, B wartet auf Klärung von A

Timeout auf jeder Task, expliziter input-required-Zustand in A2A

5

Prompt-Injection-Amplification

jeder Sub-Agent-Kontext ist eine neue Angriffsfläche

Prompt-Partitionierung, Provenance-basierte Zugriffskontrolle, keine autonome MCP-Installation

6

Context-Fragmentation

Sub-Agenten treffen unvereinbare implizite Entscheidungen

volle Traces teilen bei hoher Kopplung, single-threaded Writes, Entscheidungs-Verträge

7

Cost-Explosion

Token-Verbrauch eskaliert (Orchestrator-Worker ca. 15x ggü. Single-Agent)

Sub-Agent-Token-Caps, QoS-Tiers, Routing auf Single-Agent unter Komplexitätsschwelle

8

Debuggability-Collapse

kein einzelner Trace deckt den Lauf ab

verteiltes Tracing über den A2A-Mesh, Korrelations-IDs in jedem Task und MCP-Call

Drei dieser Klassen – Kaskaden, Deadlock und Kontext-Fragmentierung – sind die eigentlichen Treiber der Fehlerfortpflanzung. Die anderen fünf verstärken sie oder machen sie unsichtbar.

Fehlerfortpflanzung verhindern: Lese- und Schreibpfad trennen

Die wichtigste Architekturentscheidung gegen Fehlerfortpflanzung ist nicht ein Tool, sondern ein Prinzip. Cognition.ai hat es in "Don't Build Multi-Agents" (Juni 2025) und im Update "Multi-Agents: What's Actually Working" (April 2026) auf den Punkt gebracht: Multi-Agent-Fan-out fürs Lesen ist robust, Multi-Agent-Fan-out fürs Schreiben ist fragil. Die Konsequenz ist die Regel der single-threaded Writes:

  • Single-threaded Writes: Viele Agenten lesen, recherchieren, schlagen vor – aber nur ein Agent oder eine Pipeline-Stufe committet. Ein fehlerhafter Lese-Agent liefert nur einen Fragment-Beitrag, den der Lead verwerfen oder neu anfordern kann.
  • Unabhängige Writes mit Reconciliation: Jeder Sub-Agent liefert ein Fragment, der Lead-Agent versöhnt sie zur finalen Ausgabe (das Anthropic-Research-Agent-Muster).
  • Konkurrierende Writes auf geteilten State: Die Todesspirale – vermeiden.

Cognitions Beobachtung dahinter: "Apparent disagreements" zwischen Agenten sind meist Symptome von Kontext-Fragmentierung, nicht echter Uneinigkeit. Wo die Kopplung hoch ist, muss man volle Agent-Traces teilen statt nur einzelner Nachrichten. Für den geteilten externen Speicher (Vektor-Store, Postgres, SAP HANA) gilt in den meisten Produktionssystemen dieselbe Regel: ein Schreiber, viele Leser.

Retries mit Backoff, Timeouts und Circuit-Breaker

Auf der Ebene des einzelnen Agent- oder Tool-Aufrufs greifen die klassischen Resilienz-Muster – übertragen aus der Microservice-Welt:

  • Retries mit exponentiellem Backoff: Transiente Fehler (Rate-Limit, kurzer Tool-Ausfall, Timeout) werden mit wachsenden Wartezeiten wiederholt, idealerweise mit Jitter, um Thundering-Herd-Effekte zu vermeiden. Wichtig: Retries helfen nur gegen transiente, nicht gegen semantische Fehler. Ein erneuter Aufruf eines halluzinierenden Agenten liefert dieselbe Halluzination.
  • Timeouts auf jeder Task: Das A2A-Protokoll definiert einen Task-Lebenszyklus submitted → working → input-required → completed | failed | canceled. Ein Timeout auf jeder Task plus der explizite input-required-Zustand sind die dokumentierte Gegenmaßnahme gegen Resource-Deadlocks. Ohne Timeout kann ein wartender Agent das gesamte System blockieren.
  • Circuit-Breaker: Häufen sich Fehler eines Sub-Agenten oder Tools über einem Schwellwert, öffnet der Breaker und blockiert weitere Aufrufe für ein Zeitfenster. Das stoppt die Kosten-Explosion und gibt Raum für einen Fallback.
  • Fallback-Agents und degradierte Antworten: Fällt ein spezialisierter Agent aus, übernimmt ein einfacherer Fallback-Agent, ein anderes Modell-Tier oder eine bewusst reduzierte Antwort. Besser eine ehrlich eingeschränkte Ausgabe als ein kaskadierter Fehlentscheid.

Die praktische Token-Disziplin aus der Anthropic-Research-Agent-Referenz ergänzt das: Sub-Agent-Token-Spend explizit deckeln (von Bedrock AgentCore, LangGraph und Claude Agent SDK unterstützt), Sub-Agent-Ausgaben in ein typisiertes Schema (Pydantic, JSON-Schema, A2A-Artifact) zwingen und vor der Rückgabe komprimieren – niemals ein volles Sub-Agent-Transkript an den Lead durchreichen. Ein typisiertes Schema ist zugleich eine Fehlergrenze: Was nicht ins Schema passt, wird abgewiesen statt weitergereicht.

Monitoring und Observability: Voraussetzung, kein Add-on

Debuggability-Collapse ist die heimtückischste Fehlerklasse: Geht etwas schief, gibt es keinen einzelnen Trace, der den Lauf erklärt. Observability ist deshalb für kein Multi-Agent-System in Produktion optional. Die Bausteine:

  • Verteiltes Tracing über den gesamten A2A-Mesh, mit einer durchgängigen Korrelations-/Trace-ID in jedem A2A-Task und jedem MCP-Call. OpenTelemetry ist 2026 der querliegende Standard.
  • Werkzeuge (Stand 2026): LangSmith für interne LangGraph-Traces; Galileo oder Arize Phoenix für Multi-Agent-Traces über Vendor-Grenzen; Pydantic Logfire in Python-lastigen Teams; Datadog/Splunk/Grafana für SIEM-Korrelation.
  • Verifier-Judge-Pattern: Ein separater Judge-Agent – oft ein stärkeres Modell als die Worker – bewertet jede Trajektorie an einer kleinen Rubrik: Aufgabe erledigt? Antwort grounded? Agenten on-task geblieben? Budget eingehalten? Das ist die leichteste produktionstaugliche Antwort gegen Kaskaden-Fehler.

Für DACH ist Observability zudem eine Compliance-Frage. BaFin, FMA und FINMA werden 2026 zunehmend auf End-to-End-Traces jedes Agent-Calls, auf Reproduzierbarkeit (Modellversionen in Produktion pinnen, alle Sub-Agent-Prompts, Tool-Calls und AgentCards mitschreiben) und auf Append-only-Audit-Storage drücken. Aufbewahrungsfristen richten sich nach Sektor: BFSI 10 Jahre, Pharma-GxP oft 25–30 Jahre.

Beispiel: Allianz Project Nemo

Project Nemo von Allianz – einem deutschen Versicherer – ist eine der saubersten dokumentierten DACH-relevanten Multi-Agent-Deployments und ein Lehrstück für Fehlerbehandlung. Sieben spezialisierte Agenten (Planner, Cyber, Coverage, Weather, Fraud, Payout, Audit) bearbeiten Lebensmittelverderb-Schäden nach Naturkatastrophen. Der vollständige Sieben-Agenten-Workflow läuft in unter fünf Minuten.

Zwei Fehlerbehandlungs-Prinzipien sind hier baulich verankert:

  • Audit-Agent als Topologie-Element: Ein dedizierter Agent erzeugt eine vollständige Zusammenfassung aller Agent-Entscheidungen und Begründungen – ein kompletter Audit-Trail für Compliance, Qualitätskontrolle und menschliche Prüfung. Auditierbarkeit ist in die Agent-Topologie eingebaut, nicht erst in die Logging-Pipeline.
  • Human-in-the-Loop an der kritischen Stufe: Ein menschlicher Sachbearbeiter prüft die Audit-Zusammenfassung und trifft die finale Auszahlungsentscheidung. Eine kaskadierte Fehlentscheidung wird am teuersten, irreversiblen Punkt abgefangen – als explizite Policy.

Das Ergebnis: 80 % Reduktion der Bearbeitungs- und Abwicklungszeit für berechtigte Schäden unter AUD 500, live in unter 100 Tagen (Australien, Juli 2025). Die Lehre für die Fehlerbehandlung: Modulare Agenten mit klaren Rollen, ein dedizierter Audit-Pfad und ein menschlicher Kontrollpunkt machen ein System, das schnell und beherrschbar ist.

Praxis-Checkliste Fehlerbehandlung

Für Agenturen und B2B-Entscheider

Für Marketing-Agenturen und AI-native Anbieter ist Fehlerbehandlung ein Produktqualitäts-Merkmal, kein Hintergrund-Detail: Eine Newsletter- oder SEO-Audit-Pipeline mit Research-, Outline-, Draft- und Review-Agent steht und fällt mit dem Verifier-Judge und der single-threaded Schreibstufe. Für DACH-B2B-Entscheider gilt: Verlangen Sie von jedem Multi-Agent-Pitch – intern oder vom Vendor – konkrete Antworten auf Timeout-, Fallback-, Verifier- und Trace-Strategie. Ein System ohne Galileo-/LangSmith-Klasse-Observability ist unter Regulator-Anfrage nicht untersuchbar. Wer Fehlerbehandlung von Anfang an in die Agent-Topologie baut – nach dem Allianz-Nemo-Muster mit Audit-Agent und Human-in-the-Loop –, liefert Systeme, die schnell sind und gleichzeitig prüfbar bleiben.

Häufig gestellte Fragen

Was ist der Unterschied zwischen einem Kaskaden-Fehler und Kontext-Fragmentierung?
Ein Kaskaden-Fehler entsteht, wenn ein Sub-Agent einen Fakt halluziniert, der Lead-Agent ihn als Wahrheit in die Antwort synthetisiert und nachgelagerte Agenten darauf aufbauen. Kontext-Fragmentierung – Cognitions zentrale Kritik – beschreibt dagegen, dass parallele Agenten unvereinbare implizite Entscheidungen treffen, weil sie nicht denselben vollständigen Kontext teilen. Beide pflanzen sich fort, brauchen aber unterschiedliche Gegenmittel: Verifier-Judge und Grounding gegen Kaskaden, geteilte Traces und single-threaded Writes gegen Fragmentierung.
Warum reichen einfache Retries in Multi-Agent-Systemen nicht aus?
Retries mit Backoff fangen transiente Fehler ab – Rate-Limits, Timeouts, kurzfristige Tool-Ausfälle. Sie helfen aber nicht gegen semantische Fehler wie Halluzinationen, gegen Kontext-Fragmentierung oder gegen Deadlocks, bei denen sich Agenten gegenseitig blockieren. Ein wiederholter Aufruf eines Agenten, der einen falschen Fakt produziert, liefert nur denselben falschen Fakt. Deshalb braucht es zusätzlich Verifier-Agents, Fallback-Pfade, Circuit-Breaker und Timeouts auf jeder Task.
Wie verhindert man, dass ein einzelner Agent-Fehler das ganze System kippt?
Durch Isolation und definierte Grenzen: jeder Sub-Agent bekommt ein eigenes Token-Budget und einen Timeout; das A2A-Task-Lebenszyklusmodell macht failed-Zustände explizit; ein Circuit-Breaker stoppt wiederholt fehlschlagende Aufrufe; Fallback-Agents oder eine degradierte Antwort übernehmen. Entscheidend ist, dass der Schreibpfad single-threaded bleibt, sodass ein fehlerhafter Lese-Agent nur einen Fragment-Beitrag liefert, den der Lead verwerfen oder neu anfordern kann.
Was bedeutet Circuit-Breaker im Kontext von Agenten?
Ein Circuit-Breaker überträgt das aus der Microservice-Welt bekannte Muster auf Agent-Aufrufe: Häufen sich Fehler eines bestimmten Sub-Agenten oder Tools über einem Schwellwert, öffnet der Breaker und blockiert weitere Aufrufe für ein Zeitfenster, statt immer wieder Tokens und Latenz zu verbrennen. Das verhindert die in der Research dokumentierte Kosten-Explosion und gibt dem System Zeit, auf einen Fallback-Agenten oder eine reduzierte Antwort auszuweichen.
Welche Rolle spielt Human-in-the-Loop bei der Fehlerbehandlung?
Human-in-the-Loop ist die letzte Verteidigungslinie an kritischen, irreversiblen Schritten. Allianz Project Nemo zeigt das Muster: sieben Agenten arbeiten weitgehend autonom, aber ein menschlicher Sachbearbeiter prüft die Audit-Zusammenfassung und trifft die finale Auszahlungsentscheidung. So bleibt eine kaskadierte Fehlentscheidung am teuersten Punkt der Kette abfangbar – ein bewusster Policy-Entscheid, kein technischer Notnagel.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.