5.6Experte7 min

Multi-Agent Debate: Konsensbildung durch Diskussion

Blck Alpaca·9. Juni 2026

Definition

Multi-Agent Debate ist ein Architekturmuster, bei dem mehrere LLM-Agenten unabhängig Lösungen vorschlagen, die Vorschläge der anderen kritisieren und über mehrere Runden zu einer gemeinsamen, qualitativ besseren Antwort konvergieren. Ein Moderator- oder Kritik-Agent steuert die Diskussion und entscheidet final. Das Muster erhöht Reasoning-Qualität und Faktentreue, zum Preis höherer Kosten und Latenz.

Auf einen Blick

✓Multi-Agent Debate gehört in der Anthropic-Taxonomie (Building Effective Agents, Dezember 2024) zum Muster Evaluator-Optimizer (Critic-Generator): Ein Generator schlägt vor, ein Kritiker fordert Revision, oder mehrere Agenten debattieren und ein Moderator entscheidet.
✓Es erhöht Qualität vor allem bei anspruchsvollem Reasoning und Faktentreue, weil sich Agenten gegenseitig auf Fehler hinweisen statt einen Erstentwurf zu zementieren.
✓Der Token-Kostenfaktor liegt laut Research bei rund 3-6x gegenüber einem Einzel-Agenten; die Latenz steigt, da Runden sequenziell laufen. Nur für hochwertige Aufgaben sinnvoll.
✓Mixture-of-Agents (MoA, 4-8x Kosten) ist ein verwandtes Ensemble-Verfahren ohne echte Diskussion. Debate fügt explizite, iterative Kritik hinzu.
✓Typische Fehlermodi: Mode Collapse (Kritiker stimmt immer zu) und Echo-Chamber (Agenten verstärken eine falsche Prämisse). Gegenmittel: diverse Modelle/Prompts und ein dedizierter Verifier mit Pflicht-Zitationen.

Multi-Agent Debate ist ein Architekturmuster, bei dem mehrere LLM-Agenten unabhängig Lösungen vorschlagen, die Vorschläge der anderen kritisieren und über mehrere Runden zu einer gemeinsamen, qualitativ besseren Antwort konvergieren. Ein Moderator- oder Kritik-Agent steuert die Diskussion und entscheidet final. Das Muster erhöht Reasoning-Qualität und Faktentreue, zum Preis deutlich höherer Kosten und Latenz. Es ist damit ein Werkzeug für hochwertige, fehlersensible Aufgaben, nicht für Routinevolumen.

Was es leistet: Mehrere Agenten widersprechen sich produktiv, decken Fehler und blinde Flecken auf und revidieren ihre Antworten, statt einen Erstentwurf zu zementieren.
Was es kostet: Laut Research rund 3-6x mehr Tokens als ein Einzel-Agent, plus hohe Latenz, weil Runden sequenziell ablaufen.
Wann es sich lohnt: Bei anspruchsvollem Reasoning und hoher Faktentreue-Anforderung (Recht, Wissenschaft, Regulatorik, Claim-Prüfung); nicht bei Routine-Hochvolumen.

Einordnung: Debate als Evaluator-Optimizer-Muster

In der etablierten Anthropic-Taxonomie aus Building Effective Agents (Dezember 2024, Schluntz & Zhang) zählt Multi-Agent Debate zum Baustein Evaluator-Optimizer, oft auch Critic-Generator genannt. Die Grundform ist simpel: Ein Generator-Agent schlägt eine Lösung vor, ein Kritiker- oder Judge-Agent bewertet sie und fordert eine Revision. In der erweiterten Form debattieren mehrere gleichrangige Agenten adversarisch, und ein Moderator entscheidet am Ende.

Der entscheidende Mechanismus ist die explizite, iterative Kritik. Anders als bei einem einzelnen Agenten, der seine erste plausible Antwort liefert, wird hier jede Antwort einem Gegenüber ausgesetzt, das aktiv nach Schwächen sucht. Die zugrunde liegende Multi-Agent-Debate-Forschung von DeepMind und Meta aus 2024 unterfüttert diesen Ansatz: Eine strukturierte Auseinandersetzung kann Reasoning-Fehler und Halluzinationen reduzieren, weil das, was ein Agent übersieht, ein anderer abfängt.

Wichtig für die Einordnung im DACH-B2B-Kontext: Debate ist eines von sieben Mustern in dieser Taxonomie. Die meisten produktiven „Agenten" sind 2026 nach wie vor entweder ein einzelner LLM mit Tools (Augmented LLM) oder ein einzelner Agent in einer Tool-Schleife (Autonomous Agent). Debate ist eine bewusste Eskalation, kein Default.

Wie eine Debatte abläuft

Ein typischer Multi-Agent-Debate-Lauf folgt diesem Schema:

Vorschlagsrunde: Zwei oder mehr Agenten beantworten dieselbe Frage unabhängig, idealerweise mit unterschiedlichen Prompts oder Modellen, um Vielfalt zu erzeugen.
Kritikrunde: Jeder Agent erhält die Vorschläge der anderen und benennt konkret Schwächen, Faktenfehler oder logische Lücken.
Revisionsrunde: Jeder Agent überarbeitet seine Antwort im Licht der Kritik. Dies kann über mehrere Iterationen laufen.
Konsens/Entscheidung: Die Agenten konvergieren auf eine gemeinsame Antwort, oder ein Moderator-/Judge-Agent wählt bzw. synthetisiert die finale Lösung.

Der Wert entsteht in den Runden zwei und drei. Eine Debatte, in der niemand wirklich widerspricht, ist nur teures Self-Consistency.

Verhältnis zu Self-Consistency, Ensembling und Mixture-of-Agents

Multi-Agent Debate wird oft mit verwandten Verfahren verwechselt. Die Unterschiede sind architektonisch bedeutsam und kostenrelevant.

Self-Consistency erzeugt mehrere unabhängige Antwortpfade desselben Modells und nimmt die häufigste Antwort per Mehrheit. Die Läufe wissen nichts voneinander, es gibt keine Diskussion, nur Aggregation durch Abstimmung.

Mixture-of-Agents (MoA) ist ein paralleles Ensemble über mehrere LLMs mit einem Aggregator, der die Antworten synthetisiert. Die Referenzarbeit von Together AI (Wang et al., arXiv:2406.04692, ICLR 2025 Spotlight) zeigt, dass eine geschichtete MoA-Konfiguration aus Open-Source-Modellen GPT-4 Omni auf AlpacaEval 2.0 übertraf (65,1 % vs. 57,5 %). MoA aggregiert jedoch nur, die Modelle kritisieren einander nicht iterativ.

Multi-Agent Debate geht über beide hinaus: Die Agenten sehen die Vorschläge der anderen, kritisieren sie explizit und revidieren über mehrere Runden. Es ist diskursiv und iterativ, nicht nur abstimmend oder aggregierend.

Verfahren	Mechanismus	Agenten sehen sich gegenseitig?	Iterativ?	Token-Kostenfaktor (vs. Einzel-Agent)	Latenz
Self-Consistency	Mehrheitsvotum über N Pfade	Nein	Nein	~N× (je nach Pfadzahl)	Mittel (parallelisierbar)
Mixture-of-Agents (MoA)	Paralleles Ensemble + Aggregator	Nein (nur Aggregator)	Nein	4-8×	Hoch
Multi-Agent Debate	Vorschlag, Kritik, Revision	Ja	Ja	3-6×	Hoch (sequenziell)
Einzel-Agent + Tools	Ein LLM, eine Antwort	n/a	n/a	1×	Niedrig

Die Kostenfaktoren für MoA (4-8×) und Debate (3-6×) stammen aus der zugrunde liegenden Research (Stand 2026); der ~N×-Faktor für Self-Consistency ergibt sich unmittelbar aus der Zahl der gesampelten Pfade. Für eine Entscheidung gilt: Self-Consistency ist die günstigste Qualitätsverbesserung, MoA bringt Modellvielfalt, und Debate ist das einzige Verfahren mit echter wechselseitiger Korrektur, dafür auch das mit der höchsten Latenz, weil die Runden aufeinander aufbauen müssen.

Wann Debate die Qualität wirklich erhöht

Multi-Agent Debate ist ein quality-bound, kein latency-bound Muster. Die Research nennt als geeignete Einsatzfelder ausdrücklich:

Hochsensible Reasoning-Aufgaben, bei denen Qualität wichtiger ist als Kosten
Juristische Memo-Erstellung
Wissenschaftliches Schreiben und regulatorische Eingaben
Prüfung von Marketing-Claims auf Korrektheit und Compliance

Der gemeinsame Nenner: Eine falsche Antwort ist teuer, und die Aufgabe profitiert davon, dass ein zweiter Standpunkt den ersten herausfordert. Faktentreue verbessert sich, weil ein Kritiker-Agent unbelegte Behauptungen markieren kann, bevor sie in die Endantwort wandern.

Wann man darauf verzichten sollte: Bei routinemäßigen Hochvolumen-Workflows. Wenn pro Anfrage drei bis sechs Mal so viele Tokens anfallen und die Antwortzeit sich vervielfacht, ist das für Standard-Support, einfache Klassifikation oder Massengenerierung nicht vertretbar.

Fehlermodi und ihre Gegenmittel

Drei dokumentierte Risiken sind für die Praxis entscheidend:

Mode Collapse: Der Kritiker stimmt reflexhaft zu, statt echte Schwächen zu benennen. Die Debatte degeneriert zu teurem Echo.
Echo-Chamber: Die Agenten verstärken eine falsche Prämisse, etwa aus einem fehlerhaften Lead-Prompt, gegenseitig. Gegenmittel laut Research: Sub-Agenten mit unterschiedlichen Modellen oder Prompts diversifizieren (MoA-Stil) und eine explizite Kritiker-Rolle einziehen.
Reward Hacking / Kostenexplosion: Wenn der Kritiker zugleich Trainingsquelle ist, kann er sich selbst belohnen; und ohne Rundenlimit eskalieren die Tokenkosten.

Begleitend gilt der allgemeine Multi-Agent-Fehlermodus Cascading-Failures: Halluziniert ein Agent einen Fakt, kann der Moderator ihn in die finale Antwort übernehmen. Das wirksamste Gegenmittel laut Research ist ein dedizierter Verifier-/Judge-Agent mit gegroundetem Retrieval und Pflicht-Zitationen.

Beispiel-Setup: Claim-Prüfung mit drei Agenten

Ein konkretes, realistisches Setup für eine Agentur, die einen Marketing-Claim auf faktische Haltbarkeit prüfen will:

```
Frage: "Ist der Claim 'führende Lösung im DACH-Raum' belegbar?"

Runde 1: Vorschlag:
Agent A (Modell 1, Prompt "optimistisch"): Entwurf-Bewertung A
Agent B (Modell 2, Prompt "skeptisch"): Entwurf-Bewertung B

Runde 2: Kritik:
Agent A kritisiert B (fehlende Quellen?)
Agent B kritisiert A (unbelegte Superlative?)

Runde 3: Revision:
Agent A und Agent B überarbeiten auf Basis der Kritik

Abschluss: Verifier/Moderator (Modell 3):

prüft jede Behauptung gegen Retrieval (Pflicht-Zitation)
synthetisiert finale, belegte Einschätzung
```

Rechenbeispiel zur Größenordnung: Verbraucht ein Einzel-Agent für diese Aufgabe rund 4.000 Tokens, liegt eine dreirundige Debatte mit drei Agenten plausibel im Bereich des 3-6-fachen, also grob 12.000 bis 24.000 Tokens (Stand 2026, Schätzung auf Basis des in der Research genannten Kostenfaktors). Bei einem einzelnen, hochwertigen Claim ist das vertretbar; bei 10.000 Claims pro Tag nicht. Genau diese Schwelle, „lohnt sich der Mehraufwand pro Vorgang?", ist die eigentliche Architekturentscheidung.

Umsetzbar ist das Muster ohne Eigenbau: LangGraph bildet Evaluator-Optimizer-Schleifen mit zustandsbehaftetem State ab, AutoGen unterstützt Group Chat mit Turn-Taking, und beide stehen unter MIT-Lizenz (Stand 2026).

Für Agenturen und B2B

Für Marketing-Agenturen und DACH-B2B-Entscheider ist die Botschaft pragmatisch: Multi-Agent Debate ist kein Standard-Hebel für jeden Workflow, sondern ein gezieltes Instrument für hochwertige, fehlersensible Outputs. Claim- und Compliance-Prüfung, fundierte Fachtexte, regulatorische Entwürfe. Wer es einsetzt, sollte den 3-6-fachen Tokenaufwand und die höhere Latenz bewusst gegen das Fehlerrisiko abwägen und immer mit diversen Modellen plus Verifier arbeiten, um Echo-Chamber und Mode Collapse zu vermeiden. Blck Alpaca konzipiert solche Agenten-Topologien so, dass die Diskussionstiefe nur dort anfällt, wo sie sich rechnet, mit klaren Kostengrenzen pro Vorgang und nachvollziehbaren Quellen für jede Aussage.

Häufig gestellte Fragen

Wann lohnt sich Multi-Agent Debate gegenüber einem einzelnen Agenten?

Bei Aufgaben mit hohem Reasoning-Anspruch und hoher Fehlerkostenrelevanz, etwa juristische Memos, wissenschaftliche Texte, regulatorische Eingaben oder die Prüfung von Marketing-Claims. Für routinemäßige Hochvolumen-Workflows ist der 3-6-fache Token-Aufwand und die zusätzliche Latenz nicht gerechtfertigt; dort bleibt ein einzelner, gut konzipierter Agent mit Tools die richtige Wahl.

Worin unterscheidet sich Multi-Agent Debate von Self-Consistency und Mixture-of-Agents?

Self-Consistency erzeugt mehrere unabhängige Antworten und nimmt per Mehrheit die häufigste, ohne dass die Läufe voneinander wissen. Mixture-of-Agents (MoA) lässt mehrere Modelle parallel antworten und aggregiert die Ergebnisse über einen Aggregator. Multi-Agent Debate geht weiter: Die Agenten sehen und kritisieren die Vorschläge der anderen und revidieren über mehrere Runden. Es ist iterativ und diskursiv statt nur aggregierend.

Was sind die wichtigsten Fehlermodi und wie verhindert man sie?

Drei Hauptrisiken: Mode Collapse (der Kritiker stimmt reflexhaft zu), Echo-Chamber (Agenten verstärken eine falsche Ausgangsannahme) und Kostenexplosion. Gegenmittel laut Research: Sub-Agenten mit verschiedenen Modellen oder Prompts diversifizieren (MoA-Stil), eine explizite Kritiker-Rolle einziehen, einen Verifier-/Judge-Agenten mit gegroundetem Retrieval und Pflicht-Zitationen ergänzen sowie Runden- und Token-Limits setzen.

Wie hoch sind Kosten und Latenz konkret?

Die Research-Datei nennt für das Debate/Critic-Generator-Muster einen Token-Kostenfaktor von rund 3-6x gegenüber einem Einzel-Agenten, für Mixture-of-Agents 4-8x. Die Latenz ist hoch, weil die Diskussionsrunden überwiegend sequenziell ablaufen müssen. Beide Faktoren machen Debate zu einem Muster für quality-bound statt latency-bound Aufgaben (Stand 2026).

Ist Multi-Agent Debate produktionsreif?

Laut Research-Bewertung: ja, für hochwertige Aufgaben. Das Muster stützt sich auf Multi-Agent-Debate-Forschung von DeepMind und Meta aus 2024 und ist in Frameworks wie LangGraph (Evaluator-Optimizer) und AutoGen (Group Chat mit Turn-Taking) umsetzbar. Für regulierte oder hochvolumige Routine-Workflows bleibt es zu teuer und zu langsam.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← Shared Memory vs. Message Passing in Multi-Agent-Systemen NächsterKonsensus-Mechanismen für autonome Agenten-Teams →