1.7Fortgeschritten6 min

Reaktive vs. deliberative Agenten

Blck Alpaca·8. Juni 2026

Definition

Reaktive Agenten reagieren regelbasiert und ohne Planung direkt auf Reize (Reiz-Reaktion), während deliberative Agenten ein Ziel verfolgen, mehrstufig planen und ihren Plan iterativ anpassen. In der AI-Agent-Praxis bezeichnet „reaktiv" einfache, vorhersehbare Pfade (Reifegrade L1–L2), „deliberativ" hingegen LLM-gesteuerte, dynamische Agenten mit echtem Planungs-Loop (L4–L5).

Auf einen Blick

✓Reaktive Agenten folgen festen Wenn-dann-Regeln ohne eigene Planung; deliberative Agenten setzen sich Teilziele, planen mehrstufig und passen ihren Plan anhand von Beobachtungen iterativ an.
✓Die Achse reaktiv–deliberativ lässt sich an den Reifegraden festmachen: L1–L2 sind überwiegend reaktiv, L3 mischt beides in festen Pipelines, L4–L5 sind voll deliberativ.
✓Technische Grundlage des deliberativen Verhaltens ist der Reasoning-Loop Perceive→Reason→Act→Observe, konzeptionell auf ReAct (Yao et al. 2022) zurückgehend.
✓Faustregel: Ist der Lösungspfad vorab planbar, genügt ein reaktiver/deterministischer Ansatz; ist er es nicht, lohnt ein deliberativer Agent.
✓Deliberative Autonomie erhöht Flexibilität, aber auch Kosten (Token/Reasoning), Wartungsaufwand und Compliance-Anforderungen. Guardrails und Human-in-the-Loop sind Pflicht.
✓Praktisch werden Architekturen meist hybrid gebaut: deliberativer Kern für die Planung, reaktive Komponenten für klar definierte, wiederkehrende Schritte.

Reaktive Agenten reagieren regelbasiert und ohne Planung direkt auf Reize (Reiz-Reaktion), während deliberative Agenten ein Ziel verfolgen, mehrstufig planen und ihren Plan iterativ anpassen. In der AI-Agent-Praxis bezeichnet „reaktiv" einfache, vorhersehbare Pfade (Reifegrade L1–L2), „deliberativ" hingegen LLM-gesteuerte, dynamische Agenten mit echtem Planungs-Loop (L4–L5).

Die Unterscheidung stammt ursprünglich aus der klassischen Agententheorie, ist aber für die heutige Bewertung von AI Agents zentral: Sie hilft Entscheidern, den passenden Architekturtyp zur Aufgabe zu wählen, und „Agent washing" zu erkennen, bei dem reaktive Systeme als autonome Agenten vermarktet werden.

Die Kernunterschiede auf einen Blick

Reaktiv bedeutet: feste Wenn-dann-Logik, keine interne Repräsentation von Zielen oder Plänen, kein Nachdenken über künftige Schritte. Das System bildet einen Reiz direkt auf eine Reaktion ab.
Deliberativ bedeutet: Das System bildet ein Ziel ab, zerlegt es in Teilschritte (Planner), führt diese über Tool-Calls aus (Executor) und beobachtet die Ergebnisse, um den Plan anzupassen.
Entscheidungskriterium: Lässt sich der Lösungspfad vorab vollständig festlegen, ist ein reaktiver/deterministischer Ansatz robuster und günstiger. Ist der Pfad nicht vorab planbar, lohnt sich erst die deliberative Autonomie.

Ein konkretes Beispiel

Stell dir einen Support-Use-Case vor. Ein reaktiver Agent (L1) ist ein FAQ-Bot: Erkennt er das Schlüsselwort „Rechnung", liefert er die hinterlegte Antwort, immer dieselbe, unabhängig vom Kontext. Erweitert um einen einzelnen Tool-Call (L2), schlägt er etwa den Bestellstatus über eine API nach. Beide Varianten folgen einem fest verdrahteten Pfad.

Ein deliberativer Agent (L4) erhält stattdessen das Ziel „Kläre das Anliegen des Kunden vollständig". Er liest die Anfrage, entscheidet selbst, dass er zuerst die Bestellhistorie braucht, ruft dann das Retoure-System auf, stellt fest, dass eine Gutschrift nötig ist, prüft die Berechtigung und formuliert eine Lösung, wobei er Reihenfolge und Werkzeugwahl dynamisch bestimmt. Tritt ein unerwartetes Ergebnis auf (z. B. fehlende Berechtigung), passt er den Plan an, statt abzubrechen.

Einordnung in die Reifegrade L1–L5

Die Achse reaktiv–deliberativ verläuft quer durch das gängige Reifegradmodell:

Reifegrad	Typ	Charakteristik	Beispiel
L1 Reflex	rein reaktiv	regelbasiert, kein LLM nötig	FAQ-Bot, Thermostat
L2 Augmented LLM	überwiegend reaktiv	LLM + ein Tool-Call, reaktiv	ChatGPT mit Web-Search
L3 Workflow-Agent	hybrid	LLM in deterministischer Pipeline (Prompt-Chaining, Routing)	strukturierter Verarbeitungs-Workflow
L4 Autonomer Agent	voll deliberativ	LLM steuert Reihenfolge + Tool-Wahl dynamisch, voller Loop	Claude Code, Deep Research
L5 Multi-Agent-System	deliberativ, koordiniert	mehrere autonome Agenten koordinieren via A2A	Orchestrator + Spezialisten

Wichtig: L3 ist die Mischzone. Hier steckt zwar ein LLM in der Pipeline, doch die Abfolge ist vom Entwickler vorgegeben: Das System „plant" nicht selbst, sondern füllt deterministische Schritte. Echtes deliberatives Verhalten beginnt bei L4, wo der Agent die Reihenfolge der Schritte und die Tool-Wahl selbst bestimmt.

Wie deliberative Agenten technisch „nachdenken"

Das deliberative Verhalten beruht auf dem Reasoning-Loop Perceive → Reason → Act → Observe, der iterativ durchlaufen wird, bis das Ziel erreicht oder abgebrochen wird. Konzeptionelle Grundlage ist das ReAct-Muster (Yao et al. 2022, arXiv:2210.03629), das Reasoning und Acting im selben LLM-Loop verbindet: Das Modell denkt einen Schritt voraus, handelt über ein Tool, liest das Ergebnis und schließt daraus auf den nächsten Schritt.

Fünf Komponenten machen das möglich: der LLM-Core (Reasoning), das Memory (Kurzzeit = Context, Langzeit = Vektor/RAG/Files), die Tools (Function-Calls, APIs, MCP-Server, Browser, Code-Sandbox), der Planner (Ziel → Teilschritte) und der Executor (Tool-Calls, Turns, Loop-Limits, Guardrails). Reaktive Agenten benötigen davon nur einen Bruchteil, typischerweise eine Regelbasis und allenfalls einen einzelnen Konnektor.

Vor- und Nachteile abwägen

Deliberative Autonomie ist kein Selbstzweck. Sie erkauft Flexibilität mit höheren Kosten und höherem Betriebsaufwand:

Kosten: Mehrstufiges Reasoning und viele Tool-Calls treiben den Token-Verbrauch. Routing (einfache Anfragen an kleinere Modelle) und Caching dämpfen das, eliminieren es aber nicht.
Wartung: Reaktive Workflows sind günstig zu warten; deliberative Agenten brauchen Observability, Loop-Limits und kontinuierliches Monitoring, weil ihr Verhalten nicht deterministisch ist.
Compliance: Höhere Autonomie bedeutet höhere Anforderungen, etwa EU AI Act (Transparenzpflichten Art. 50 ab 02.08.2026; KI-Kompetenz nach Art. 4 seit 02.02.2025), DSGVO-Themen (Art. 22/28/35) und Mitbestimmung (BetrVG §87 in DE, ArbVG §96 in AT). Diese Angaben sind informational und keine Rechtsberatung.

Dass dieser Aufwand real ist, zeigen die Marktdaten: Laut Gartner (Juni 2025) werden voraussichtlich über 40 % der agentischen KI-Projekte bis Ende 2027 abgebrochenhäufig, weil ein deliberativer Agent gewählt wurde, wo ein reaktiver oder Workflow-Ansatz genügt hätte. Gleichzeitig skalieren laut McKinsey State of AI 2025 erst 23 % der Unternehmen mindestens einen agentischen Use Case, 39 % experimentieren.

Wann welcher Typ: die Entscheidungsregel

Die pragmatische Faustregel lautet: Ein deliberativer Agent lohnt sich erst, wenn der Lösungspfad nicht vorab planbar ist.

Reaktiv/Workflow wählen, wenn die Schritte feststehen, die Eingaben strukturiert sind und Determinismus erwünscht ist (z. B. Datenvalidierung, Routing, klar definierte Standardprozesse). Reaktive Systeme sind günstiger, vorhersehbarer und leichter zu auditieren.
Deliberativ wählen, wenn die Aufgabe offen ist, die nötigen Schritte vom Kontext abhängen und sich der Pfad erst zur Laufzeit ergibt (z. B. Recherche, mehrstufige Fehlerdiagnose, komplexe Fallbearbeitung).

In der Praxis sind die meisten produktiven Systeme hybrid: Ein deliberativer Kern übernimmt Planung und dynamische Entscheidungen, während reaktive Komponenten klar definierte, wiederkehrende Teilschritte zuverlässig und kostengünstig abarbeiten. So kombiniert man die Robustheit reaktiver Logik mit der Flexibilität deliberativer Planung und vermeidet dabei, teure Autonomie dort einzusetzen, wo sie keinen Mehrwert bringt.

Häufig gestellte Fragen

Was ist der Hauptunterschied zwischen reaktiven und deliberativen Agenten?

Reaktive Agenten bilden einen Reiz über feste Regeln direkt auf eine Reaktion ab, ohne zu planen. Deliberative Agenten verfolgen ein Ziel, zerlegen es in Teilschritte, führen diese aus und passen den Plan anhand der Ergebnisse iterativ an.

Welchem Reifegrad entsprechen reaktive bzw. deliberative Agenten?

Reaktive Agenten liegen überwiegend bei L1 (Reflex/regelbasiert) und L2 (Augmented LLM mit einem Tool-Call). L3 ist eine hybride Mischzone mit deterministischer Pipeline. Voll deliberatives Verhalten beginnt bei L4 (autonomer Agent) und L5 (Multi-Agent-System).

Ist ein L3-Workflow-Agent reaktiv oder deliberativ?

L3 ist hybrid. Er nutzt ein LLM, aber die Abfolge der Schritte ist vom Entwickler vorgegeben (Prompt-Chaining, Routing). Das System plant nicht selbst die Reihenfolge, denn echtes deliberatives Planen beginnt erst bei L4.

Wann sollte ich einen reaktiven statt eines deliberativen Agenten einsetzen?

Wenn der Lösungspfad vorab planbar ist, die Eingaben strukturiert sind und Determinismus erwünscht ist. Reaktive bzw. Workflow-Ansätze sind dann günstiger, vorhersehbarer und leichter zu auditieren als ein deliberativer Agent.

Warum sind deliberative Agenten teurer im Betrieb?

Mehrstufiges Reasoning und viele dynamische Tool-Calls erhöhen den Token-Verbrauch, und das nichtdeterministische Verhalten erfordert Observability, Loop-Limits und laufendes Monitoring. Routing und Caching dämpfen die Kosten, beseitigen sie aber nicht.

Was hat der ReAct-Ansatz mit deliberativen Agenten zu tun?

ReAct (Yao et al. 2022, arXiv:2210.03629) verbindet Reasoning und Acting im selben LLM-Loop und ist die konzeptionelle Grundlage des deliberativen Verhaltens. Es realisiert den iterativen Loop Perceive→Reason→Act→Observe, mit dem ein Agent plant, handelt und seinen Plan anpasst.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← Reasoning und Planning bei AI Agents NächsterTool Calling: Wie AI Agents Werkzeuge nutzen →