1.6Fortgeschritten7 min

Reasoning und Planning bei AI Agents

Blck Alpaca·8. Juni 2026

Definition

Reasoning und Planning bei AI Agents beschreiben, wie ein KI-Agent denkt und handelt: Er durchläuft iterativ den Loop Perceive → Reason → Act → Observe, nimmt seine Umgebung wahr, schlussfolgert mit dem LLM, wählt eigenständig einen nächsten Schritt oder ein Tool, führt ihn aus, beobachtet das Ergebnis und passt seinen Plan an, bis das Ziel erreicht ist. Konzeptionelle Grundlage ist das ReAct-Muster (Yao et al. 2022), das Reasoning und Acting im selben LLM-Loop verbindet. Weil die LLM-Ausgabe probabilistisch ist, sind Tracing und Evals zwingend.

Auf einen Blick

✓Der Reasoning-Loop folgt dem Muster Perceive → Reason → Act → Observe und wird iterativ durchlaufen, bis das Ziel erreicht oder abgebrochen wird; nicht ein fester Code, sondern das LLM entscheidet dynamisch den nächsten Schritt.
✓Konzeptbasis ist ReAct (Yao et al. 2022, arXiv:2210.03629): Reasoning und Acting laufen im selben LLM-Loop, sodass der Agent abwechselnd nachdenkt und handelt statt nur zu antworten.
✓Planning zerlegt das Ziel in Teilschritte, entweder implizit im LLM oder explizit als Graph (z. B. LangGraph); der Executor managt Tool-Calls, Turns, Loop-Limits und Guardrails.
✓Weil die LLM-Ausgabe probabilistisch ist, ist der Output nicht deterministisch reproduzierbar; Agenten als deterministisch zu behandeln ist ein typischer Pitfall.
✓Ohne Observability, Tracing und Evals lassen sich Fehlentscheidungen, Token-Kosten-Explosionen und Endlosschleifen weder erkennen noch beheben. Fehlende Observability zählt zu den häufigsten Projektfehlern.
✓Loop-Limits, Token-Budgets und Human-in-the-Loop-Punkte sichern den Reasoning-Loop gegen Endlosschleifen und irreversible Fehlhandlungen ab.

Definition: Wie denken und planen AI Agents?

Reasoning und Planning bei AI Agents beschreiben, wie ein KI-Agent denkt und handelt: Er durchläuft iterativ den Loop Perceive → Reason → Act → ObserveEr nimmt seine Umgebung wahr, schlussfolgert mit dem LLM, wählt eigenständig einen nächsten Schritt oder ein Tool, führt ihn aus, beobachtet das Ergebnis und passt seinen Plan an, bis das Ziel erreicht ist. Genau diese dynamische Steuerung durch das LLM, und nicht ein fest verdrahteter Ablauf, unterscheidet einen Agenten von klassischer Automatisierung.

Die drei Kernantworten vorweg:

Reasoning ist die Schlussfolgerungsfähigkeit des LLM-Core: Welcher Schritt oder welches Tool ist als Nächstes sinnvoll? Hier wird entschieden, ob überhaupt ein Tool genutzt wird, und welches.
Planning zerlegt ein Ziel in Teilschritte. Das kann implizit im LLM ablaufen oder explizit als Graph modelliert sein. Der Plan ist dabei kein einmaliger Fahrplan, sondern wird im Loop iterativ angepasst.
Probabilistik bedeutet: Der Output ist nicht deterministisch reproduzierbar. Derselbe Input kann zu unterschiedlichen Pfaden führen, weshalb Tracing und Evals zwingend dazugehören.

Der Reasoning-Loop: Perceive → Reason → Act → Observe

Das Herzstück jedes Agenten ist ein iterativer Schleifenmechanismus. Konzeptionell geht er auf das ReAct-Muster (Yao et al. 2022, arXiv:2210.03629) zurück, das Reasoning und Acting im selben LLM-Loop verbindet: Der Agent denkt nicht nur nach und antwortet, sondern wechselt zwischen Überlegung und Handlung.

Der Loop läuft in vier Schritten:

PerceiveDer Agent nimmt Input und Ziel, den aktuellen Context und sein Memory wahr.
ReasonDas LLM plant: Welches Tool oder welcher Schritt ist als Nächstes sinnvoll?
ActDer Agent führt die Aktion aus (Tool-Call, API-Aufruf, Code-Ausführung).
ObserveDer Agent liest das Ergebnis aus und schreibt es ins Memory.

Danach prüft der Agent: Ist das Ziel erreicht? Wenn nicht, beginnt der Loop erneut bei Perceive. Sicherheitsmechanismen wie Loop-Limits, Token-Budgets und Human-in-the-Loop-Punkte verhindern dabei endloses Schleifen oder irreversible Fehlhandlungen.

Ein konkretes Beispiel

Angenommen, ein Agent soll die Frage beantworten: „Wie hoch war der KI-Nutzungsanteil deutscher Unternehmen 2024 im Vergleich zu heute?"

Reason: Das LLM erkennt, dass es zwei Werte aus einer verlässlichen Quelle braucht und keinen internen Faktenstand zitieren sollte. Es plant einen Such-Schritt.
Act: Es ruft ein Such-Tool auf (web_search mit der Anfrage „Bitkom KI-Nutzung deutsche Unternehmen 2024").
Observe: Es liest das Ergebnis, etwa, dass laut Bitkom 2024 erst 17 % der Unternehmen ab 20 Mitarbeitenden KI aktiv nutzten, 2026 hingegen 41 %.
Reason (Iteration 2): Das LLM stellt fest, dass beide Werte vorliegen, und formuliert die Antwort statt eines weiteren Tool-Calls.

Ein Chatbot hätte die Frage in einem Schritt aus seinem Trainingswissen beantwortetmöglicherweise mit veralteten oder erfundenen Zahlen. Der Agent hingegen plant den Pfad dynamisch und beendet den Loop erst, wenn das Ziel erreicht ist.

Implizites vs. explizites Planning

Planning kann auf zwei Arten realisiert werdendie Wahl bestimmt, wie kontrollierbar und nachvollziehbar der Agent ist.

Aspekt	Implizites Planning	Explizites Planning
Wo entsteht der Plan?	Im LLM-Core selbst, Schritt für Schritt	Als vordefinierter Graph / State-Machine
Flexibilität	Hoch, Reihenfolge frei wählbar	Eingeschränkt durch Graph-Struktur
Kontrollierbarkeit	Geringer, schwerer vorhersehbar	Hoch, deterministischere Pfade
Typische Reifegrade	L4 (Autonomer Agent)	L3 (Workflow-Agent)
Beispiel-Framework	ReAct-Loop im LLM	LangGraph (Graph-/State-Machine)
Risiko	Token-Kosten-Explosion, Abdriften	Starrheit, wenn Pfad nicht vorab planbar

In der Praxis liegt der „Sweet Spot" für produktive B2B-Anwendungen zwischen L3 und L4: genug Autonomie, damit das LLM den Pfad dynamisch wählt, aber genug Struktur, um den Ablauf governen zu können. Der Planner zerlegt das Ziel, der Executor führt die Tool-Calls aus, managt die Turns sowie Loop-Limits und setzt die Guardrails durch.

Warum der Output probabilistisch ist und was das bedeutet

Ein Agent baut auf einem (Large) Language Model auf, und LLMs erzeugen ihre Ausgabe probabilistisch: Sie sagen das jeweils nächste Token mit einer Wahrscheinlichkeit voraus. Daraus folgt eine zentrale, oft unterschätzte Konsequenz: Derselbe Input kann zu unterschiedlichen Reasoning-Pfaden und Ergebnissen führen. Ein Agent ist keine deterministische Pipeline.

Genau hier liegt einer der häufigsten Pitfalls: Agenten als deterministisch zu behandeln. Wer von einem Agenten die reproduzierbare Verlässlichkeit eines klassischen Skripts erwartet, plant falsch und wird von Abweichungen, Fehlentscheidungen und schwankenden Kosten überrascht.

Die praktische Antwort darauf ist zweigeteilt:

Tracing macht jeden Schritt des Loops sichtbar: Welche Reason-Entscheidung wurde getroffen, welches Tool aufgerufen, welches Observe-Ergebnis verarbeitet? Ohne diese Nachvollziehbarkeit bleibt der Agent eine Blackbox, und Fehlerursachen sind nicht auffindbar.
Evals prüfen das Verhalten systematisch gegen erwartete Ergebnisse. Statt sich auf Outputs zu verlassen, misst man die Erfolgsquote über viele Durchläufe und erkennt Regressionen, bevor sie produktiv schaden.

Mehrere führende Frameworks adressieren das direkt: Das OpenAI Agents SDK etwa liefert Tracing als festen Bestandteil mit. Observability ist damit kein Add-on, sondern eine Grundvoraussetzung für produktive Agenten: fehlende Observability zählt zu den klassischen Projektfehlern.

Belegte Fakten zum Reifegrad

Dass Reasoning- und Planning-Architekturen noch jung und fehleranfällig sind, zeigt der Marktstand:

Laut McKinsey State of AI 2025 skalieren erst 23 % der Unternehmen mindestens einen agentischen Use Case, weitere 39 % experimentieren, in keiner einzelnen Funktion liegt der Anteil skalierter Agenten jedoch über 10 %.
Gartner (Juni 2025) prognostiziert, dass über 40 % der agentischen KI-Projekte bis Ende 2027 abgebrochen werden, häufig wegen unterschätzter Komplexität und Kosten.

Beide Zahlen unterstreichen, warum belastbares Reasoning, kontrolliertes Planning und durchgängige Observability über Erfolg oder „Pilot Purgatory" entscheiden.

Praxis: Reasoning-Loops absichern

Aus der Funktionsweise ergeben sich konkrete Leitplanken für den produktiven Einsatz:

Loop-Limits und Token-Budgets setzen, um Endlosschleifen und Token-Kosten-Explosionen zu verhindern.
Human-in-the-Loop für alle irreversiblen Aktionen vorsehen: Der Agent plant, der Mensch gibt frei.
Tracing von Tag 1 einbauen, nicht nachträglich. Nur so sind probabilistische Fehlentscheidungen überhaupt diagnostizierbar.
Evals als laufenden Test gegen Outcome-KPIs etablieren, statt Erfolg nur punktuell zu beurteilen.
Den Loop nur dort einsetzen, wo der Pfad nicht vorab planbar ist. Lässt sich der Ablauf vollständig modellieren, sind eine Workflow-Automation oder ein Copilot günstiger und robuster.

So wird aus einem theoretisch mächtigen, aber probabilistischen Reasoning-Loop ein governbares, nachvollziehbares System: die Grundlage dafür, dass ein Agenten-Projekt nicht zu den über 40 % zählt, die laut Gartner scheitern.

Häufig gestellte Fragen

Was bedeutet der Reasoning-Loop bei einem AI Agent?

Der Reasoning-Loop ist der iterative Ablauf Perceive → Reason → Act → Observe: Der Agent nimmt Ziel und Context wahr, schlussfolgert mit dem LLM den nächsten Schritt, führt eine Aktion (z. B. einen Tool-Call) aus, beobachtet das Ergebnis und beginnt erneut, bis das Ziel erreicht oder der Loop abgebrochen wird. Nicht fester Code, sondern das LLM steuert dabei dynamisch.

Was ist ReAct und warum ist es relevant?

ReAct (Yao et al. 2022, arXiv:2210.03629) ist das Konzept, Reasoning (Nachdenken) und Acting (Handeln) im selben LLM-Loop zu verbinden. Statt nur eine Antwort zu generieren, wechselt der Agent zwischen Überlegung und Aktion. ReAct bildet die konzeptionelle Grundlage des heutigen Reasoning-Loops von AI Agents.

Worin unterscheidet sich implizites von explizitem Planning?

Beim impliziten Planning entsteht der Plan Schritt für Schritt im LLM selbst, flexibel, aber schwerer kontrollierbar (typisch für autonome L4-Agenten). Beim expliziten Planning ist der Ablauf als Graph oder State-Machine vordefiniert, etwa mit LangGraph, kontrollierbarer und nachvollziehbarer (typisch für L3-Workflow-Agenten).

Warum ist der Output eines AI Agents probabilistisch?

Weil ein Agent auf einem (Large) Language Model basiert, das seine Ausgabe Token für Token wahrscheinlichkeitsbasiert erzeugt. Derselbe Input kann daher zu unterschiedlichen Reasoning-Pfaden und Ergebnissen führen. Ein Agent ist deshalb keine deterministische Pipeline, ihn als solche zu behandeln, ist ein häufiger Fehler.

Warum braucht man Tracing und Evals bei AI Agents?

Weil der Output probabilistisch ist, lassen sich Fehlentscheidungen, Endlosschleifen und Token-Kosten-Explosionen ohne Beobachtbarkeit weder erkennen noch beheben. Tracing macht jeden Schritt des Loops nachvollziehbar, Evals prüfen das Verhalten systematisch gegen erwartete Ergebnisse. Fehlende Observability zählt zu den klassischen Projektfehlern.

Wie verhindert man Endlosschleifen und hohe Kosten im Reasoning-Loop?

Durch Loop-Limits und Token-Budgets, die die Anzahl der Iterationen und den Verbrauch begrenzen, sowie durch Human-in-the-Loop-Punkte vor irreversiblen Aktionen. Diese Guardrails werden vom Executor durchgesetzt und sollten von Beginn an zusammen mit Tracing eingebaut werden.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← Autonomiestufen von AI Agents (L1–L5)NächsterReaktive vs. deliberative Agenten →