Zum Inhalt springen
1.2Einsteiger6 min

Die 5 Komponenten eines AI Agents erklärt

Blck Alpaca·
Definition

Ein AI Agent besteht aus fünf Kernkomponenten: einem LLM-Core als Reasoning-Engine, Memory (Kurz- und Langzeit), Tools (APIs, MCP-Server, Code-Sandbox), einem Planner zur Zielzerlegung und einem Executor, der Tool-Calls ausführt und Guardrails durchsetzt. Diese Komponenten arbeiten in einem iterativen Loop – Perceive, Reason, Act, Observe –, um ein vorgegebenes Ziel autonom zu verfolgen.

Auf einen Blick

  • Ein vollwertiger AI Agent vereint fünf Komponenten: LLM-Core, Memory, Tools, Planner und Executor – fehlt eine davon, handelt es sich meist um einen Chatbot, Workflow oder Assistant.
  • Der LLM-Core ist die Reasoning-Engine: Er entscheidet dynamisch über den nächsten Schritt und die Tool-Wahl – kein deterministischer Code übernimmt die primäre Steuerung.
  • Der Perceive→Reason→Act→Observe-Loop (Konzeptbasis: ReAct, Yao et al. 2022) ist das Betriebsprinzip, das die fünf Komponenten iterativ verbindet, bis das Ziel erreicht oder abgebrochen wird.
  • Memory unterscheidet Kurzzeit (Konversations-Context) und Langzeit (Vektor/RAG/Files); Tools reichen von Function-Calls über APIs bis zu MCP-Servern und Code-Sandbox.
  • Die Reifegrade L1–L5 reichen vom regelbasierten Reflex-Bot bis zum koordinierten Multi-Agent-System; echte Autonomie beginnt erst bei L4, wenn das LLM Reihenfolge und Tool-Wahl dynamisch steuert.
  • Der Executor managt Turns, Loop-Limits und Guardrails – inklusive Human-in-the-Loop bei irreversiblen Aktionen, was für DACH-Compliance relevant ist.

Was sind die Komponenten eines AI Agents?

Ein AI Agent ist ein softwarebasiertes System auf Basis eines (Large) Language Models, das ein vorgegebenes Ziel autonom verfolgt: Es nimmt seine Umgebung wahr, plant mehrstufig, wählt und nutzt eigenständig externe Werkzeuge, beobachtet Ergebnisse und passt seinen Plan iterativ an. Technisch lässt sich diese Fähigkeit auf fünf Kernkomponenten zurückführen, die in einem festen Kreislauf zusammenspielen.

Die drei wichtigsten Punkte vorweg:

  • Fünf Komponenten sind Pflicht. LLM-Core, Memory, Tools, Planner und Executor müssen zusammenwirken. Fehlt eine davon, liegt in der Regel ein Chatbot, ein Workflow oder ein Assistant/Copilot vor – nicht ein Agent.
  • Das LLM steuert, nicht der Code. Die Reihenfolge der Schritte und die Tool-Wahl entstehen dynamisch zur Laufzeit. Genau das unterscheidet einen Agenten von einer deterministischen Pipeline.
  • Der Loop hält alles zusammen. Perceive → Reason → Act → Observe ist das Betriebsprinzip, das die Komponenten verbindet und iterativ durchläuft, bis das Ziel erreicht oder abgebrochen ist.

Die 5 Kernkomponenten im Detail

1. LLM-Core (Reasoning-Engine). Das Sprachmodell ist das Gehirn des Agenten. Es interpretiert das Ziel, plant den nächsten Schritt und entscheidet per Function-Calling, welches Tool aufgerufen wird. Anthropic grenzt hier sauber ab: Bei Agenten steuert das LLM Pfad und Tool-Use dynamisch, bei Workflows laufen vordefinierte Code-Pfade ab.

2. Memory. Agenten brauchen Gedächtnis auf zwei Ebenen. Das Kurzzeitgedächtnis ist der Konversations-Context des aktuellen Laufs (welche Schritte wurden schon gemacht, welche Ergebnisse liegen vor). Das Langzeitgedächtnis wird typischerweise über Vektordatenbanken, RAG oder Files realisiert und stellt Wissen über einzelne Sitzungen hinaus bereit.

3. Tools. Tools sind die Hände des Agenten – die Schnittstelle zur Außenwelt. Dazu zählen Function-Calls, REST-APIs, Datenbankzugriffe, ein Browser, eine Code-Sandbox und zunehmend MCP-Server (Model Context Protocol). Erst durch Tools kann ein Agent über reine Textausgabe hinaus tatsächlich handeln.

4. Planner. Der Planner zerlegt das übergeordnete Ziel in Teilschritte. Das geschieht entweder implizit im LLM (das Modell überlegt sich selbst die Reihenfolge) oder explizit als Graph bzw. State-Machine, wie es Frameworks wie LangGraph ermöglichen.

5. Executor. Der Executor führt die vom LLM gewählten Tool-Calls aus, managt die einzelnen Turns und setzt Sicherheitsgrenzen durch: Loop-Limits gegen Endlosschleifen, Guardrails und – bei irreversiblen Aktionen – Human-in-the-Loop. Er ist die Komponente, die Autonomie kontrollierbar macht.

Der Reasoning-Loop: Perceive → Reason → Act → Observe

Die fünf Komponenten entfalten ihre Wirkung erst im Kreislauf:

  1. Perceive – Der Agent nimmt Input, Ziel, Context und Memory auf.
  2. Reason – Der LLM-Core plant: Welcher Schritt, welches Tool als Nächstes?
  3. Act – Der Executor führt den Tool-Call, API-Aufruf oder Code aus.
  4. Observe – Das Ergebnis wird gelesen und ins Memory geschrieben.

Danach prüft der Agent: Ziel erreicht? Falls nein, geht es zurück zu Perceive. Die konzeptionelle Grundlage dieses Loops ist das ReAct-Paradigma (Yao et al. 2022), das Reasoning und Acting verschränkt.

Konkretes Beispiel: Recherche-Agent

Ein Mitarbeiter beauftragt einen Agenten: „Finde die drei größten Wettbewerber im DACH-Markt und fasse ihre Preismodelle zusammen." Perceive: Der Agent liest den Auftrag. Reason: Der LLM-Core entscheidet, zuerst eine Web-Suche zu starten. Act: Der Executor ruft das Such-Tool auf. Observe: Die Treffer landen im Memory. Der LLM erkennt, dass Detailseiten fehlen, ruft im nächsten Turn ein Browser-Tool auf, extrahiert Preise, schreibt sie ins Memory – und erstellt am Ende die Zusammenfassung. Niemand hat die Reihenfolge der Schritte vorab programmiert; das LLM hat sie zur Laufzeit bestimmt. Genau das ist der Unterschied zu einem starren Workflow.

Reifegrade L1–L5: Vom Reflex zum Multi-Agent-System

Nicht jedes „agentische" System ist gleich autonom. Eine fünfstufige Reifeskala hilft bei der Einordnung:

Stufe

Typ

Charakteristik

Beispiel

L1

Reflex

Regelbasiert, keine LLM-Steuerung

FAQ-Bot

L2

Augmented LLM

LLM + ein einzelner Tool-Call, reaktiv

LLM mit Suchfunktion

L3

Workflow-Agent

LLM in deterministischer Pipeline (Prompt-Chaining, Routing)

Klassifizierter Ticket-Flow

L4

Autonomer Agent

LLM steuert Reihenfolge + Tool-Wahl dynamisch, voller Loop

Claude Code, Deep Research

L5

Multi-Agent-System

Mehrere autonome Agenten koordinieren via A2A (Orchestrator + Spezialisten)

Koordinierte Spezialisten-Teams

Entscheidend: Echte zielorientierte Autonomie beginnt erst bei L4. Bei L1–L3 ist der Pfad ganz oder teilweise vorab festgelegt – hier ist oft ein Workflow oder Assistant die ehrlichere und günstigere Wahl. Bei L5 koordinieren mehrere Agenten über das A2A-Protokoll (seit Juni 2025 bei der Linux Foundation, 150+ Organisationen), was zusätzliche Risiken wie Compounding Errors mit sich bringt.

Reifegrad und Marktrealität

Die Architektur klingt mächtig – die Skalierung bleibt aber anspruchsvoll. Laut McKinsey State of AI 2025 skalieren erst 23 % der Unternehmen mindestens einen agentischen Use Case, weitere 39 % experimentieren; in keiner Funktion liegt der Anteil skalierter Agenten über 10 %. Das unterstreicht: Mehr Komponenten und höhere Reifegrade bedeuten auch mehr Wartungsaufwand (Prompts, Tools, Evals, Modelle) – ein Pilot sollte daher klein, read-only und mit klarem ROI starten.

Fazit

Die fünf Komponenten – LLM-Core, Memory, Tools, Planner, Executor – und der Perceive→Reason→Act→Observe-Loop sind das gemeinsame Fundament jedes AI Agents. Wer sie kennt, kann „Agent washing" entlarven und für jeden Use Case den passenden Reifegrad wählen, statt aus Prinzip die komplexeste Architektur zu bauen.

Häufig gestellte Fragen

Welche fünf Komponenten hat ein AI Agent?
LLM-Core (Reasoning-Engine), Memory (Kurz- und Langzeit), Tools (APIs, MCP-Server, Code-Sandbox), Planner (Zielzerlegung) und Executor (Tool-Ausführung, Loop-Limits, Guardrails). Alle fünf müssen zusammenwirken – sonst handelt es sich nicht um einen vollwertigen Agenten.
Was ist der Unterschied zwischen Kurzzeit- und Langzeit-Memory?
Das Kurzzeitgedächtnis ist der Konversations-Context des aktuellen Laufs – also bisherige Schritte und Zwischenergebnisse. Das Langzeitgedächtnis speichert Wissen über Sitzungen hinaus, typischerweise über Vektordatenbanken, RAG oder Files.
Was bedeutet der Perceive→Reason→Act→Observe-Loop?
Es ist das Betriebsprinzip eines Agenten: Er nimmt Ziel und Context wahr (Perceive), plant per LLM den nächsten Schritt (Reason), führt einen Tool-Call aus (Act) und liest das Ergebnis (Observe). Ist das Ziel nicht erreicht, beginnt der Loop von vorn. Konzeptbasis ist das ReAct-Paradigma (Yao et al. 2022).
Ab welchem Reifegrad ist etwas ein echter Agent?
Echte zielorientierte Autonomie beginnt bei L4: Hier steuert das LLM Reihenfolge und Tool-Wahl dynamisch im vollen Loop (z. B. Claude Code, Deep Research). L1–L3 (Reflex-Bot, Augmented LLM, Workflow-Agent) folgen ganz oder teilweise einem vorab festgelegten Pfad.
Wozu dient der Executor?
Der Executor führt die vom LLM gewählten Tool-Calls aus und macht Autonomie kontrollierbar: Er managt Turns, setzt Loop-Limits gegen Endlosschleifen, durchsetzt Guardrails und bindet bei irreversiblen Aktionen einen Menschen ein (Human-in-the-Loop).
Brauche ich für jeden Use Case einen vollautonomen Agenten?
Nein. Ein Agent lohnt sich erst, wenn der Lösungspfad nicht vorab planbar ist und eine LLM-Entscheidung gebraucht wird. Bei vorhersehbaren Abläufen sind ein Workflow (L3) oder ein Assistant/Copilot oft günstiger und wartungsärmer.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.