Autonomiestufen von AI Agents (L1–L5)
Die Autonomiestufen von AI Agents beschreiben in fünf Reifegraden (L1–L5), wie eigenständig ein KI-System Entscheidungen trifft: von regelbasierten Reflex-Bots (L1) über LLMs mit einzelnem Tool-Call (L2) und Workflow-Agenten in deterministischen Pipelines (L3) bis zu voll autonomen Agenten (L4) und koordinierten Multi-Agent-Systemen (L5). Mit jeder Stufe wächst die dynamische Steuerung durch das LLM — und damit Nutzen, Komplexität und Governance-Aufwand.
Auf einen Blick
- ✓Die fünf Autonomiestufen reichen von L1 (Reflex-Agent, regelbasiert) über L2 (Augmented LLM), L3 (Workflow-Agent), L4 (autonomer Agent) bis L5 (Multi-Agent-System) — das entscheidende Unterscheidungsmerkmal ist, wie viel der Ablaufsteuerung das LLM dynamisch übernimmt.
- ✓Echte Agenten beginnen ab L4: Erst hier steuert das LLM Reihenfolge und Tool-Wahl dynamisch und durchläuft den vollen Reasoning-Loop (Perceive → Reason → Act → Observe). L1 bis L3 sind streng genommen Vorstufen mit zunehmender, aber begrenzter Autonomie.
- ✓Für die meisten produktiven B2B-Anwendungen liegt der Sweet Spot zwischen L3 und L4 — genug Autonomie für echten Nutzen, aber noch beherrschbar in Kosten, Wartung und Compliance.
- ✓L5-Multi-Agent-Systeme sind mächtig, aber anfällig für Compounding Errors: kleine Fehler einzelner Agenten, die sich über die Koordinationskette aufschaukeln. Standards wie A2A (seit Juni 2025 bei der Linux Foundation, 150+ Organisationen) treiben hier die Interoperabilität.
- ✓Den eigenen Reifegrad ordnet man ein, indem man drei Fragen stellt: Wer entscheidet die Schrittreihenfolge (Code oder LLM)? Wie viele Tools nutzt das System eigenständig? Wie hoch ist die Autonomie bei der Aufgabenerfüllung?
- ✓Höhere Stufen sind kein Selbstzweck: Laut Gartner (Juni 2025) werden über 40 % der agentischen KI-Projekte bis Ende 2027 abgebrochen — oft, weil L4/L5 gewählt wurde, wo ein L3-Workflow gereicht hätte. Die Stufe sollte zum Use Case passen, nicht umgekehrt.
Definition: Was sind die Autonomiestufen von AI Agents?
Die Autonomiestufen von AI Agents beschreiben in fünf Reifegraden (L1–L5), wie eigenständig ein KI-System Entscheidungen trifft und seine Aufgaben erfüllt. Sie reichen vom regelbasierten Reflex-Bot (L1) über ein LLM mit einzelnem Tool-Call (L2) und einen Workflow-Agenten in einer deterministischen Pipeline (L3) bis zu einem voll autonomen Agenten (L4) und einem koordinierten Multi-Agent-System (L5).
Das entscheidende Unterscheidungsmerkmal ist nicht die eingesetzte Technik, sondern eine einzige Frage: Wie viel der Ablaufsteuerung übernimmt das LLM dynamisch — und wie viel ist in festem Code vorgegeben? Mit jeder Stufe verschiebt sich die Kontrolle vom deterministischen Code zum Sprachmodell. Das steigert den möglichen Nutzen, erhöht aber zugleich Komplexität, Kosten und Governance-Aufwand.
Drei Kernaussagen vorweg:
- Echte Agenten beginnen ab L4. Erst hier steuert das LLM Reihenfolge und Tool-Wahl dynamisch und durchläuft den vollen Reasoning-Loop. L1 bis L3 sind Vorstufen mit zunehmender, aber begrenzter Autonomie.
- Höher ist nicht automatisch besser. Die passende Stufe richtet sich nach dem Use Case. Lässt sich ein Ablauf vorab planen, ist ein niedrigerer Reifegrad günstiger und robuster.
- Der Sweet Spot liegt für die meisten B2B-Anwendungen zwischen L3 und L4 — genug Autonomie für echten Mehrwert, aber noch beherrschbar.
Ein konkretes Beispiel: dieselbe Aufgabe über fünf Stufen
Nehmen wir eine wiederkehrende Aufgabe — die Bearbeitung einer Kundenanfrage per E-Mail — und betrachten, wie sie auf jeder Stufe gelöst würde:
- L1: Ein FAQ-Bot erkennt das Schlüsselwort „Rechnung" und schickt eine vordefinierte Standardantwort. Keine Anpassung, kein Kontext.
- L2: Ein LLM liest die E-Mail, ruft einmal ein Tool auf (z. B. eine Bestellnummer-Suche) und formuliert daraus eine Antwort. Reaktiv, ein einzelner Schritt.
- L3: Das LLM läuft durch eine fest definierte Pipeline: Erst Klassifikation (Routing nach Anfragetyp), dann Datenabruf, dann Antwortentwurf, dann Freigabe. Der Pfad ist vorgegeben, das LLM füllt die Stationen.
- L4: Der Agent entscheidet selbst, welche Schritte nötig sind — vielleicht prüft er erst den Bestellstatus, stellt fest, dass eine Rückfrage an die Logistik nötig ist, ruft dort ein zweites Tool, prüft das Ergebnis und entwirft erst dann die Antwort. Reihenfolge und Tool-Wahl sind nicht vorprogrammiert.
- L5: Ein Orchestrator verteilt die Anfrage an spezialisierte Agenten — einen Recherche-Agenten, einen Compliance-Agenten, einen Texter-Agenten — die sich untereinander koordinieren und ihre Teilergebnisse zusammenführen.
Dieselbe Aufgabe, fünf grundverschiedene Architekturen. Der Aufwand steigt von links nach rechts deutlich — ebenso der potenzielle Nutzen bei komplexen, schlecht vorab planbaren Fällen.
Die fünf Autonomiestufen im Detail
L1 — Reflex-Agent
Regelbasierte Systeme ohne echtes Reasoning. Sie reagieren nach festen Wenn-dann-Regeln auf Auslöser. Typische Beispiele: ein klassischer FAQ-Bot mit Intent-Matching oder ein Thermostat. Es gibt keine Planung und keine LLM-gesteuerte Entscheidung — das Verhalten ist vollständig vorgegeben.
L2 — Augmented LLM
Ein Sprachmodell, das um einen einzelnen Tool-Call erweitert ist und rein reaktiv arbeitet. Das LLM beantwortet eine Anfrage und darf dafür einmal ein Werkzeug nutzen, etwa eine Web-Suche. Beispiel: ChatGPT mit aktivierter Web-Search. Es gibt bereits LLM-Reasoning, aber keinen mehrstufigen, selbstgesteuerten Loop.
L3 — Workflow-Agent
Das LLM agiert innerhalb einer deterministischen Pipeline. Techniken wie Prompt-Chaining (Schritte hintereinander) oder Routing (Verzweigung nach Anfragetyp) strukturieren den Ablauf. Das LLM trifft an den einzelnen Stationen Entscheidungen, aber der Pfad selbst ist im Code vorgegeben. Genau diese Abgrenzung betont auch Anthropic: Bei Workflows folgen vordefinierte Code-Pfade, bei Agenten steuert das LLM dynamisch.
L4 — Autonomer Agent
Hier beginnt der Agent im engeren Sinne. Das LLM steuert Reihenfolge und Tool-Wahl dynamisch und durchläuft den vollen Reasoning-Loop: Perceive → Reason → Act → Observe, iterativ, bis das Ziel erreicht oder abgebrochen ist. Beispiele sind Coding-Agenten wie Claude Code oder Deep-Research-Systeme, die selbstständig recherchieren, Zwischenergebnisse bewerten und ihren Plan anpassen.
L5 — Multi-Agent-System
Mehrere autonome Agenten koordinieren sich, typischerweise über ein A2A-Protokoll (Agent-to-Agent). Ein Orchestrator verteilt Teilaufgaben an Spezialisten-Agenten und führt deren Ergebnisse zusammen. L5-Systeme sind die mächtigste, aber auch anfälligste Stufe: Sie neigen zu Compounding Errors — kleine Fehler einzelner Agenten, die sich über die Koordinationskette aufschaukeln.
Vergleichsmatrix der fünf Stufen
Die folgende Übersicht fasst die Stufen anhand der entscheidenden Kriterien zusammen. Die Übergänge sind in der Praxis fließend.
Kriterium | L1 Reflex | L2 Augmented LLM | L3 Workflow-Agent | L4 Autonomer Agent | L5 Multi-Agent |
|---|---|---|---|---|---|
Steuerung | feste Regeln | LLM, einstufig | LLM in fester Pipeline | LLM, dynamisch | mehrere LLMs, koordiniert |
Reasoning | keines | einstufig | mehrstufig, vorgegeben | mehrstufig, voller Loop | verteilt, voller Loop |
Tool-Use | keiner | ein einzelner Call | feste Konnektoren | dynamisch, viele | dynamisch, je Agent |
Pfad | starr | starr | vordefiniert (Chaining/Routing) | dynamisch entschieden | dynamisch verteilt |
Autonomie | keine | niedrig | mittel | hoch (in Guardrails) | sehr hoch |
Beispiel | FAQ-Bot, Thermostat | ChatGPT mit Web-Search | Prompt-Chaining-Pipeline | Claude Code, Deep Research | Orchestrator + Spezialisten |
Aufwand/Risiko | sehr niedrig | niedrig | mittel | hoch | sehr hoch |
Die wichtigste Trennlinie verläuft zwischen L3 und L4: Bis L3 ist der Pfad fest verdrahtet, ab L4 entscheidet ihn das LLM zur Laufzeit. Genau dieser Sprung definiert den Übergang von der Automatisierung zum echten Agenten.
Wie Unternehmen ihren Reifegrad einordnen
Um die eigene Position auf der Skala zu bestimmen, helfen drei Leitfragen — sie sind aussagekräftiger als jede Marketing-Bezeichnung eines Anbieters:
- Wer entscheidet die Schrittreihenfolge? Steht der Ablauf fest im Code (→ bis L3) oder bestimmt ihn das LLM zur Laufzeit (→ ab L4)?
- Wie viele Tools nutzt das System eigenständig? Keines (L1), genau eines (L2), feste vordefinierte (L3) oder dynamisch ausgewählte (L4/L5)?
- Wie hoch ist die tatsächliche Autonomie? Reagiert das System nur, oder verfolgt es ein Ziel über mehrere selbst gewählte Schritte hinweg?
Diese Einordnung schützt auch vor „Agent washing": Viele als „Agent" vermarktete Produkte erreichen real nur L2 oder L3. Laut Gartner (Juni 2025) verfügen nur rund 130 Vendoren über echte Agent-Fähigkeiten — die Bezeichnung allein sagt also wenig über den tatsächlichen Reifegrad aus.
Die zweite Erkenntnis: Ein höherer Reifegrad ist kein Ziel an sich. Die zentrale Entscheidungsregel lautet, dass sich ein Agent (L4/L5) erst lohnt, wenn der Lösungspfad nicht vorab planbar ist. Lässt sich der Ablauf vollständig modellieren, ist ein L3-Workflow günstiger, schneller und robuster. Wer L4/L5 wählt, wo L3 gereicht hätte, zahlt mit höheren Token-Kosten, mehr Wartung und größerem Compliance-Aufwand — ohne Mehrwert.
Dass diese Übersteuerung real ist, zeigen die Marktdaten: Laut Gartner (Juni 2025) werden über 40 % der agentischen KI-Projekte bis Ende 2027 abgebrochen, häufig wegen unklarer Use Cases und unterschätzter Kosten. Gleichzeitig skalieren laut McKinsey State of AI 2025 erst 23 % der Unternehmen mindestens einen agentischen Use Case, während 39 % experimentieren — in keiner einzelnen Funktion liegt der Anteil skalierter Agenten über 10 %. Der Markt bewegt sich also überwiegend noch im unteren bis mittleren Reifegrad.
Empfehlung: vom richtigen Reifegrad aus starten
Für Entscheider im DACH-Raum ergibt sich daraus ein pragmatischer Pfad: Den niedrigsten Reifegrad wählen, der den Use Case löst. Ein Read-only-Pilot auf L3 oder ein eng begrenzter L4-Agent mit Human-in-the-Loop für alle irreversiblen Aktionen ist ein deutlich solideres Fundament als ein ambitioniertes L5-System ohne Governance.
Mit steigendem Reifegrad wachsen auch die regulatorischen Pflichten — im DACH-Raum sind EU AI Act (Art. 50 Transparenz ab 02.08.2026), DSGVO (Art. 22/28/35) sowie Mitbestimmung (BetrVG §87 in DE, ArbVG §96 in AT) zu beachten. Diese Angaben sind informational und keine Rechtsberatung. Wer den eigenen Reifegrad sauber einordnet, statt der höchsten Stufe nachzujagen, vermeidet das „Pilot Purgatory" und schafft die Basis, um beim nächsten Reifegradsprung tatsächlich zu skalieren.
Häufig gestellte Fragen
Wie viele Autonomiestufen für AI Agents gibt es?
Ab welcher Stufe spricht man von einem echten AI Agent?
Was ist der Unterschied zwischen L3 und L4?
Welche Autonomiestufe ist für Unternehmen die richtige?
Wie ordnet ein Unternehmen seinen eigenen Reifegrad ein?
Warum ist eine höhere Autonomiestufe nicht automatisch besser?
Tiefer einsteigen?
Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.