1.5Fortgeschritten8 min

Autonomiestufen von AI Agents (L1–L5)

Blck Alpaca·8. Juni 2026

Definition

Die Autonomiestufen von AI Agents beschreiben in fünf Reifegraden (L1–L5), wie eigenständig ein KI-System Entscheidungen trifft: von regelbasierten Reflex-Bots (L1) über LLMs mit einzelnem Tool-Call (L2) und Workflow-Agenten in deterministischen Pipelines (L3) bis zu voll autonomen Agenten (L4) und koordinierten Multi-Agent-Systemen (L5). Mit jeder Stufe wächst die dynamische Steuerung durch das LLM, und damit Nutzen, Komplexität und Governance-Aufwand.

Auf einen Blick

✓Die fünf Autonomiestufen reichen von L1 (Reflex-Agent, regelbasiert) über L2 (Augmented LLM), L3 (Workflow-Agent), L4 (autonomer Agent) bis L5 (Multi-Agent-System); das entscheidende Unterscheidungsmerkmal ist, wie viel der Ablaufsteuerung das LLM dynamisch übernimmt.
✓Echte Agenten beginnen ab L4: Erst hier steuert das LLM Reihenfolge und Tool-Wahl dynamisch und durchläuft den vollen Reasoning-Loop (Perceive → Reason → Act → Observe). L1 bis L3 sind streng genommen Vorstufen mit zunehmender, aber begrenzter Autonomie.
✓Für die meisten produktiven B2B-Anwendungen liegt der Sweet Spot zwischen L3 und L4: genug Autonomie für echten Nutzen, aber noch beherrschbar in Kosten, Wartung und Compliance.
✓L5-Multi-Agent-Systeme sind mächtig, aber anfällig für Compounding Errors: kleine Fehler einzelner Agenten, die sich über die Koordinationskette aufschaukeln. Standards wie A2A (seit Juni 2025 bei der Linux Foundation, 150+ Organisationen) treiben hier die Interoperabilität.
✓Den eigenen Reifegrad ordnet man ein, indem man drei Fragen stellt: Wer entscheidet die Schrittreihenfolge (Code oder LLM)? Wie viele Tools nutzt das System eigenständig? Wie hoch ist die Autonomie bei der Aufgabenerfüllung?
✓Höhere Stufen sind kein Selbstzweck: Laut Gartner (Juni 2025) werden über 40 % der agentischen KI-Projekte bis Ende 2027 abgebrochen; oft, weil L4/L5 gewählt wurde, wo ein L3-Workflow gereicht hätte. Die Stufe sollte zum Use Case passen, nicht umgekehrt.

Definition: Was sind die Autonomiestufen von AI Agents?

Die Autonomiestufen von AI Agents beschreiben in fünf Reifegraden (L1–L5), wie eigenständig ein KI-System Entscheidungen trifft und seine Aufgaben erfüllt. Sie reichen vom regelbasierten Reflex-Bot (L1) über ein LLM mit einzelnem Tool-Call (L2) und einen Workflow-Agenten in einer deterministischen Pipeline (L3) bis zu einem voll autonomen Agenten (L4) und einem koordinierten Multi-Agent-System (L5).

Das entscheidende Unterscheidungsmerkmal ist nicht die eingesetzte Technik, sondern eine einzige Frage: Wie viel der Ablaufsteuerung übernimmt das LLM dynamisch, und wie viel ist in festem Code vorgegeben? Mit jeder Stufe verschiebt sich die Kontrolle vom deterministischen Code zum Sprachmodell. Das steigert den möglichen Nutzen, erhöht aber zugleich Komplexität, Kosten und Governance-Aufwand.

Drei Kernaussagen vorweg:

Echte Agenten beginnen ab L4. Erst hier steuert das LLM Reihenfolge und Tool-Wahl dynamisch und durchläuft den vollen Reasoning-Loop. L1 bis L3 sind Vorstufen mit zunehmender, aber begrenzter Autonomie.
Höher ist nicht automatisch besser. Die passende Stufe richtet sich nach dem Use Case. Lässt sich ein Ablauf vorab planen, ist ein niedrigerer Reifegrad günstiger und robuster.
Der Sweet Spot liegt für die meisten B2B-Anwendungen zwischen L3 und L4genug Autonomie für echten Mehrwert, aber noch beherrschbar.

Ein konkretes Beispiel: dieselbe Aufgabe über fünf Stufen

Nehmen wir eine wiederkehrende Aufgabe (die Bearbeitung einer Kundenanfrage per E-Mail) und betrachten, wie sie auf jeder Stufe gelöst würde:

L1: Ein FAQ-Bot erkennt das Schlüsselwort „Rechnung" und schickt eine vordefinierte Standardantwort. Keine Anpassung, kein Kontext.
L2: Ein LLM liest die E-Mail, ruft einmal ein Tool auf (z. B. eine Bestellnummer-Suche) und formuliert daraus eine Antwort. Reaktiv, ein einzelner Schritt.
L3: Das LLM läuft durch eine fest definierte Pipeline: Erst Klassifikation (Routing nach Anfragetyp), dann Datenabruf, dann Antwortentwurf, dann Freigabe. Der Pfad ist vorgegeben, das LLM füllt die Stationen.
L4: Der Agent entscheidet selbst, welche Schritte nötig sind. Vielleicht prüft er erst den Bestellstatus, stellt fest, dass eine Rückfrage an die Logistik nötig ist, ruft dort ein zweites Tool, prüft das Ergebnis und entwirft erst dann die Antwort. Reihenfolge und Tool-Wahl sind nicht vorprogrammiert.
L5: Ein Orchestrator verteilt die Anfrage an spezialisierte Agenten, etwa einen Recherche-Agenten, einen Compliance-Agenten und einen Texter-Agenten, die sich untereinander koordinieren und ihre Teilergebnisse zusammenführen.

Dieselbe Aufgabe, fünf grundverschiedene Architekturen. Der Aufwand steigt von links nach rechts deutlich, ebenso der potenzielle Nutzen bei komplexen, schlecht vorab planbaren Fällen.

Die fünf Autonomiestufen im Detail

L1: Reflex-Agent

Regelbasierte Systeme ohne echtes Reasoning. Sie reagieren nach festen Wenn-dann-Regeln auf Auslöser. Typische Beispiele: ein klassischer FAQ-Bot mit Intent-Matching oder ein Thermostat. Es gibt keine Planung und keine LLM-gesteuerte Entscheidung, das Verhalten ist vollständig vorgegeben.

L2: Augmented LLM

Ein Sprachmodell, das um einen einzelnen Tool-Call erweitert ist und rein reaktiv arbeitet. Das LLM beantwortet eine Anfrage und darf dafür einmal ein Werkzeug nutzen, etwa eine Web-Suche. Beispiel: ChatGPT mit aktivierter Web-Search. Es gibt bereits LLM-Reasoning, aber keinen mehrstufigen, selbstgesteuerten Loop.

L3: Workflow-Agent

Das LLM agiert innerhalb einer deterministischen Pipeline. Techniken wie Prompt-Chaining (Schritte hintereinander) oder Routing (Verzweigung nach Anfragetyp) strukturieren den Ablauf. Das LLM trifft an den einzelnen Stationen Entscheidungen, aber der Pfad selbst ist im Code vorgegeben. Genau diese Abgrenzung betont auch Anthropic: Bei Workflows folgen vordefinierte Code-Pfade, bei Agenten steuert das LLM dynamisch.

L4: Autonomer Agent

Hier beginnt der Agent im engeren Sinne. Das LLM steuert Reihenfolge und Tool-Wahl dynamisch und durchläuft den vollen Reasoning-Loop: Perceive → Reason → Act → Observe, iterativ, bis das Ziel erreicht oder abgebrochen ist. Beispiele sind Coding-Agenten wie Claude Code oder Deep-Research-Systeme, die selbstständig recherchieren, Zwischenergebnisse bewerten und ihren Plan anpassen.

L5: Multi-Agent-System

Mehrere autonome Agenten koordinieren sich, typischerweise über ein A2A-Protokoll (Agent-to-Agent). Ein Orchestrator verteilt Teilaufgaben an Spezialisten-Agenten und führt deren Ergebnisse zusammen. L5-Systeme sind die mächtigste, aber auch anfälligste Stufe: Sie neigen zu Compounding Errorskleine Fehler einzelner Agenten, die sich über die Koordinationskette aufschaukeln.

Vergleichsmatrix der fünf Stufen

Die folgende Übersicht fasst die Stufen anhand der entscheidenden Kriterien zusammen. Die Übergänge sind in der Praxis fließend.

Kriterium	L1 Reflex	L2 Augmented LLM	L3 Workflow-Agent	L4 Autonomer Agent	L5 Multi-Agent
Steuerung	feste Regeln	LLM, einstufig	LLM in fester Pipeline	LLM, dynamisch	mehrere LLMs, koordiniert
Reasoning	keines	einstufig	mehrstufig, vorgegeben	mehrstufig, voller Loop	verteilt, voller Loop
Tool-Use	keiner	ein einzelner Call	feste Konnektoren	dynamisch, viele	dynamisch, je Agent
Pfad	starr	starr	vordefiniert (Chaining/Routing)	dynamisch entschieden	dynamisch verteilt
Autonomie	keine	niedrig	mittel	hoch (in Guardrails)	sehr hoch
Beispiel	FAQ-Bot, Thermostat	ChatGPT mit Web-Search	Prompt-Chaining-Pipeline	Claude Code, Deep Research	Orchestrator + Spezialisten
Aufwand/Risiko	sehr niedrig	niedrig	mittel	hoch	sehr hoch

Die wichtigste Trennlinie verläuft zwischen L3 und L4: Bis L3 ist der Pfad fest verdrahtet, ab L4 entscheidet ihn das LLM zur Laufzeit. Genau dieser Sprung definiert den Übergang von der Automatisierung zum echten Agenten.

Wie Unternehmen ihren Reifegrad einordnen

Um die eigene Position auf der Skala zu bestimmen, helfen drei Leitfragen, die aussagekräftiger sind als jede Marketing-Bezeichnung eines Anbieters:

Wer entscheidet die Schrittreihenfolge? Steht der Ablauf fest im Code (→ bis L3) oder bestimmt ihn das LLM zur Laufzeit (→ ab L4)?
Wie viele Tools nutzt das System eigenständig? Keines (L1), genau eines (L2), feste vordefinierte (L3) oder dynamisch ausgewählte (L4/L5)?
Wie hoch ist die tatsächliche Autonomie? Reagiert das System nur, oder verfolgt es ein Ziel über mehrere selbst gewählte Schritte hinweg?

Diese Einordnung schützt auch vor „Agent washing": Viele als „Agent" vermarktete Produkte erreichen real nur L2 oder L3. Laut Gartner (Juni 2025) verfügen nur rund 130 Vendoren über echte Agent-Fähigkeiten, die Bezeichnung allein sagt also wenig über den tatsächlichen Reifegrad aus.

Die zweite Erkenntnis: Ein höherer Reifegrad ist kein Ziel an sich. Die zentrale Entscheidungsregel lautet, dass sich ein Agent (L4/L5) erst lohnt, wenn der Lösungspfad nicht vorab planbar ist. Lässt sich der Ablauf vollständig modellieren, ist ein L3-Workflow günstiger, schneller und robuster. Wer L4/L5 wählt, wo L3 gereicht hätte, zahlt mit höheren Token-Kosten, mehr Wartung und größerem Compliance-Aufwand, ohne Mehrwert.

Dass diese Übersteuerung real ist, zeigen die Marktdaten: Laut Gartner (Juni 2025) werden über 40 % der agentischen KI-Projekte bis Ende 2027 abgebrochen, häufig wegen unklarer Use Cases und unterschätzter Kosten. Gleichzeitig skalieren laut McKinsey State of AI 2025 erst 23 % der Unternehmen mindestens einen agentischen Use Case, während 39 % experimentieren; in keiner einzelnen Funktion liegt der Anteil skalierter Agenten über 10 %. Der Markt bewegt sich also überwiegend noch im unteren bis mittleren Reifegrad.

Empfehlung: vom richtigen Reifegrad aus starten

Für Entscheider im DACH-Raum ergibt sich daraus ein pragmatischer Pfad: Den niedrigsten Reifegrad wählen, der den Use Case löst. Ein Read-only-Pilot auf L3 oder ein eng begrenzter L4-Agent mit Human-in-the-Loop für alle irreversiblen Aktionen ist ein deutlich solideres Fundament als ein ambitioniertes L5-System ohne Governance.

Mit steigendem Reifegrad wachsen auch die regulatorischen Pflichten, im DACH-Raum sind EU AI Act (Art. 50 Transparenz ab 02.08.2026), DSGVO (Art. 22/28/35) sowie Mitbestimmung (BetrVG §87 in DE, ArbVG §96 in AT) zu beachten. Diese Angaben sind informational und keine Rechtsberatung. Wer den eigenen Reifegrad sauber einordnet, statt der höchsten Stufe nachzujagen, vermeidet das „Pilot Purgatory" und schafft die Basis, um beim nächsten Reifegradsprung tatsächlich zu skalieren.

Häufig gestellte Fragen

Wie viele Autonomiestufen für AI Agents gibt es?

Das gängige Reifegradmodell unterscheidet fünf Stufen: L1 (Reflex-Agent, regelbasiert), L2 (Augmented LLM mit einzelnem Tool-Call), L3 (Workflow-Agent in deterministischer Pipeline), L4 (autonomer Agent mit dynamischer Steuerung) und L5 (Multi-Agent-System). Das entscheidende Kriterium ist, wie viel der Ablaufsteuerung das LLM dynamisch übernimmt.

Ab welcher Stufe spricht man von einem echten AI Agent?

Im engeren Sinne beginnt ein echter Agent ab L4. Erst hier steuert das LLM Reihenfolge und Tool-Wahl dynamisch und durchläuft den vollen Reasoning-Loop (Perceive → Reason → Act → Observe). L1 bis L3 sind Vorstufen: Sie nutzen Regeln, einzelne Tool-Calls oder vordefinierte Pipelines, in denen der Pfad im Code festgelegt ist.

Was ist der Unterschied zwischen L3 und L4?

Die wichtigste Trennlinie: Bei L3 (Workflow-Agent) ist der Ablaufpfad fest im Code vorgegeben, das LLM füllt nur die einzelnen Stationen, etwa per Prompt-Chaining oder Routing. Bei L4 (autonomer Agent) entscheidet das LLM die Schrittreihenfolge und Tool-Wahl zur Laufzeit selbst. Dieser Sprung markiert den Übergang von der Automatisierung zum echten Agenten.

Welche Autonomiestufe ist für Unternehmen die richtige?

Für die meisten produktiven B2B-Anwendungen liegt der Sweet Spot zwischen L3 und L4. Maßgeblich ist der Use Case: Lässt sich der Ablauf vorab vollständig planen, genügt ein L3-Workflow, der günstiger und robuster ist. Erst wenn der Lösungspfad nicht vorab planbar ist, lohnt sich ein L4-Agent. Empfehlung: den niedrigsten Reifegrad wählen, der den Use Case löst.

Wie ordnet ein Unternehmen seinen eigenen Reifegrad ein?

Über drei Leitfragen: Wer entscheidet die Schrittreihenfolge, fester Code (bis L3) oder das LLM zur Laufzeit (ab L4)? Wie viele Tools nutzt das System eigenständig, keines, eines, feste oder dynamisch ausgewählte? Wie hoch ist die tatsächliche Autonomie bei der Aufgabenerfüllung? Diese Fragen sind aussagekräftiger als die Marketing-Bezeichnung eines Anbieters.

Warum ist eine höhere Autonomiestufe nicht automatisch besser?

Mit jeder Stufe steigen Token-Kosten, Wartungsaufwand und Compliance-Pflichten. Wer L4 oder L5 wählt, wo ein L3-Workflow gereicht hätte, zahlt mehr ohne Mehrwert und riskiert Compounding Errors in Multi-Agent-Systemen. Laut Gartner (Juni 2025) werden über 40 % der agentischen KI-Projekte bis Ende 2027 abgebrochen, oft wegen übersteuerter Architektur und unklarer Use Cases.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← AI Agent vs. Workflow-Automation (n8n, Zapier)NächsterReasoning und Planning bei AI Agents →