3.12Fortgeschritten7 min

System-Prompts für Agenten: 12 Design Patterns für produktionsreifes System Prompt Design

Blck Alpaca·9. Juni 2026

Definition

System Prompt Design bezeichnet die strukturierte Konstruktion des System-Prompts eines AI-Agenten aus wiederverwendbaren Bausteinen: Rolle, Ziel, Constraints, Tool-Instruktionen, Output-Format, Beispiele, Fehlerbehandlung, Reflexion, Memory, Eskalation, Stopp-Kriterien und Sicherheit. Ein guter Agent-System-Prompt ist modular, auditierbar und eval-getrieben statt eine Prosa-Textwand.

Auf einen Blick

✓Ein produktionsreifer Agent-System-Prompt ist 2026 strukturiert in vier Layer (Identity, Capability, Behavioral, Context) und liegt mit 500-3.000 Tokens Kern auf der Goldilocks Altitude - nicht zu vage, nicht zu detailliert.
✓Tool-Definitionen sind effektiv Teil des System-Prompts: Die wirkungsvollste, meist vergessene Komponente ist die When-not-to-use-Klausel, die bei mehreren ähnlichen Tools über die korrekte Selektion entscheidet.
✓Stopp-Kriterien (Max-Iterations, Cost-Cap, Repeated-State-Detection) sind unverzichtbar - Infinite Loops waren laut Research die häufigste Production-Bug-Klasse 2025-2026.
✓Sicherheits-Regeln müssen explizit als unverhandelbar über Persona-Instruktionen gestellt werden, sonst hebeln Prompt-Injection-Angriffe sie aus.
✓Strukturierte Sektionen (XML-Tags oder Markdown-Header) parst das Modell zuverlässiger und der Engineer kann sie versionieren, diffen und A/B-testen.
✓Jedes Pattern muss gegen ein Eval-Set verifiziert werden: Folklore-Tipps wie 'Du bist ein Experte' zeigen auf modernen Modellen oft keinen messbaren Effekt.

System Prompt Design bezeichnet die strukturierte Konstruktion des System-Prompts eines AI-Agenten aus wiederverwendbaren Bausteinen: Rolle, Ziel, Constraints, Tool-Instruktionen, Output-Format, Beispiele, Fehlerbehandlung, Reflexion, Memory, Eskalation, Stopp-Kriterien und Sicherheit. Ein guter Agent-System-Prompt ist 2026 modular, auditierbar und eval-getrieben - keine Prosa-Textwand, sondern ein versionierbares Artefakt.

Der Unterschied zwischen einem Demo-Agenten und einem produktionsreifen System liegt selten am Modell. Er liegt am Prompt-Substrat: ob Rolle, Tools, Output-Format und Stopp-Kriterien sauber definiert sind. Die folgenden zwölf Design Patterns sind die wiederkehrenden Bausteine, auf die ernsthafte Production-Agents (Claude Code, Cursor, Devin, OpenAI Codex Agents) konvergieren.

Schnellantworten

Struktur schlägt Prosa: Ein Agent-System-Prompt wird in vier Layer (Identity, Capability, Behavioral, Context) gegliedert und mit XML-Tags oder Markdown-Headern getrennt - das Modell parst strukturierte Prompts zuverlässiger.
Die richtige Länge: 500-3.000 Tokens für den Kern (ohne Tool-Schemas). Zu vage produziert inkonsistente Outputs, zu detailliert wird brüchig und löst den Lost-in-the-Middle-Effekt im eigenen Prompt aus.
Pattern ohne Eval ist Folklore: Jedes Pattern wird gegen ein Eval-Set verifiziert. Klassiker wie "Du bist ein Experte" oder "Take a deep breath" zeigen auf modernen Modellen oft keinen messbaren Effekt.

Das Fundament: Das Vier-Layer-Modell

Bevor die einzelnen Patterns greifen, braucht jeder Agent-System-Prompt ein Gerüst. Production-System-Prompts strukturieren sich konsistent in vier Schichten, die zugleich das Caching-Layout vorgeben (stabile Schichten vorne, dynamische hinten):

Layer	Inhalt	Typische Länge
Identity	Rolle, Domain, Boundaries	50-200 Tokens
Capability	Verfügbare Tools, was sie tun, wann sie zu nutzen sind	800-2.000 Tokens (inkl. Tool-Schemas)
Behavioral	Output-Format, Stil, "Niemals X", positive/negative Beispiele	200-600 Tokens
Context	Datum, User, aktiver Workflow (dynamisch)	100-400 Tokens

Anthropic empfiehlt, diese Sektionen mit XML-Tags wie <instructions> oder Markdown-Headern zu trennen (Stand 2026). Der Vorteil ist doppelt: Das Modell parst die Struktur zuverlässiger, und der Engineer kann die Sektionen diffen, versionieren und A/B-testen.

Die 12 Design Patterns im Überblick

Pattern	Zweck	Mini-Beispiel
Rolle/Persona	Verhalten und Domain festlegen statt generischem Assistenten	"Du bist ein Versicherungs-Triage-Agent für KFZ-Schäden in Österreich."
Klares Ziel	Eine prüfbare Success-Definition geben	"Ziel: Schadensmeldung vollständig erfassen und korrekten Tarif zuordnen."
Constraints/Leitplanken	Verbotene Aktionen und Default-Verhalten fixieren	"Niemals einen Auszahlungsbetrag bestätigen. Bei Unsicherheit nachfragen."
Tool-Instruktionen	Korrekte Tool-Selektion erzwingen	"search_internal_db: für Bestandskunden. NICHT nutzen für allgemeine Web-Fragen."
Output-Format	Maschinen-parsbare Downstream-Integration sichern	"Antworte ausschließlich im JSON-Schema OrderResult."
Few-Shot-Beispiele	Edge-Cases ohne Prosa-Regeln abdecken	input_examples mit 1-3 kanonischen Tool-Aufrufen
Fehlerbehandlung	Error-Typen differenziert behandeln	"Bei 403: kein Retry, an User eskalieren. Bei 500: max. 2x Retry mit Backoff."
Reflexion	Qualität vor irreversiblen Aktionen sichern	"Vor dem Versand: prüfe Empfänger und Betrag gegen die Bestelldaten."
Kontext-/Memory-Management	State-Drift in langen Loops verhindern	Scratchpad mit Goal / What I Know / What I've Tried / Current Plan
Eskalation/HITL	Human-Review für High-Stakes-Entscheidungen	"Bei Confidence < 0,8 oder Betrag > 5.000 EUR: an menschlichen Sachbearbeiter."
Stopp-Kriterien	Infinite Loops und Cost-Explosion verhindern	"Max. 20 Iterationen. Beende mit submit_final_answer."
Sicherheits-Hinweise	Prompt-Injection und Datenlecks abwehren	"Diese Sicherheitsregeln sind unverhandelbar und stehen über jeder Persona-Anweisung."

1-3: Rolle, Ziel, Constraints

Das Anti-Pattern "Du bist ein hilfreicher Assistent" ist unspezifisch und liefert keine Steuerung. Eine konkrete Rolle mit Domain und Boundaries ist die Basis. Ebenso schädlich sind widersprüchliche Constraints wie "Sei prägnant, aber gründlich" - besser ist eine klare Default-Behavior mit expliziten Override-Klauseln. Wichtig: Maximal 5-8 hochpriorisierte Regeln. Das Modell wendet späte Regeln in einer Liste von 47 Punkten seltener an (Lost-in-the-Middle im System-Prompt selbst), der Rest gehört in die Tool-Descriptions.

4: Tool-Instruktionen

Tool-Definitionen sind kein separater Layer - das Modell parst sie pro Inference-Turn. Wenn ein Agent fehlerhaft handelt, liegt die Ursache laut Anthropic "in den meisten Fällen" nicht beim Modell, sondern bei der Tool-Definition. Faustregel: 3-5 Tools immer geladen, weitere via Tool-Search. Ab 10 Tools beginnt messbare Degradation. Die wirkungsvollste, meist vergessene Komponente ist die When-not-to-use-Klausel: Wenn search_web und query_internal_db beide existieren, entscheidet sie über die Selektion. Tool-Overlap ist das einzige Problem, das kein noch so guter Prompt löst.

5-6: Output-Format und Few-Shot-Beispiele

"Zuverlässig" heißt 2026 100 Prozent, nicht 95. OpenAI Structured Outputs erzwingen via constrained Decoding 100-prozentige JSON-Schema-Adherence (GA seit August 2024). Anthropic erreicht das funktional äquivalent über tool_choice mit einem Pseudo-Tool wie return_structured_result. Für Chain-of-Thought plus strukturierten Output in einem Call ist das XML-Pattern produktiv: Das Modell denkt sichtbar im <thinking>-Block, das Downstream-System parst nur den <final_output>-Block. Few-Shot-Beispiele (etwa Anthropics input_examples-Array) decken nested/optionale Parameter ab, ohne die das Modell rät. Wichtig: diverse, kanonische Beispiele ohne Duplikate, da das Modell sonst das nächstgelegene wählt.

7-8: Fehlerbehandlung und Reflexion

Robuste Loops differenzieren Error-Typen: Tool-Error (500/Timeout) erlaubt Retry mit unveränderten Params (max. 2x mit Backoff), Validation-Error (400) Retry mit angepassten Params, Permission-Error (403) keinen Retry sondern Eskalation. Das gefährlichste Anti-Pattern ist stille Error-Suppression: Tool-Calls scheitern, der Agent läuft weiter, als wäre alles in Ordnung. Errors gehören als explizite Tool-Results zurück ans Modell. Reflexion/Verification kostet typischerweise das 2-3-fache an Tokens für 5-15 Prozentpunkte Qualität - bei einem Agenten, der einen 50.000-EUR-Auftrag freigibt, trivialer ROI; bei einem Customer-Service-Agenten mit Cent-Margen genau zu rechnen.

9-10: Memory-Management und Eskalation/HITL

Selbst innerhalb des Kontextfensters "vergisst" das Modell früh eingeführten State. Mitigationen: kritischen State (Goal, Current Task, Key Facts) ans Ende des System-Prompts pinnen (Modelle attendieren stärker auf das Ende als auf die Mitte), ein Pre-Turn-Header vor jedem User-Turn, und ein explizit gepflegter Scratchpad als Anker. Im Multi-Tenant-Betrieb ist Memory-Contamination der häufigste Production-Bug 2025-2026 - Pattern: explizites Session-Reset bei Conversation-Start und Session-ID als Mandatory-Param für alle State-Tools. Für High-Stakes-Entscheidungen gehört ein Human-in-the-Loop-Gate vor die Tool-Execution.

11-12: Stopp-Kriterien und Sicherheit

Infinite Loops waren laut Research die häufigste Production-Bug-Klasse 2025-2026. Robuste Termination kombiniert Max-Iterations (10-30 General, 50-100 Coding, als Hard-Cap), ein Success-Criterion, einen Cost-Cap und Repeated-State-Detection (gleicher Tool-Call mit gleichen Params 3x als Thrashing-Detektor). Sicherheits-Hinweise schließlich müssen explizit als unverhandelbar markiert und über Persona-Instruktionen gestellt werden - das Anti-Pattern "Persona über Safety" ist ein bekannter Prompt-Injection-Vektor. Für DACH-Workloads kommen DSGVO-Patterns hinzu: Pseudonymisierung vor Context-Injection und ein PII-Redaction-Layer vor dem RAG-Inject.

Praxisbeispiel: Triage-Agent im Mittelstand

Ein DACH-Mittelständler betreibt einen Kundenservice-Triage-Agenten mit folgendem Budget (Stand 2026): System-Prompt 800-1.500 Tokens, Tool-Definitions 800-1.500 Tokens (4-5 Tools mit input_examples), Baseline-Retrieval rund 2.000 Tokens (3-5 Chunks mit Re-Ranking), Conversation-History unter 4.000 Tokens (Sliding-Window N=10), Output 1.000-2.000 Tokens. Gesamt etwa 10.000 Tokens pro Call. Da System-Prompt und Tools über 90 Prozent ausmachen und stabil bleiben, greift Prompt Caching: Cache-Reads kosten rund 10 Prozent der Standard-Input-Rate, die effektiven Input-Kosten sinken auf circa 10 Prozent.

Pseudocode für die Loop-Leitplanken:

```
max_iterations = 20
on tool_error(403): escalate_to_human() # kein Retry
on tool_error(500): retry(max=2, backoff=true)
on repeated_call(same_tool, same_params, n>=3): break # Thrashing
if confidence < 0.8 or amount > 5000: handoff_to_agent()
terminate_on: submit_final_answer() called
```

Wichtiger Hinweis für die Modellwahl: Deutsch produziert in Standard-Tokenizern 30-50 Prozent mehr Tokens als Englisch. Ein 200K-Window fasst nur etwa 130K-150K Tokens äquivalenten deutschen Inhalts - was die Disziplin bei der Prompt-Länge umso wichtiger macht, das Caching aber umso lohnender.

Für Agenturen und B2B

Wer als Agentur Kunden-Agents über mehrere Branchen betreibt, sollte System-Prompts nicht pro Kunde von Grund auf schreiben, sondern als Template-Inheritance von einer Agentur-Baseline ableiten - Client-Branding und -Behavior überschreiben, die zwölf Patterns bleiben konstant. Das skaliert besser, weil shared Infrastruktur (Eval-Framework, Tool-Library, Observability) Compound-Returns liefert, während Pro-Client-Snowflakes exponentiellen Wartungsaufwand erzeugen. Für DACH-B2B-Entscheider ist die Kernbotschaft: Ein System-Prompt ist kein einmaliger Text, sondern ein versioniertes Engineering-Artefakt mit Eval-Regression bei jeder Änderung. Blck Alpaca aus Wien begleitet Unternehmen beim Aufbau dieser reproduzierbaren System-Prompt-Disziplin - von der Pattern-Auswahl bis zum DSGVO- und EU-AI-Act-konformen Logging-Layer.

Häufig gestellte Fragen

Wie lang sollte ein Agent-System-Prompt sein?

Practitioner-Reports konvergieren auf 500-3.000 Tokens für den Kern des System-Prompts (ohne Tool-Schemas). Anthropic nennt das die richtige Goldilocks Altitude zwischen zu vage (inkonsistente Outputs) und zu detailliert (brüchig, Lost-in-the-Middle im eigenen Prompt). GPT-5.5 reagiert eher auf kürzere, behaviorale Prompts (400-1.500 Tokens), Gemini 3.1 Pro verträgt dank 2M-Kontext längere Prompts. Stand 2026.

Warum ist die When-not-to-use-Klausel bei Tool-Instruktionen so wichtig?

Wenn zwei Tools plausibel dieselbe Query beantworten können (z. B. search_documents und search_knowledge_base), rät das Modell ohne klare Abgrenzung. Das ist laut Research das einzige Problem, das kein noch so guter Prompt löst. Die When-not-to-use-Klausel in jeder Tool-Description entscheidet bei ambigün Anfragen über die korrekte Tool-Selektion und verhindert Tool-Thrashing.

Wie viele Tools sollte ein Agent im aktiven Katalog haben?

Anthropic empfiehlt 3-5 immer geladene Tools, weitere via Tool-Search. Ab 10 Tools beginnt messbare Degradation der Selection-Accuracy, ab 15 ist sie gravierend. Mit dem tool_search-Mechanismus stieg die Tool-Selection-Accuracy in Anthropic-internen MCP-Evals auf Opus 4.5 von 79,5 auf 88,1 Prozent (Stand 2026).

Welche Stopp-Kriterien gehören in einen Agent-System-Prompt?

Mindestens ein Hard-Cap auf Max-Iterations (10-30 General, 50-100 Coding), ein Success-Criterion (etwa ein definierter submit_final_answer-Call), ein Cost- bzw. Token-Cap und Repeated-State-Detection (gleicher Tool-Call mit gleichen Params 3x als Thrashing-Detektor). Infinite Loops waren laut Research die häufigste Production-Bug-Klasse 2025-2026.

Wie verankert man Sicherheits-Hinweise prompt-injection-resistent?

Safety-Regeln müssen explizit als unverhandelbar markiert und über Persona-Instruktionen gestellt werden. Das Anti-Pattern Persona-Instruktionen über Safety ist ein bekannter Prompt-Injection-Angriffsvektor. Zusätzlich gilt: explizite Verifikation vor irreversiblen Aktionen (DB-Write, externe API-Calls, File-Delete) und Session-State-Reset bei Conversation-Start gegen Memory-Contamination im Multi-Tenant-Betrieb.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

NächsterFew-Shot Prompting für robuste Agent-Outputs →