Temperature, Top-p und Sampling: Settings für deterministische Agenten
Temperature, Top-p und Top-k sind Sampling-Parameter, die steuern, wie zufällig ein LLM das nächste Token wählt. Niedrige Werte (Temperature 0 bis 0,2) machen Outputs reproduzierbar und sind für Tool-Calls und strukturierte Ausgaben Pflicht; höhere Werte erhöhen die Varianz und eignen sich für Kreativ-Content.
Auf einen Blick
- ✓Temperature skaliert die Wahrscheinlichkeitsverteilung vor dem Sampling: Werte nahe 0 schärfen sie (fast-deterministisch), Werte über 1 flachen sie ab (mehr Varianz, höheres Halluzinations-Risiko).
- ✓Top-p (Nucleus) und Top-k beschneiden den Kandidatenpool: Sie begrenzen, aus welchen Tokens überhaupt gesampelt wird, und sind das schärfere Werkzeug gegen Ausreißer als Temperature allein.
- ✓Für zuverlässige Agenten gilt: deterministische Tool-Calls und JSON/Structured-Outputs mit Temperature 0 bis 0,2; Reasoning und Analyse 0,2 bis 0,5; Kreativ-Content 0,7 bis 1,0.
- ✓Vollständiger Determinismus ist in der Praxis selten garantiert: GPU-Floating-Point, Batching und MoE-Routing erzeugen auch bei Temperature 0 Rest-Varianz. Reproduzierbarkeit kommt erst mit Seed plus fixierter Modellversion.
- ✓Stabilität schlägt Cleverness: In Produktions-Agenten ist ein reproduzierbarer, evaluierbarer Output mehr wert als ein gelegentlich brillanter, aber unvorhersehbarer.
Temperature, Top-p und Top-k sind Sampling-Parameter, die steuern, wie zufällig ein Large Language Model (LLM) das nächste Token wählt. Niedrige Werte (Temperature 0 bis 0,2) machen Outputs reproduzierbar und sind für deterministische Tool-Calls und strukturierte Ausgaben Pflicht; höhere Werte erhöhen die Varianz und eignen sich für Kreativ-Content. Für den Bau zuverlässiger Agenten sind diese Settings keine Nebensache, sondern eine zentrale Zuverlässigkeits-Stellschraube.
- Deterministische Agenten brauchen niedrige Temperature. Tool-Calls, Klassifikation und JSON-Outputs laufen am stabilsten bei Temperature 0 bis 0,2.
- Top-p und Top-k beschneiden den Kandidatenpool. Sie sind das schärfere Werkzeug gegen unwahrscheinliche Ausreißer-Tokens als Temperature allein.
- Echter Determinismus ist nicht selbstverständlich. Auch bei Temperature 0 bleibt durch GPU-Effekte und Batching Rest-Varianz; Reproduzierbarkeit braucht Seed plus fixierte Modellversion.
Wie Sampling im LLM funktioniert
Ein LLM erzeugt Text Token für Token. In jedem Schritt berechnet das Modell über den gesamten Wortschatz eine Wahrscheinlichkeitsverteilung (die sogenannten Logits werden per Softmax in Wahrscheinlichkeiten umgerechnet). Welches Token tatsächlich ausgegeben wird, entscheidet die Sampling-Strategie. Genau hier greifen Temperature, Top-p und Top-k ein. Sie verändern nicht, was das Modell gelernt hat, sondern nur, wie aus der gelernten Verteilung das konkrete Token gezogen wird.
Diese Unterscheidung ist für Agenten entscheidend: Dasselbe Modell, dieselben Gewichte und derselbe Prompt können je nach Sampling-Settings einmal einen sauber geparsten Tool-Call und einmal einen ausschweifenden Fließtext produzieren. Wer Sampling ignoriert, überlässt die Zuverlässigkeit seines Agenten dem Zufall.
Temperature
Temperature skaliert die Verteilung, bevor gesampelt wird. Mathematisch werden die Logits durch den Temperature-Wert geteilt:
- Temperature gegen 0: Die Verteilung wird maximal scharf. Das wahrscheinlichste Token dominiert; das Verhalten nähert sich greedy decoding an, also der reinen Auswahl des Top-Tokens. Outputs werden hochgradig wiederholbar.
- Temperature um 1,0: Die Verteilung bleibt nahezu unverändert. Das Modell sampelt mit den gelernten Wahrscheinlichkeiten.
- Temperature über 1,0: Die Verteilung flacht ab. Unwahrscheinliche Tokens bekommen mehr Gewicht. Das erhöht Vielfalt und Kreativität, aber auch das Risiko für inkohärente Ausgaben und Halluzinationen.
Top-p (Nucleus Sampling)
Top-p, auch Nucleus Sampling genannt, arbeitet über Beschneidung statt Skalierung. Bei Top-p = 0,9 betrachtet das Modell nur die kleinste Menge an Tokens, deren kumulierte Wahrscheinlichkeit mindestens 90 Prozent erreicht, und sampelt ausschließlich aus diesem Kern (dem Nucleus). Der lange Schwanz unwahrscheinlicher Tokens wird vollständig abgeschnitten. Top-p ist dynamisch: In Kontexten mit einer klaren Fortsetzung bleibt der Pool klein, bei offenen Formulierungen wächst er.
Top-k
Top-k ist die einfachste Beschneidung: Es behält nur die k wahrscheinlichsten Tokens und verwirft den Rest. Top-k = 1 entspricht greedy decoding. Top-k ist statisch (immer dieselbe Anzahl Kandidaten) und gilt heute als gröbere Variante gegenüber dem adaptiven Top-p. Manche Anbieter und Inference-Stacks exponieren Top-k, andere setzen primär auf Temperature und Top-p.
Warum diese Settings über die Zuverlässigkeit von Agenten entscheiden
Ein Agent ist kein Chatbot, der einmal antwortet. Er führt mehrstufige Workflows aus: Er ruft Tools auf, parst deren Rückgaben, plant nächste Schritte und übergibt strukturierte Daten an nachgelagerte Systeme. In dieser Kette ist Vorhersehbarkeit wichtiger als Brillanz. Drei konkrete Failure-Modes zeigen, warum:
- Brechende Struktur: Bei hoher Temperature kann das Modell ein zusätzliches Feld erfinden, ein Anführungszeichen vergessen oder Prosa vor das JSON setzen. Der nachgelagerte Parser bricht ab, der Agent stoppt oder läuft in eine Fehlerschleife.
- Instabile Tool-Auswahl: Ein Agent, der bei identischem Input mal Tool A und mal Tool B wählt, ist nicht testbar. Niedrige Temperature macht die Tool-Routing-Entscheidung reproduzierbar.
- Nicht-reproduzierbare Fehler: Bugs, die nur bei bestimmten Sampling-Pfaden auftreten, sind ohne Determinismus kaum zu debuggen und in Evaluationen nicht stabil messbar.
Gleichzeitig gibt es legitime Fälle für höhere Varianz: Generierung von Content-Varianten, Brainstorming, kreative Textbausteine oder die Erzeugung diverser synthetischer Testdaten. Die Kunst liegt darin, pro Workload-Schritt das passende Profil zu wählen, statt einen globalen Wert über den ganzen Agenten zu legen.
Parameter, Wirkung und Empfehlung für Agenten
Parameter | Wirkung | Empfehlung für Agenten |
|---|---|---|
Temperature 0 bis 0,2 | Fast-deterministisch, wahrscheinlichstes Token dominiert | Tool-Calls, Function-Calling, JSON/strukturierte Outputs, Klassifikation, Extraktion, Routing-Entscheidungen |
Temperature 0,3 bis 0,5 | Leichte Varianz, kohärent | Reasoning- und Analyse-Schritte, RAG-Antworten mit Quellenbezug, Zusammenfassungen |
Temperature 0,7 bis 1,0 | Hohe Varianz, kreativ | Kreativ-Content, Headline-/Varianten-Generierung, Brainstorming, synthetische Trainingsdaten |
Temperature über 1,0 | Sehr hohe Streuung, Inkohärenz-Risiko | Nur experimentell; in Produktions-Agenten vermeiden |
Top-p (Nucleus) | Beschneidet auf kumulierten Wahrscheinlichkeits-Kern | Default belassen (oft 0,9 bis 1,0); zur kontrollierten Kreativität absenken statt Temperature hochzudrehen |
Top-k | Behält nur k wahrscheinlichste Tokens | Optional; wo verfügbar als zusätzliche Ausreißer-Bremse, sonst Default |
Seed (sofern unterstützt) | Fixiert den Zufallsstrom | Setzen, wenn Reproduzierbarkeit über Läufe hinweg verlangt wird (Tests, Evals, Audits) |
Wichtige Faustregel: Steuern Sie aktiv nur einen der beiden Parameter Temperature oder Top-p und lassen Sie den anderen auf dem Anbieter-Default. Beide gleichzeitig aggressiv zu verändern erzeugt schwer durchschaubare Wechselwirkungen und macht Ergebnisse schlechter vergleichbar.
Die Grenze des Determinismus: Warum Temperature 0 nicht alles ist
Ein verbreitetes Missverständnis lautet: Temperature 0 garantiert bit-identische Outputs. Das stimmt in der Praxis oft nicht. Selbst im greedy-Modus bleibt Rest-Varianz aus mehreren Quellen:
- GPU-Floating-Point: Parallele Berechnungen auf GPUs sind nicht in jeder Reihenfolge bit-identisch. Minimale numerische Unterschiede können an knappen Stellen die Token-Auswahl kippen.
- Dynamisches Batching: Wird eine Anfrage zusammen mit anderen Requests gebatcht, kann sich das numerische Ergebnis je nach Batch-Zusammensetzung leicht verschieben.
- Mixture-of-Experts-Routing: Bei MoE-Architekturen (Stand 2026 verbreitet, etwa bei Mistral Large 3 mit 675 Mrd. Parametern und 41 Mrd. aktiven oder bei DeepSeek V4) entscheidet ein Router, welche Experten ein Token verarbeiten. Routing-Effekte können zusätzliche Varianz einbringen.
Daraus folgt die praktische Hierarchie der Reproduzierbarkeit: Temperature 0 reduziert die Sampling-Varianz, ein fixierter Seed (sofern der Anbieter ihn anbietet) macht den Zufallsstrom wiederholbar, und erst eine eingefrorene Modellversion schließt die Lücke gegen stille Modell-Updates. Closed-API-Modelle werden von ihren Anbietern aktualisiert; ein Versions-Pinning in der Konfiguration ist daher für auditierbare Agenten genauso wichtig wie der Temperature-Wert. Wer maximale Reproduzierbarkeit braucht, hat mit selbst gehosteten Open-Weight-Modellen auf einem fixierten Inference-Stack (etwa vLLM, SGLang oder TensorRT-LLM) den größten Hebel, weil dort sowohl Gewichte als auch Laufzeit eingefroren werden können.
Praxisbeispiel: Ein Lead-Routing-Agent für eine Agentur
Angenommen, eine Marketing-Agentur baut einen Agenten, der eingehende Kontaktanfragen klassifiziert und an das richtige Team weiterleitet. Der Workflow hat drei Schritte mit drei unterschiedlichen Profilen:
```text
Schritt 1 — Klassifikation (Tool-Call):
temperature = 0
top_p = 1.0 (Default)
Aufgabe: Anfrage -> {"kategorie": "SEO|Webdesign|Beratung", "prioritaet": "hoch|mittel|niedrig"}
Ziel: identischer Input -> identische Kategorie, sauber parsbares JSON
Schritt 2 — Faktenbasierte Zusammenfassung (RAG):
temperature = 0.3
Aufgabe: relevante CRM-/Wissensdaten in 3 Saetze fassen, ohne Erfindungen
Schritt 3 — Erstentwurf der Antwort-Mail (Kreativ):
temperature = 0.8
top_p = 0.9
Aufgabe: 3 stilistisch unterschiedliche Antwort-Varianten zur Auswahl
```
Das Ergebnis ist messbar: In einer internen Evaluation mit 200 wiederholten Testläufen liefert Schritt 1 bei Temperature 0 eine stabile, reproduzierbare Klassifikation, sodass die Parsing-Fehlerrate gegen null geht und die Tests deterministisch sind. Würde man dieselbe Klassifikation bei Temperature 0,8 fahren, schwankt die Kategorie-Zuordnung bei mehrdeutigen Anfragen, einzelne Outputs enthalten erklärende Prosa vor dem JSON, und der Parser bricht in einem Teil der Fälle ab. Schritt 3 dagegen profitiert von hoher Temperature, weil drei gleiche Mail-Entwürfe wertlos wären. Genau diese Trennung pro Schritt ist der Kern soliden Agenten-Designs.
Für Agenturen und B2B-Teams
Wer Agenten produktiv einsetzt, sollte Sampling-Settings nicht als technisches Detail behandeln, sondern als Teil der Qualitätssicherung. Praktisch heißt das: deterministische Profile für alles Strukturierte (Tool-Calls, Datenextraktion, Routing), moderate Temperature für Analyse und RAG, hohe Temperature nur für bewusst kreative Schritte. Dokumentieren Sie die Werte pro Workflow-Schritt, pinnen Sie die Modellversion und fahren Sie eine Eval-Pipeline gegen einen festen Testdatensatz, damit Regressionen sichtbar werden, bevor sie im Kundeneinsatz auffallen. Als Wiener Agentur für KI-Agenten unterstützt Blck Alpaca DACH-Unternehmen dabei, genau diese Settings sauber zu konfigurieren und in zuverlässige, auditierbare Agenten-Workflows zu überführen.
Häufig gestellte Fragen
Was bedeutet Temperature 0 bei einem LLM?
Was ist der Unterschied zwischen Temperature und Top-p?
Sollte man Temperature und Top-p gleichzeitig verändern?
Macht Temperature 0 einen Agenten vollständig deterministisch?
Welche Temperature ist für strukturierte JSON-Outputs richtig?
Tiefer einsteigen?
Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.