2.11Fortgeschritten7 min

Temperature, Top-p und Sampling: Settings für deterministische Agenten

Blck Alpaca·9. Juni 2026

Definition

Temperature, Top-p und Top-k sind Sampling-Parameter, die steuern, wie zufällig ein LLM das nächste Token wählt. Niedrige Werte (Temperature 0 bis 0,2) machen Outputs reproduzierbar und sind für Tool-Calls und strukturierte Ausgaben Pflicht; höhere Werte erhöhen die Varianz und eignen sich für Kreativ-Content.

Auf einen Blick

✓Temperature skaliert die Wahrscheinlichkeitsverteilung vor dem Sampling: Werte nahe 0 schärfen sie (fast-deterministisch), Werte über 1 flachen sie ab (mehr Varianz, höheres Halluzinations-Risiko).
✓Top-p (Nucleus) und Top-k beschneiden den Kandidatenpool: Sie begrenzen, aus welchen Tokens überhaupt gesampelt wird, und sind das schärfere Werkzeug gegen Ausreißer als Temperature allein.
✓Für zuverlässige Agenten gilt: deterministische Tool-Calls und JSON/Structured-Outputs mit Temperature 0 bis 0,2; Reasoning und Analyse 0,2 bis 0,5; Kreativ-Content 0,7 bis 1,0.
✓Vollständiger Determinismus ist in der Praxis selten garantiert: GPU-Floating-Point, Batching und MoE-Routing erzeugen auch bei Temperature 0 Rest-Varianz. Reproduzierbarkeit kommt erst mit Seed plus fixierter Modellversion.
✓Stabilität schlägt Cleverness: In Produktions-Agenten ist ein reproduzierbarer, evaluierbarer Output mehr wert als ein gelegentlich brillanter, aber unvorhersehbarer.

Temperature, Top-p und Top-k sind Sampling-Parameter, die steuern, wie zufällig ein Large Language Model (LLM) das nächste Token wählt. Niedrige Werte (Temperature 0 bis 0,2) machen Outputs reproduzierbar und sind für deterministische Tool-Calls und strukturierte Ausgaben Pflicht; höhere Werte erhöhen die Varianz und eignen sich für Kreativ-Content. Für den Bau zuverlässiger Agenten sind diese Settings keine Nebensache, sondern eine zentrale Zuverlässigkeits-Stellschraube.

Deterministische Agenten brauchen niedrige Temperature. Tool-Calls, Klassifikation und JSON-Outputs laufen am stabilsten bei Temperature 0 bis 0,2.
Top-p und Top-k beschneiden den Kandidatenpool. Sie sind das schärfere Werkzeug gegen unwahrscheinliche Ausreißer-Tokens als Temperature allein.
Echter Determinismus ist nicht selbstverständlich. Auch bei Temperature 0 bleibt durch GPU-Effekte und Batching Rest-Varianz; Reproduzierbarkeit braucht Seed plus fixierte Modellversion.

Wie Sampling im LLM funktioniert

Ein LLM erzeugt Text Token für Token. In jedem Schritt berechnet das Modell über den gesamten Wortschatz eine Wahrscheinlichkeitsverteilung (die sogenannten Logits werden per Softmax in Wahrscheinlichkeiten umgerechnet). Welches Token tatsächlich ausgegeben wird, entscheidet die Sampling-Strategie. Genau hier greifen Temperature, Top-p und Top-k ein. Sie verändern nicht, was das Modell gelernt hat, sondern nur, wie aus der gelernten Verteilung das konkrete Token gezogen wird.

Diese Unterscheidung ist für Agenten entscheidend: Dasselbe Modell, dieselben Gewichte und derselbe Prompt können je nach Sampling-Settings einmal einen sauber geparsten Tool-Call und einmal einen ausschweifenden Fließtext produzieren. Wer Sampling ignoriert, überlässt die Zuverlässigkeit seines Agenten dem Zufall.

Temperature

Temperature skaliert die Verteilung, bevor gesampelt wird. Mathematisch werden die Logits durch den Temperature-Wert geteilt:

Temperature gegen 0: Die Verteilung wird maximal scharf. Das wahrscheinlichste Token dominiert; das Verhalten nähert sich greedy decoding an, also der reinen Auswahl des Top-Tokens. Outputs werden hochgradig wiederholbar.
Temperature um 1,0: Die Verteilung bleibt nahezu unverändert. Das Modell sampelt mit den gelernten Wahrscheinlichkeiten.
Temperature über 1,0: Die Verteilung flacht ab. Unwahrscheinliche Tokens bekommen mehr Gewicht. Das erhöht Vielfalt und Kreativität, aber auch das Risiko für inkohärente Ausgaben und Halluzinationen.

Top-p (Nucleus Sampling)

Top-p, auch Nucleus Sampling genannt, arbeitet über Beschneidung statt Skalierung. Bei Top-p = 0,9 betrachtet das Modell nur die kleinste Menge an Tokens, deren kumulierte Wahrscheinlichkeit mindestens 90 Prozent erreicht, und sampelt ausschließlich aus diesem Kern (dem Nucleus). Der lange Schwanz unwahrscheinlicher Tokens wird vollständig abgeschnitten. Top-p ist dynamisch: In Kontexten mit einer klaren Fortsetzung bleibt der Pool klein, bei offenen Formulierungen wächst er.

Top-k

Top-k ist die einfachste Beschneidung: Es behält nur die k wahrscheinlichsten Tokens und verwirft den Rest. Top-k = 1 entspricht greedy decoding. Top-k ist statisch (immer dieselbe Anzahl Kandidaten) und gilt heute als gröbere Variante gegenüber dem adaptiven Top-p. Manche Anbieter und Inference-Stacks exponieren Top-k, andere setzen primär auf Temperature und Top-p.

Warum diese Settings über die Zuverlässigkeit von Agenten entscheiden

Ein Agent ist kein Chatbot, der einmal antwortet. Er führt mehrstufige Workflows aus: Er ruft Tools auf, parst deren Rückgaben, plant nächste Schritte und übergibt strukturierte Daten an nachgelagerte Systeme. In dieser Kette ist Vorhersehbarkeit wichtiger als Brillanz. Drei konkrete Failure-Modes zeigen, warum:

Brechende Struktur: Bei hoher Temperature kann das Modell ein zusätzliches Feld erfinden, ein Anführungszeichen vergessen oder Prosa vor das JSON setzen. Der nachgelagerte Parser bricht ab, der Agent stoppt oder läuft in eine Fehlerschleife.
Instabile Tool-Auswahl: Ein Agent, der bei identischem Input mal Tool A und mal Tool B wählt, ist nicht testbar. Niedrige Temperature macht die Tool-Routing-Entscheidung reproduzierbar.
Nicht-reproduzierbare Fehler: Bugs, die nur bei bestimmten Sampling-Pfaden auftreten, sind ohne Determinismus kaum zu debuggen und in Evaluationen nicht stabil messbar.

Gleichzeitig gibt es legitime Fälle für höhere Varianz: Generierung von Content-Varianten, Brainstorming, kreative Textbausteine oder die Erzeugung diverser synthetischer Testdaten. Die Kunst liegt darin, pro Workload-Schritt das passende Profil zu wählen, statt einen globalen Wert über den ganzen Agenten zu legen.

Parameter, Wirkung und Empfehlung für Agenten

Parameter	Wirkung	Empfehlung für Agenten
Temperature 0 bis 0,2	Fast-deterministisch, wahrscheinlichstes Token dominiert	Tool-Calls, Function-Calling, JSON/strukturierte Outputs, Klassifikation, Extraktion, Routing-Entscheidungen
Temperature 0,3 bis 0,5	Leichte Varianz, kohärent	Reasoning- und Analyse-Schritte, RAG-Antworten mit Quellenbezug, Zusammenfassungen
Temperature 0,7 bis 1,0	Hohe Varianz, kreativ	Kreativ-Content, Headline-/Varianten-Generierung, Brainstorming, synthetische Trainingsdaten
Temperature über 1,0	Sehr hohe Streuung, Inkohärenz-Risiko	Nur experimentell; in Produktions-Agenten vermeiden
Top-p (Nucleus)	Beschneidet auf kumulierten Wahrscheinlichkeits-Kern	Default belassen (oft 0,9 bis 1,0); zur kontrollierten Kreativität absenken statt Temperature hochzudrehen
Top-k	Behält nur k wahrscheinlichste Tokens	Optional; wo verfügbar als zusätzliche Ausreißer-Bremse, sonst Default
Seed (sofern unterstützt)	Fixiert den Zufallsstrom	Setzen, wenn Reproduzierbarkeit über Läufe hinweg verlangt wird (Tests, Evals, Audits)

Wichtige Faustregel: Steuere aktiv nur einen der beiden Parameter Temperature oder Top-p und lassen Sie den anderen auf dem Anbieter-Default. Beide gleichzeitig aggressiv zu verändern erzeugt schwer durchschaubare Wechselwirkungen und macht Ergebnisse schlechter vergleichbar.

Die Grenze des Determinismus: Warum Temperature 0 nicht alles ist

Ein verbreitetes Missverständnis lautet: Temperature 0 garantiert bit-identische Outputs. Das stimmt in der Praxis oft nicht. Selbst im greedy-Modus bleibt Rest-Varianz aus mehreren Quellen:

GPU-Floating-Point: Parallele Berechnungen auf GPUs sind nicht in jeder Reihenfolge bit-identisch. Minimale numerische Unterschiede können an knappen Stellen die Token-Auswahl kippen.
Dynamisches Batching: Wird eine Anfrage zusammen mit anderen Requests gebatcht, kann sich das numerische Ergebnis je nach Batch-Zusammensetzung leicht verschieben.
Mixture-of-Experts-Routing: Bei MoE-Architekturen (Stand 2026 verbreitet, etwa bei Mistral Large 3 mit 675 Mrd. Parametern und 41 Mrd. aktiven oder bei DeepSeek V4) entscheidet ein Router, welche Experten ein Token verarbeiten. Routing-Effekte können zusätzliche Varianz einbringen.

Daraus folgt die praktische Hierarchie der Reproduzierbarkeit: Temperature 0 reduziert die Sampling-Varianz, ein fixierter Seed (sofern der Anbieter ihn anbietet) macht den Zufallsstrom wiederholbar, und erst eine eingefrorene Modellversion schließt die Lücke gegen stille Modell-Updates. Closed-API-Modelle werden von ihren Anbietern aktualisiert; ein Versions-Pinning in der Konfiguration ist daher für auditierbare Agenten genauso wichtig wie der Temperature-Wert. Wer maximale Reproduzierbarkeit braucht, hat mit selbst gehosteten Open-Weight-Modellen auf einem fixierten Inference-Stack (etwa vLLM, SGLang oder TensorRT-LLM) den größten Hebel, weil dort sowohl Gewichte als auch Laufzeit eingefroren werden können.

Praxisbeispiel: Ein Lead-Routing-Agent für eine Agentur

Angenommen, eine Marketing-Agentur baut einen Agenten, der eingehende Kontaktanfragen klassifiziert und an das richtige Team weiterleitet. Der Workflow hat drei Schritte mit drei unterschiedlichen Profilen:

```text
Schritt 1: Klassifikation (Tool-Call):
temperature = 0
top_p = 1.0 (Default)
Aufgabe: Anfrage -> {"kategorie": "SEO|Webdesign|Beratung", "priorität": "hoch|mittel|niedrig"}
Ziel: identischer Input -> identische Kategorie, sauber parsbares JSON

Schritt 2, Faktenbasierte Zusammenfassung (RAG):
temperature = 0.3
Aufgabe: relevante CRM-/Wissensdaten in 3 Sätze fassen, ohne Erfindungen

Schritt 3, Erstentwurf der Antwort-Mail (Kreativ):
temperature = 0.8
top_p = 0.9
Aufgabe: 3 stilistisch unterschiedliche Antwort-Varianten zur Auswahl
```

Das Ergebnis ist messbar: In einer internen Evaluation mit 200 wiederholten Testläufen liefert Schritt 1 bei Temperature 0 eine stabile, reproduzierbare Klassifikation, sodass die Parsing-Fehlerrate gegen null geht und die Tests deterministisch sind. Würde man dieselbe Klassifikation bei Temperature 0,8 fahren, schwankt die Kategorie-Zuordnung bei mehrdeutigen Anfragen, einzelne Outputs enthalten erklärende Prosa vor dem JSON, und der Parser bricht in einem Teil der Fälle ab. Schritt 3 dagegen profitiert von hoher Temperature, weil drei gleiche Mail-Entwürfe wertlos wären. Genau diese Trennung pro Schritt ist der Kern soliden Agenten-Designs.

Für Agenturen und B2B-Teams

Wer Agenten produktiv einsetzt, sollte Sampling-Settings nicht als technisches Detail behandeln, sondern als Teil der Qualitätssicherung. Praktisch heißt das: deterministische Profile für alles Strukturierte (Tool-Calls, Datenextraktion, Routing), moderate Temperature für Analyse und RAG, hohe Temperature nur für bewusst kreative Schritte. Dokumentieren Sie die Werte pro Workflow-Schritt, pinnen Sie die Modellversion und fahren Sie eine Eval-Pipeline gegen einen festen Testdatensatz, damit Regressionen sichtbar werden, bevor sie im Kundeneinsatz auffallen. Als Wiener Agentur für KI-Agenten unterstützt Blck Alpaca DACH-Unternehmen dabei, genau diese Settings sauber zu konfigurieren und in zuverlässige, auditierbare Agenten-Workflows zu überführen.

Häufig gestellte Fragen

Was bedeutet Temperature 0 bei einem LLM?

Temperature 0 bedeutet greedy decoding: Das Modell wählt in jedem Schritt das wahrscheinlichste Token statt zu sampeln. Das ist der deterministischste Modus und für Tool-Calls, Klassifikation und strukturierte Outputs der Standard. Hinweis: Wegen GPU-Floating-Point und Batching-Effekten ist auch Temperature 0 in der Praxis nicht immer bit-identisch reproduzierbar.

Was ist der Unterschied zwischen Temperature und Top-p?

Temperature skaliert die gesamte Wahrscheinlichkeitsverteilung (wie scharf oder flach sie ist), bevor gesampelt wird. Top-p (Nucleus Sampling) beschneidet den Kandidatenpool auf die kleinste Token-Menge, deren kumulierte Wahrscheinlichkeit p erreicht. Temperature steuert die Streuung, Top-p kappt die unwahrscheinlichen Ausreißer. Beide werden oft kombiniert, sollten aber bewusst gesetzt werden.

Sollte man Temperature und Top-p gleichzeitig verändern?

Als Faustregel: nur einen Parameter aktiv steuern und den anderen auf dem Anbieter-Default belassen. Wer beide gleichzeitig aggressiv senkt, erzeugt schwer vorhersehbare Wechselwirkungen. Für deterministische Agenten reicht meist Temperature 0 bis 0,2 bei Top-p auf Default. Für kontrollierte Kreativität ist die Steuerung über Top-p bei moderater Temperature oft präziser.

Macht Temperature 0 einen Agenten vollständig deterministisch?

Nein, nicht garantiert. Temperature 0 entfernt die Sampling-Zufälligkeit, aber Rest-Varianz entsteht durch nicht-deterministische GPU-Operationen, dynamisches Batching und bei Mixture-of-Experts-Modellen durch Routing. Echte Reproduzierbarkeit erfordert zusätzlich einen fixierten Seed (sofern der Anbieter ihn unterstützt) und eine eingefrorene Modellversion.

Welche Temperature ist für strukturierte JSON-Outputs richtig?

Für JSON, Function-Calling und schema-gebundene Ausgaben gilt Temperature 0 bis 0,2 als Standard. So bleibt die Struktur stabil und Parsing-Fehler werden minimiert. Noch zuverlässiger sind anbieterseitige Structured-Output- oder constrained-decoding-Modi (Stand 2026 bei Anbietern wie Anthropic, OpenAI und Google verfügbar), die das Schema erzwingen, statt nur auf niedrige Temperature zu hoffen.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← Tokenisierung und Context Window: Was Agent-Latenz und -Kosten treibt NächsterFunction Calling vs. Tool Use: Begriffsklärung und Implementierungen →