Temperature, Top-p a sampling: Nastavenia pre deterministických agentov
Temperature, Top-p a Top-k sú sampling parametre, ktoré riadia, ako náhodne LLM vyberá nasledujúci token. Nízke hodnoty (Temperature 0 až 0,2) robia výstupy reprodukovateľnými a sú pre tool-calls a štruktúrované výstupy povinné; vyššie hodnoty zvyšujú varianciu a hodia sa pre kreatívny obsah.
Key Takeaways
- ✓Temperature škáluje pravdepodobnostné rozdelenie pred samplingom: hodnoty blízke 0 ho zaostrujú (takmer deterministické), hodnoty nad 1 ho splošťujú (väčšia variancia, vyššie riziko halucinácií).
- ✓Top-p (nucleus) a Top-k orezávajú množinu kandidátov: obmedzujú, z ktorých tokenov sa vôbec sampluje, a sú ostrejším nástrojom proti odľahlým hodnotám než samotná Temperature.
- ✓Pre spoľahlivých agentov platí: deterministické tool-calls a JSON/štruktúrované výstupy s Temperature 0 až 0,2; reasoning a analýza 0,2 až 0,5; kreatívny obsah 0,7 až 1,0.
- ✓Úplný determinizmus je v praxi zriedka garantovaný: GPU floating-point, batching a MoE routing vytvárajú aj pri Temperature 0 zvyškovú varianciu. Reprodukovateľnosť prichádza až so seedom plus fixovanou verziou modelu.
- ✓Stabilita víťazí nad šikovnosťou: v produkčných agentoch má reprodukovateľný, vyhodnotiteľný výstup väčšiu hodnotu než občas brilantný, ale nepredvídateľný.
Temperature, Top-p a Top-k sú sampling parametre, ktoré riadia, ako náhodne Large Language Model (LLM) vyberá nasledujúci token. Nízke hodnoty (Temperature 0 až 0,2) robia výstupy reprodukovateľnými a sú pre deterministické tool-calls a štruktúrované výstupy povinné; vyššie hodnoty zvyšujú varianciu a hodia sa pre kreatívny obsah. Pre stavbu spoľahlivých agentov nie sú tieto nastavenia vedľajšou vecou, ale centrálnym regulátorom spoľahlivosti.
- Deterministickí agenti potrebujú nízku Temperature. Tool-calls, klasifikácia a JSON výstupy bežia najstabilnejšie pri Temperature 0 až 0,2.
- Top-p a Top-k orezávajú množinu kandidátov. Sú ostrejším nástrojom proti nepravdepodobným odľahlým tokenom než samotná Temperature.
- Skutočný determinizmus nie je samozrejmosť. Aj pri Temperature 0 zostáva cez GPU efekty a batching zvyšková variancia; reprodukovateľnosť potrebuje seed plus fixovanú verziu modelu.
Ako funguje sampling v LLM
LLM vytvára text token za tokenom. V každom kroku model vypočíta cez celú slovnú zásobu pravdepodobnostné rozdelenie (takzvané logity sa cez softmax prepočítajú na pravdepodobnosti). O tom, ktorý token sa skutočne vydá, rozhoduje sampling stratégia. Práve tu zasahujú Temperature, Top-p a Top-k. Nemenia to, čo sa model naučil, ale len to, ako sa z naučeného rozdelenia vytiahne konkrétny token.
Toto rozlíšenie je pre agentov rozhodujúce: ten istý model, tie isté váhy a ten istý prompt môžu podľa sampling nastavení raz vyprodukovať čisto naparsovaný tool-call a inokedy rozvláčny súvislý text. Kto sampling ignoruje, prenecháva spoľahlivosť svojho agenta náhode.
Temperature
Temperature škáluje rozdelenie predtým, ako sa sampluje. Matematicky sa logity delia hodnotou Temperature:
- Temperature smerom k 0: Rozdelenie sa maximálne zaostrí. Najpravdepodobnejší token dominuje; správanie sa približuje greedy decodingu, teda čistému výberu top tokenu. Výstupy sa stávajú vysoko opakovateľnými.
- Temperature okolo 1,0: Rozdelenie zostáva takmer nezmenené. Model sampluje s naučenými pravdepodobnosťami.
- Temperature nad 1,0: Rozdelenie sa splošťuje. Nepravdepodobné tokeny dostávajú väčšiu váhu. To zvyšuje rozmanitosť a kreativitu, ale aj riziko nekoherentných výstupov a halucinácií.
Top-p (nucleus sampling)
Top-p, nazývaný aj nucleus sampling, pracuje cez orezávanie namiesto škálovania. Pri Top-p = 0,9 model zvažuje len najmenšiu množinu tokenov, ktorých kumulovaná pravdepodobnosť dosiahne aspoň 90 percent, a sampluje výlučne z tohto jadra (nucleus). Dlhý chvost nepravdepodobných tokenov sa úplne odsekne. Top-p je dynamický: v kontextoch s jasným pokračovaním zostáva množina malá, pri otvorených formuláciách rastie.
Top-k
Top-k je najjednoduchšie orezávanie: ponecháva len k najpravdepodobnejších tokenov a zvyšok zahodí. Top-k = 1 zodpovedá greedy decodingu. Top-k je statický (vždy ten istý počet kandidátov) a dnes sa považuje za hrubšiu variantu oproti adaptívnemu Top-p. Niektorí poskytovatelia a inference stacky exponujú Top-k, iní sa primárne spoliehajú na Temperature a Top-p.
Prečo tieto nastavenia rozhodujú o spoľahlivosti agentov
Agent nie je chatbot, ktorý raz odpovie. Vykonáva viacstupňové workflowy: volá tooly, parsuje ich návratové hodnoty, plánuje ďalšie kroky a odovzdáva štruktúrované dáta nadväzujúcim systémom. V tejto reťazi je predvídateľnosť dôležitejšia než brilantnosť. Tri konkrétne failure modes ukazujú prečo:
- Lámajúca sa štruktúra: Pri vysokej Temperature môže model vymyslieť dodatočné pole, zabudnúť úvodzovku alebo umiestniť prózu pred JSON. Nadväzujúci parser sa zastaví, agent sa zasekne alebo sa dostane do chybovej slučky.
- Nestabilný výber toolov: Agent, ktorý pri identickom vstupe raz vyberie Tool A a inokedy Tool B, nie je testovateľný. Nízka Temperature robí rozhodnutie o tool routingu reprodukovateľným.
- Nereprodukovateľné chyby: Bugy, ktoré sa vyskytujú len pri určitých sampling cestách, sú bez determinizmu sotva odladiteľné a v evaluáciách nie sú stabilne merateľné.
Súčasne existujú legitímne prípady pre vyššiu varianciu: generovanie variantov obsahu, brainstorming, kreatívne textové bloky alebo vytváranie rozmanitých syntetických testovacích dát. Umenie spočíva v tom, aby sa pre každý krok workloadu zvolil vhodný profil namiesto toho, aby sa cez celého agenta položila globálna hodnota.
Parametre, účinok a odporúčanie pre agentov
Parameter | Účinok | Odporúčanie pre agentov |
|---|---|---|
Temperature 0 až 0,2 | Takmer deterministická, najpravdepodobnejší token dominuje | Tool-calls, function-calling, JSON/štruktúrované výstupy, klasifikácia, extrakcia, rozhodnutia o routingu |
Temperature 0,3 až 0,5 | Mierna variancia, koherentná | Reasoning a analytické kroky, RAG odpovede s odkazom na zdroje, zhrnutia |
Temperature 0,7 až 1,0 | Vysoká variancia, kreatívna | Kreatívny obsah, generovanie headlinov/variantov, brainstorming, syntetické tréningové dáta |
Temperature nad 1,0 | Veľmi vysoký rozptyl, riziko nekoherencie | Len experimentálne; v produkčných agentoch sa vyhnúť |
Top-p (nucleus) | Oreže na kumulované pravdepodobnostné jadro | Nechať na východiskovej hodnote (často 0,9 až 1,0); pre kontrolovanú kreativitu znížiť namiesto vyhnania Temperature nahor |
Top-k | Ponecháva len k najpravdepodobnejších tokenov | Voliteľné; kde je dostupné ako dodatočná brzda odľahlých hodnôt, inak východisková hodnota |
Seed (pokiaľ je podporovaný) | Fixuje prúd náhodnosti | Nastaviť, keď sa vyžaduje reprodukovateľnosť naprieč behmi (testy, evaly, audity) |
Dôležité pravidlo: Aktívne riaďte len jeden z dvoch parametrov Temperature alebo Top-p a druhý nechajte na východiskovej hodnote poskytovateľa. Meniť oba súčasne agresívne vytvára ťažko prehľadné vzájomné pôsobenia a robí výsledky horšie porovnateľnými.
Hranica determinizmu: prečo Temperature 0 nie je všetko
Rozšírené nedorozumenie znie: Temperature 0 garantuje bit-identické výstupy. To v praxi často neplatí. Aj v greedy režime zostáva zvyšková variancia z viacerých zdrojov:
- GPU floating-point: Paralelné výpočty na GPU nie sú v každom poradí bit-identické. Minimálne numerické rozdiely môžu na tesných miestach prevrátiť výber tokenu.
- Dynamický batching: Keď sa požiadavka batchuje spolu s inými requestmi, môže sa numerický výsledok podľa zloženia batchu mierne posunúť.
- Mixture-of-Experts routing: Pri MoE architektúrach (k roku 2026 rozšírených, napríklad pri Mistral Large 3 s 675 mld. parametrov a 41 mld. aktívnych alebo pri DeepSeek V4) rozhoduje router, ktorí experti spracujú token. Routing efekty môžu priniesť dodatočnú varianciu.
Z toho vyplýva praktická hierarchia reprodukovateľnosti: Temperature 0 redukuje sampling varianciu, fixovaný seed (pokiaľ ho poskytovateľ ponúka) robí prúd náhodnosti opakovateľným a až zmrazená verzia modelu uzatvára medzeru proti tichým aktualizáciám modelu. Closed-API modely sú svojimi poskytovateľmi aktualizované; pinnovanie verzie v konfigurácii je preto pre auditovateľných agentov rovnako dôležité ako hodnota Temperature. Kto potrebuje maximálnu reprodukovateľnosť, má pri vlastne hostovaných open-weight modeloch na fixovanom inference stacku (napríklad vLLM, SGLang alebo TensorRT-LLM) najväčšiu páku, pretože tam sa dajú zmraziť ako váhy, tak aj runtime.
Praktický príklad: Lead-routing agent pre agentúru
Predpokladajme, že marketingová agentúra stavia agenta, ktorý klasifikuje prichádzajúce kontaktné požiadavky a presmerúva ich na správny tím. Workflow má tri kroky s tromi rôznymi profilmi:
```text
Krok 1 — Klasifikácia (tool-call):
temperature = 0
top_p = 1.0 (východisková hodnota)
Úloha: požiadavka -> {"kategoria": "SEO|Webdizajn|Poradenstvo", "priorita": "vysoka|stredna|nizka"}
Cieľ: identický vstup -> identická kategória, čisto parsovateľný JSON
Krok 2 — Faktami podložené zhrnutie (RAG):
temperature = 0.3
Úloha: relevantné CRM/znalostné dáta zhrnúť do 3 viet, bez výmyslov
Krok 3 — Prvý návrh odpovedného mailu (kreatívny):
temperature = 0.8
top_p = 0.9
Úloha: 3 štylisticky rôzne varianty odpovede na výber
```
Výsledok je merateľný: v internej evaluácii s 200 opakovanými testovacími behmi dodáva krok 1 pri Temperature 0 stabilnú, reprodukovateľnú klasifikáciu, takže chybovosť parsovania ide k nule a testy sú deterministické. Keby sa tá istá klasifikácia bežala pri Temperature 0,8, kolíše priradenie kategórie pri nejednoznačných požiadavkách, jednotlivé výstupy obsahujú vysvetľujúcu prózu pred JSON a parser sa v časti prípadov zastaví. Krok 3 naopak profituje z vysokej Temperature, pretože tri rovnaké návrhy mailu by boli bezcenné. Práve toto oddelenie pre každý krok je jadrom solídneho dizajnu agentov.
Pre agentúry a B2B tímy
Kto nasadzuje agentov produktívne, nemal by sampling nastavenia považovať za technický detail, ale za súčasť zabezpečenia kvality. Prakticky to znamená: deterministické profily pre všetko štruktúrované (tool-calls, extrakcia dát, routing), miernu Temperature pre analýzu a RAG, vysokú Temperature len pre vedome kreatívne kroky. Dokumentujte hodnoty pre každý krok workflowu, pinnujte verziu modelu a prevádzkujte eval pipeline proti fixnému testovaciemu datasetu, aby regresie boli viditeľné skôr, než sa prejavia pri nasadení u zákazníka. Ako viedenská agentúra pre KI agentov podporuje Blck Alpaca DACH podniky v tom, aby presne tieto nastavenia čisto nakonfigurovali a previedli do spoľahlivých, auditovateľných agentových workflowov.
Často kladené otázky
Čo znamená Temperature 0 pri LLM?
Aký je rozdiel medzi Temperature a Top-p?
Mali by sa Temperature a Top-p meniť súčasne?
Robí Temperature 0 agenta úplne deterministickým?
Ktorá Temperature je správna pre štruktúrované JSON výstupy?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.