2.11Pokročilý7 min

Temperature, Top-p a sampling: Nastavenia pre deterministických agentov

Blck Alpaca·9. júna 2026

Definition

Temperature, Top-p a Top-k sú sampling parametre, ktoré riadia, ako náhodne LLM vyberá nasledujúci token. Nízke hodnoty (Temperature 0 až 0,2) robia výstupy reprodukovateľnými a sú pre tool-calls a štruktúrované výstupy povinné; vyššie hodnoty zvyšujú varianciu a hodia sa pre kreatívny obsah.

Key Takeaways

✓Temperature škáluje pravdepodobnostné rozdelenie pred samplingom: hodnoty blízke 0 ho zaostrujú (takmer deterministické), hodnoty nad 1 ho splošťujú (väčšia variancia, vyššie riziko halucinácií).
✓Top-p (nucleus) a Top-k orezávajú množinu kandidátov: obmedzujú, z ktorých tokenov sa vôbec sampluje, a sú ostrejším nástrojom proti odľahlým hodnotám než samotná Temperature.
✓Pre spoľahlivých agentov platí: deterministické tool-calls a JSON/štruktúrované výstupy s Temperature 0 až 0,2; reasoning a analýza 0,2 až 0,5; kreatívny obsah 0,7 až 1,0.
✓Úplný determinizmus je v praxi zriedka garantovaný: GPU floating-point, batching a MoE routing vytvárajú aj pri Temperature 0 zvyškovú varianciu. Reprodukovateľnosť prichádza až so seedom plus fixovanou verziou modelu.
✓Stabilita víťazí nad šikovnosťou: v produkčných agentoch má reprodukovateľný, vyhodnotiteľný výstup väčšiu hodnotu než občas brilantný, ale nepredvídateľný.

Temperature, Top-p a Top-k sú sampling parametre, ktoré riadia, ako náhodne Large Language Model (LLM) vyberá nasledujúci token. Nízke hodnoty (Temperature 0 až 0,2) robia výstupy reprodukovateľnými a sú pre deterministické tool-calls a štruktúrované výstupy povinné; vyššie hodnoty zvyšujú varianciu a hodia sa pre kreatívny obsah. Pre stavbu spoľahlivých agentov nie sú tieto nastavenia vedľajšou vecou, ale centrálnym regulátorom spoľahlivosti.

Deterministickí agenti potrebujú nízku Temperature. Tool-calls, klasifikácia a JSON výstupy bežia najstabilnejšie pri Temperature 0 až 0,2.
Top-p a Top-k orezávajú množinu kandidátov. Sú ostrejším nástrojom proti nepravdepodobným odľahlým tokenom než samotná Temperature.
Skutočný determinizmus nie je samozrejmosť. Aj pri Temperature 0 zostáva cez GPU efekty a batching zvyšková variancia; reprodukovateľnosť potrebuje seed plus fixovanú verziu modelu.

Ako funguje sampling v LLM

LLM vytvára text token za tokenom. V každom kroku model vypočíta cez celú slovnú zásobu pravdepodobnostné rozdelenie (takzvané logity sa cez softmax prepočítajú na pravdepodobnosti). O tom, ktorý token sa skutočne vydá, rozhoduje sampling stratégia. Práve tu zasahujú Temperature, Top-p a Top-k. Nemenia to, čo sa model naučil, ale len to, ako sa z naučeného rozdelenia vytiahne konkrétny token.

Toto rozlíšenie je pre agentov rozhodujúce: ten istý model, tie isté váhy a ten istý prompt môžu podľa sampling nastavení raz vyprodukovať čisto naparsovaný tool-call a inokedy rozvláčny súvislý text. Kto sampling ignoruje, prenecháva spoľahlivosť svojho agenta náhode.

Temperature

Temperature škáluje rozdelenie predtým, ako sa sampluje. Matematicky sa logity delia hodnotou Temperature:

Temperature smerom k 0: Rozdelenie sa maximálne zaostrí. Najpravdepodobnejší token dominuje; správanie sa približuje greedy decodingu, teda čistému výberu top tokenu. Výstupy sa stávajú vysoko opakovateľnými.
Temperature okolo 1,0: Rozdelenie zostáva takmer nezmenené. Model sampluje s naučenými pravdepodobnosťami.
Temperature nad 1,0: Rozdelenie sa splošťuje. Nepravdepodobné tokeny dostávajú väčšiu váhu. To zvyšuje rozmanitosť a kreativitu, ale aj riziko nekoherentných výstupov a halucinácií.

Top-p (nucleus sampling)

Top-p, nazývaný aj nucleus sampling, pracuje cez orezávanie namiesto škálovania. Pri Top-p = 0,9 model zvažuje len najmenšiu množinu tokenov, ktorých kumulovaná pravdepodobnosť dosiahne aspoň 90 percent, a sampluje výlučne z tohto jadra (nucleus). Dlhý chvost nepravdepodobných tokenov sa úplne odsekne. Top-p je dynamický: v kontextoch s jasným pokračovaním zostáva množina malá, pri otvorených formuláciách rastie.

Top-k

Top-k je najjednoduchšie orezávanie: ponecháva len k najpravdepodobnejších tokenov a zvyšok zahodí. Top-k = 1 zodpovedá greedy decodingu. Top-k je statický (vždy ten istý počet kandidátov) a dnes sa považuje za hrubšiu variantu oproti adaptívnemu Top-p. Niektorí poskytovatelia a inference stacky exponujú Top-k, iní sa primárne spoliehajú na Temperature a Top-p.

Prečo tieto nastavenia rozhodujú o spoľahlivosti agentov

Agent nie je chatbot, ktorý raz odpovie. Vykonáva viacstupňové workflowy: volá tooly, parsuje ich návratové hodnoty, plánuje ďalšie kroky a odovzdáva štruktúrované dáta nadväzujúcim systémom. V tejto reťazi je predvídateľnosť dôležitejšia než brilantnosť. Tri konkrétne failure modes ukazujú prečo:

Lámajúca sa štruktúra: Pri vysokej Temperature môže model vymyslieť dodatočné pole, zabudnúť úvodzovku alebo umiestniť prózu pred JSON. Nadväzujúci parser sa zastaví, agent sa zasekne alebo sa dostane do chybovej slučky.
Nestabilný výber toolov: Agent, ktorý pri identickom vstupe raz vyberie Tool A a inokedy Tool B, nie je testovateľný. Nízka Temperature robí rozhodnutie o tool routingu reprodukovateľným.
Nereprodukovateľné chyby: Bugy, ktoré sa vyskytujú len pri určitých sampling cestách, sú bez determinizmu sotva odladiteľné a v evaluáciách nie sú stabilne merateľné.

Súčasne existujú legitímne prípady pre vyššiu varianciu: generovanie variantov obsahu, brainstorming, kreatívne textové bloky alebo vytváranie rozmanitých syntetických testovacích dát. Umenie spočíva v tom, aby sa pre každý krok workloadu zvolil vhodný profil namiesto toho, aby sa cez celého agenta položila globálna hodnota.

Parametre, účinok a odporúčanie pre agentov

Parameter	Účinok	Odporúčanie pre agentov
Temperature 0 až 0,2	Takmer deterministická, najpravdepodobnejší token dominuje	Tool-calls, function-calling, JSON/štruktúrované výstupy, klasifikácia, extrakcia, rozhodnutia o routingu
Temperature 0,3 až 0,5	Mierna variancia, koherentná	Reasoning a analytické kroky, RAG odpovede s odkazom na zdroje, zhrnutia
Temperature 0,7 až 1,0	Vysoká variancia, kreatívna	Kreatívny obsah, generovanie headlinov/variantov, brainstorming, syntetické tréningové dáta
Temperature nad 1,0	Veľmi vysoký rozptyl, riziko nekoherencie	Len experimentálne; v produkčných agentoch sa vyhnúť
Top-p (nucleus)	Oreže na kumulované pravdepodobnostné jadro	Nechať na východiskovej hodnote (často 0,9 až 1,0); pre kontrolovanú kreativitu znížiť namiesto vyhnania Temperature nahor
Top-k	Ponecháva len k najpravdepodobnejších tokenov	Voliteľné; kde je dostupné ako dodatočná brzda odľahlých hodnôt, inak východisková hodnota
Seed (pokiaľ je podporovaný)	Fixuje prúd náhodnosti	Nastaviť, keď sa vyžaduje reprodukovateľnosť naprieč behmi (testy, evaly, audity)

Dôležité pravidlo: Aktívne riaďte len jeden z dvoch parametrov Temperature alebo Top-p a druhý nechajte na východiskovej hodnote poskytovateľa. Meniť oba súčasne agresívne vytvára ťažko prehľadné vzájomné pôsobenia a robí výsledky horšie porovnateľnými.

Hranica determinizmu: prečo Temperature 0 nie je všetko

Rozšírené nedorozumenie znie: Temperature 0 garantuje bit-identické výstupy. To v praxi často neplatí. Aj v greedy režime zostáva zvyšková variancia z viacerých zdrojov:

GPU floating-point: Paralelné výpočty na GPU nie sú v každom poradí bit-identické. Minimálne numerické rozdiely môžu na tesných miestach prevrátiť výber tokenu.
Dynamický batching: Keď sa požiadavka batchuje spolu s inými requestmi, môže sa numerický výsledok podľa zloženia batchu mierne posunúť.
Mixture-of-Experts routing: Pri MoE architektúrach (k roku 2026 rozšírených, napríklad pri Mistral Large 3 s 675 mld. parametrov a 41 mld. aktívnych alebo pri DeepSeek V4) rozhoduje router, ktorí experti spracujú token. Routing efekty môžu priniesť dodatočnú varianciu.

Z toho vyplýva praktická hierarchia reprodukovateľnosti: Temperature 0 redukuje sampling varianciu, fixovaný seed (pokiaľ ho poskytovateľ ponúka) robí prúd náhodnosti opakovateľným a až zmrazená verzia modelu uzatvára medzeru proti tichým aktualizáciám modelu. Closed-API modely sú svojimi poskytovateľmi aktualizované; pinnovanie verzie v konfigurácii je preto pre auditovateľných agentov rovnako dôležité ako hodnota Temperature. Kto potrebuje maximálnu reprodukovateľnosť, má pri vlastne hostovaných open-weight modeloch na fixovanom inference stacku (napríklad vLLM, SGLang alebo TensorRT-LLM) najväčšiu páku, pretože tam sa dajú zmraziť ako váhy, tak aj runtime.

Praktický príklad: Lead-routing agent pre agentúru

Predpokladajme, že marketingová agentúra stavia agenta, ktorý klasifikuje prichádzajúce kontaktné požiadavky a presmerúva ich na správny tím. Workflow má tri kroky s tromi rôznymi profilmi:

```text
Krok 1: Klasifikácia (tool-call):
temperature = 0
top_p = 1.0 (východisková hodnota)
Úloha: požiadavka -> {"kategoria": "SEO|Webdizajn|Poradenstvo", "priorita": "vysoka|stredna|nizka"}
Cieľ: identický vstup -> identická kategória, čisto parsovateľný JSON

Krok 2: Faktami podložené zhrnutie (RAG):
temperature = 0.3
Úloha: relevantné CRM/znalostné dáta zhrnúť do 3 viet, bez výmyslov

Krok 3: Prvý návrh odpovedného mailu (kreatívny):
temperature = 0.8
top_p = 0.9
Úloha: 3 štylisticky rôzne varianty odpovede na výber
```

Výsledok je merateľný: v internej evaluácii s 200 opakovanými testovacími behmi dodáva krok 1 pri Temperature 0 stabilnú, reprodukovateľnú klasifikáciu, takže chybovosť parsovania ide k nule a testy sú deterministické. Keby sa tá istá klasifikácia bežala pri Temperature 0,8, kolíše priradenie kategórie pri nejednoznačných požiadavkách, jednotlivé výstupy obsahujú vysvetľujúcu prózu pred JSON a parser sa v časti prípadov zastaví. Krok 3 naopak profituje z vysokej Temperature, pretože tri rovnaké návrhy mailu by boli bezcenné. Práve toto oddelenie pre každý krok je jadrom solídneho dizajnu agentov.

Pre agentúry a B2B tímy

Kto nasadzuje agentov produktívne, nemal by sampling nastavenia považovať za technický detail, ale za súčasť zabezpečenia kvality. Prakticky to znamená: deterministické profily pre všetko štruktúrované (tool-calls, extrakcia dát, routing), miernu Temperature pre analýzu a RAG, vysokú Temperature len pre vedome kreatívne kroky. Dokumentujte hodnoty pre každý krok workflowu, pinnujte verziu modelu a prevádzkujte eval pipeline proti fixnému testovaciemu datasetu, aby regresie boli viditeľné skôr, než sa prejavia pri nasadení u zákazníka. Ako viedenská agentúra pre KI agentov podporuje Blck Alpaca DACH podniky v tom, aby presne tieto nastavenia čisto nakonfigurovali a previedli do spoľahlivých, auditovateľných agentových workflowov.

Často kladené otázky

Čo znamená Temperature 0 pri LLM?

Temperature 0 znamená greedy decoding: model v každom kroku vyberá najpravdepodobnejší token namiesto samplingu. Je to najdeterministickejší režim a pre tool-calls, klasifikáciu a štruktúrované výstupy je štandardom. Poznámka: kvôli GPU floating-point a batching efektom nie je ani Temperature 0 v praxi vždy bit-identicky reprodukovateľná.

Aký je rozdiel medzi Temperature a Top-p?

Temperature škáluje celé pravdepodobnostné rozdelenie (ako ostré alebo ploché je), predtým ako sa sampluje. Top-p (nucleus sampling) oreže množinu kandidátov na najmenšiu množinu tokenov, ktorých kumulovaná pravdepodobnosť dosiahne p. Temperature riadi rozptyl, Top-p odsekáva nepravdepodobné odľahlé hodnoty. Oba sa často kombinujú, mali by sa však nastavovať uvedomene.

Mali by sa Temperature a Top-p meniť súčasne?

Ako pravidlo: aktívne riadiť len jeden parameter a druhý nechať na východiskovej hodnote poskytovateľa. Kto oba súčasne agresívne znižuje, vytvára ťažko predvídateľné vzájomné pôsobenia. Pre deterministických agentov väčšinou stačí Temperature 0 až 0,2 pri Top-p na východiskovej hodnote. Pre kontrolovanú kreativitu je riadenie cez Top-p pri miernej Temperature často presnejšie.

Robí Temperature 0 agenta úplne deterministickým?

Nie, nie je to garantované. Temperature 0 odstraňuje sampling náhodnosť, ale zvyšková variancia vzniká cez nedeterministické GPU operácie, dynamický batching a pri Mixture-of-Experts modeloch cez routing. Skutočná reprodukovateľnosť dodatočne vyžaduje fixovaný seed (pokiaľ ho poskytovateľ podporuje) a zmrazenú verziu modelu.

Ktorá Temperature je správna pre štruktúrované JSON výstupy?

Pre JSON, function-calling a schémou viazané výstupy platí Temperature 0 až 0,2 ako štandard. Tak zostáva štruktúra stabilná a chyby pri parsovaní sa minimalizujú. Ešte spoľahlivejšie sú režimy structured-output alebo constrained-decoding na strane poskytovateľa (k roku 2026 dostupné u poskytovateľov ako Anthropic, OpenAI a Google), ktoré schému vynucujú, namiesto toho aby sa len spoliehali na nízku Temperature.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky, alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.

Odoberať newsletter →Naše služby

Previous← Tokenizácia a kontextové okno: Čo poháňa latenciu a náklady agenta NextFunction Calling vs. Tool Use: Vysvetlenie pojmov a implementácie →