Preskočiť na obsah
2.4Expert7 min

Tree of Thoughts: Keď jedna cesta nestačí

Blck Alpaca·
Definition

Tree of Thoughts (ToT) je postup uvažovania pre jazykové modely, ktorý namiesto jediného, lineárneho myšlienkového postupu generuje, hodnotí a pomocou vyhľadávania (BFS alebo DFS) s backtrackingom sleduje viacero paralelných reasoning ciest. Model tak dokáže rozpoznať slepé uličky, vrátiť sa späť a preskúmať alternatívy namiesto toho, aby zostal uviaznutý na chybnom predpoklade.

Key Takeaways

  • Tree of Thoughts nahrádza lineárny Chain-of-Thought myšlienkový postup vyhľadávacím stromom z viacerých reasoning ciest, ktoré sa generujú, hodnotia a sledujú s backtrackingom.
  • Úžitok sa prejavuje pri úlohách náročných na vyhľadávanie a lookahead: v hre Game of 24 dosiahol ToT s GPT-4 podľa paperu 74 percent úspešnosti oproti 4 percentám pri klasickom CoT.
  • Cena je vysoká: ToT stojí podľa miery vetvenia zhruba 50- až 150-násobok množstva tokenov jediného CoT volania a je výrazne pomalší.
  • Kvalita silno závisí od generátorového modelu: s GPT-3.5 klesla úspešnosť v Game of 24 na 19 percent, malé modely ako Mixtral-8x7B zlyhali aj na najjednoduchších hlavolamoch.
  • Moderné reasoning modely už vyhľadávanie internalizujú, a preto ToT (k roku 2026) zostáva relevantný najmä pre domény podliehajúce auditu, overiteľné hlavolamy a nákladovo úsporné malé proposer modely.
  • Produkčne pripravené ďalšie rozvinutie je LATS (ToT plus Reflexion plus MCTS), ktoré je v LangGraph dostupné ako tutoriál.

Tree of Thoughts (ToT) je postup uvažovania pre jazykové modely, ktorý namiesto jediného, lineárneho myšlienkového postupu generuje, hodnotí a pomocou vyhľadávania (BFS alebo DFS) s backtrackingom sleduje viacero paralelných reasoning ciest. Model tak dokáže rozpoznať slepé uličky, vrátiť sa späť a preskúmať alternatívy namiesto toho, aby zostal uviaznutý na raz urobenom chybnom predpoklade. Postup predstavili Yao et al. v paperi „Tree of Thoughts: Deliberate Problem Solving with Large Language Models" (arXiv:2305.10601, máj 2023, NeurIPS 2023).

  • Čo je nové? ToT modeluje usudzovanie ako vedomú, vyhľadávaním riadenú „System-2" exploráciu cez strom medzistavov namiesto jedinej reťaze myšlienok.
  • Kedy je potrebný? Vždy vtedy, keď jediná cesta nestačí: pri hlavolamoch, plánovaní so slepými uličkami a úlohách, ktoré vyžadujú lookahead a backtracking.
  • Koľko to stojí? Zhruba 50- až 150-násobok množstva tokenov jediného Chain-of-Thought volania, plus výrazne vyššia latencia.

Prečo jediná cesta často nestačí

Chain of Thought (CoT) výrazne zlepšil kvalitu uvažovania jazykových modelov tým, že model svoje medzikroky explicitne vypisuje. Háčik: CoT prebieha striktne zľava doprava a nedokáže sa vrátiť späť. Akonáhle model urobí skoro chybný predpoklad, vlečie túto chybu cez celý zvyšok myšlienkového postupu.

Pri mnohých úlohách to takmer nehrá rolu. Pri problémoch, ktoré vyžadujú skutočné vyhľadávanie a predvídanie, sa však CoT zrúti. Klasickým príkladom z paperu je číselná hra „Game of 24" (zo štyroch čísel vytvoriť pomocou základných počtových úkonov 24). Tu treba skúšať kombinácie, rozpoznávať slepé uličky a voliť alternatívne výpočtové postupy. Práve to lineárna reťaz nedokáže zvládnuť: v paperi dosiahol CoT s GPT-4 tu iba 4 percent úspešnosti.

Tree of Thoughts rieši tento štrukturálny nedostatok. Namiesto reťaze buduje strom, v ktorom je každý uzol čiastočným riešením, každé vetvenie alternatívnym pokračovaním a každý list predstavuje buď riešenie, alebo slepú uličku.

Štyri dizajnové rozhodnutia ToT

ToT paper opisuje štyri modulárne stavebné prvky, o ktorých musí každá konkrétna ToT implementácia rozhodnúť:

  1. Dekompozícia myšlienok (thought) — Ako sa problém rozloží na jednotlivé „thoughts"? Jeden thought môže byť výpočtový krok, plán odseku alebo jedno slovo do krížovky.
  2. Generátor myšlienok — V danom stave sa navrhne alebo nasampluje k kandidátov na ďalšiu myšlienku.
  3. State-evaluator — Každý kandidát sa ohodnotí, buď nezávisle (v paperi pomocou hlasov ako sure/maybe/impossible, vždy trojnásobne nasamplovaných), alebo cez relatívne poradie.
  4. Vyhľadávací algoritmus — Strom prechádza BFS (najlepších b kandidátov na úroveň, v paperi štandard b=5) alebo DFS s backtrackingom.

Koncepčnú inšpiráciu čerpá paper explicitne z výskumu riešenia problémov od Newella a Simona z 50. rokov: vedomé, vyhľadávaním riadené usudzovanie namiesto asociatívnej jednorazovej odpovede.

Schematický príklad: ToT slučka ako pseudokód

Nasledujúci pseudokód ukazuje BFS variant so šírkou b a hĺbkou d. Je myslený ako názorná ukážka, nie ako spustiteľná implementácia.

```
frontier = [Koren(problem)] # zoznam aktivnych stavov
for hlbka in range(d): # napr. d = 3 kroky
kandidati = []
for stav in frontier:
for _ in range(k): # k navrhov na stav
t = generator(stav) # dalsi thought
kandidati.append(stav + t)
ohodnotene = [(evaluator(c), c) for c in kandidati]
# slepe ulicky (impossible) zahodit -> implicitny backtracking
ohodnotene = [x for x in ohodnotene if x[0] != "impossible"]
frontier = top_b(ohodnotene, b=5) # dalej sledovat len najlepsich b
riesenie = najlepsi(frontier)
```

Rozhodujúce sú dve miesta. Po prvé vetvenie: na stav vzniká k kandidátov, strom sa rozširuje. Po druhé top_b pruning v kombinácii so zahadzovaním impossible uzlov: zle ohodnotené cesty sa odrežú a vyhľadávanie sústreďuje výpočtový výkon na najsľubnejšie vetvy. Pri DFS sa backtracking objavuje explicitne: ak sa cesta ukáže ako slepá ulička, vyhľadávanie sa vráti k poslednému sľubnému uzlu.

Náklady a úžitok: ToT proti CoT

Úžitok ToT je na správnych úlohách značný, ale cena rovnako. Nasledujúce čísla pochádzajú z ToT paperu (GPT-4, podmienky ako v paperi) a treba ich čítať ako relatívne veľkosti účinku, nie ako dnešné absolútne hodnoty.

Úloha (podmienky paperu, GPT-4)

Chain of Thought

Tree of Thoughts

Game of 24 (úspešnosť)

4 %

74 %

Mini-krížovka 5x5 (úroveň hry)

1 %

20 %

Mini-krížovka 5x5 (úroveň slova)

16 %

60 %

Kreatívne písanie, koherencia (škála 1–10)

~6,2

~7,6

Týmto ziskom v kvalite stojí oproti masívny nárast náročnosti. Nasledujúca tabuľka zaraďuje ToT do spektra bežných vzorcov agentového uvažovania; hodnoty tokenov sú hrubé rády veľkosti relatívne k jedinému CoT volaniu (= 1), syntetizované z údajov paperu a poľných správ a treba ich merať na vlastnej záťaži.

Vzorec

Tokeny (relatívne k CoT = 1)

Latencia

Komplexita implementácie

Chain of Thought

1

nízka

veľmi nízka

ReAct

3–10x

N sekvenčných krokov

nízka

Tree of Thoughts (b=5, d=3)

50–150x

b^d volaní evaluatora

vysoká

LATS (ToT + Reflexion)

100–300x

strom x reflexia

veľmi vysoká

V Game of 24 spotreboval ToT podľa paperu okolo 5 500 tokenov na prípad oproti niekoľkým stovkám pri CoT. Latencia je striktne horšia ako pri CoT, pretože rastie úmerne k vetveniu, hĺbke a miere samplovania.

Kvalita stojí a padá s generátorom

Ústredné zistenie z výskumu: ToT nepozdvihne každý model. Účinok je ovládaný generátorovým modelom. V Game of 24 dosiahol GPT-4 s ToT 74 percent, GPT-3.5 s ToT naopak iba 19 percent. Analýza paperu oddeľuje úlohy čisto: GPT-4 ako generátor plus GPT-3.5 ako evaluator dali 64 percent, v opačnej konštelácii (GPT-3.5 generuje, GPT-4 hodnotí) iba 31 percent.

Ešte zreteľnejšie to ukazuje projekt Stanford CS224N: Mixtral-8x7B nevyriešil ani jeden z desiatich najjednoduchších Game-of-24 hlavolamov, pretože model halucinoval čísla a zlyhával na jednoduchej aritmetike, čím sa evaluator stal bezcenným. Pre prax to znamená: ToT na slabom modeli páli rozpočet bez toho, aby vyriešil problém.

Kedy ToT (ne)nasadiť

Z výskumu vyplývajú jasné mantinely pre rok 2026.

ToT sa hodí, keď:

  • úloha má vyhľadávací charakter, teda vykazuje lookahead, vetvenie a potenciálne slepé uličky (hlavolamy, optimalizácia, scheduling, plánovanie).
  • existuje spoľahlivý hodnotiaci signál, najlepšie s overiteľnými odmenami.
  • je vyžadovaný audit-trail nad preskúmanými alternatívami, napríklad v regulovaných DACH odvetviach pod GDPR alebo EU AI Act.
  • sa zámerne používa malý, lacný proposer model, ktorého slabší jednotlivý výsledok sa má kompenzovať vyhľadávaním.

ToT sa nehodí, keď:

  • nasadený model dokáže odpoveď aj tak doručiť v jednom kroku.
  • je aplikácia citlivá na latenciu (napríklad live-chat).
  • nie je k dispozícii jasný evaluator; bez dobrého hodnotiaceho signálu vyhľadávanie vyznie naprázdno.

Najdôležitejšie zaradenie z výskumu: pre všeobecné uvažovanie je explicitný ToT do veľkej miery prekonaný, pretože moderné reasoning modely vyhľadávanie v strome zachytávajú interne. ToT preto zostáva relevantný primárne ako koncepčný základ pre stromovo štruktúrované agentové vyhľadávanie a v uvedených špeciálnych prípadoch.

Od postupu k agentovi: LATS

Kto potrebuje ToT v agentovom stacku, dnes väčšinou nesiaha po čistom ToT, ale po nástupcovi LATS (Language Agent Tree Search, Zhou et al., arXiv:2310.04406). LATS kombinuje stromovú expanziu ToT so self-reflection (v zmysle Reflexion) a Monte-Carlo-Tree-Search. V LangGraph na to existuje oficiálny tutoriál; dedikovaný tutoriál iba pre ToT tam nie je. Blog LangChain argumentuje, že LATS si oproti porovnateľným algoritmom ako Tree of Thoughts, ReAct a Reflexion vedie lepšie. Pre zaradenie do frameworkov platí: v CrewAI nie je ToT idiomatický (sekvenčne/hierarchicky), v AutoGen prácne realizovateľný cez Selector Group Chat a v n8n kvôli kombinatorickej explózii nerealistický, okrem Best-of-N-samplingu (ToT s hĺbkou 1).

Pre agentúry a B2B rozhodovateľov

Pre marketingové agentúry a DACH B2B tímy je odkaz pragmatický: Tree of Thoughts nie je štandardný nástroj na každodennú prácu, ale špeciálny inštrument. V prevažnej väčšine zákazníckych projektov (chatboty, content pipelines, rešeršné workflows) sú lacnejšie vzorce ako ReAct alebo ReWOO lepšou voľbou. ToT alebo jeho nástupca LATS sa vyplatia iba tam, kde jediná cesta riešenia preukázateľne nestačí, napríklad pri copywritingu s množstvom constraintov, optimalizačných úlohách alebo regulovaných procesoch, ktoré vyžadujú overiteľný vyhľadávací trail nad zahodenými alternatívami. Kto zvažuje ToT, mal by si vopred zabezpečiť dve veci: výkonný generátorový model a spoľahlivý hodnotiaci signál. Ak chýba jedno z toho, náklady na tokeny sa znásobia bez protihodnoty. Blck Alpaca pomáha práve pri tomto rozhodnutí, teda pri triezvom výbere vhodného vzorca uvažovania a čistom zvážení nákladov a úžitku ešte predtým, než sa v produkcii spáli rozpočet.

Často kladené otázky

Aký je rozdiel medzi Tree of Thoughts a Chain of Thought?
Chain of Thought (CoT) vytvára jediný, striktne zľava doprava prebiehajúci myšlienkový postup a nedokáže sa vrátiť späť. Tree of Thoughts (ToT) generuje pri každom kroku viacero kandidátskych myšlienok, hodnotí ich a vzniknutý strom prehľadáva pomocou BFS alebo DFS s backtrackingom. Vďaka tomu môže ToT opustiť slepé uličky namiesto toho, aby zostal pripútaný k raz urobenému chybnému predpokladu.
Kedy sa Tree of Thoughts oplatí oproti lacnejšiemu Chain of Thought?
ToT sa oplatí pri úlohách s vyhľadávacím charakterom, lookaheadom a potenciálnymi slepými uličkami, napríklad pri hlavolamoch, kombinatorickej optimalizácii, plánovaní alebo textoch s tvrdými constraintmi. Predpokladom je spoľahlivý hodnotiaci signál (evaluator). Pri úlohách, ktoré model aj tak vyrieši v jednom kroku, alebo pri aplikáciách citlivých na latenciu nie je ToT kvôli 50- až 150-násobným nákladom na tokeny opodstatnený.
Ako funguje backtracking pri Tree of Thoughts?
Každý uzol v strome je čiastočné riešenie (jeden thought). State-evaluator hodnotí kandidátov, v ToT paperi napríklad pomocou hlasov ako sure/maybe/impossible. Ak evaluator vyhodnotí cestu ako impossible alebo ako slepú uličku, vyhľadávanie túto vetvu zahodí a vráti sa k poslednému sľubnému uzlu (DFS), respektíve ďalej sleduje najlepších b kandidátov na úroveň (BFS, v paperi štandard b=5).
Je Tree of Thoughts v roku 2026 ešte relevantný?
Pre všeobecné uvažovanie je explicitný ToT do veľkej miery prekonaný, pretože moderné reasoning modely vyhľadávanie už zachytávajú interne. ToT zostáva podľa výskumu relevantný najmä v troch prípadoch: v odvetviach podliehajúcich auditu a regulácii, pri hlavolamoch a optimalizácii s overiteľnými odmenami, ako aj v deploymentoch s malými, lacnými proposer modelmi. Koncepčne je ToT navyše základom pre moderných agentov na vyhľadávanie v strome ako LATS.
Ktoré frameworky podporujú Tree of Thoughts?
V LangGraph neexistuje dedikovaný ToT tutoriál; produkčne pripravený nástupca je LATS (Language Agent Tree Search), ktorý kombinuje ToT s MCTS a self-reflection a je k dispozícii ako LangGraph tutoriál. CrewAI sa nehodí idiomaticky, pretože pracuje sekvenčne/hierarchicky. V AutoGen je ToT realizovateľný cez Selector Group Chat, ale prácne. V n8n nie je skutočný ToT kvôli kombinatorickej explózii realistický, nanajvýš ako Best-of-N-sampling (ToT s hĺbkou 1).

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.