4.10Pokročilý7 min

Agentický RAG vs. klasický RAG: V čom je rozdiel?

Blck Alpaca·9. júna 2026

Definition

Agentický RAG je variant RAG, pri ktorom AI agent dynamicky rozhoduje, či, čo a ako často sa vedomosti načítavajú. Retrieval sa stáva nástrojom, ktorý agent volá reflexívne, viacstupňovo a z viacerých zdrojov. Klasický RAG naopak sleduje pevnú, jednorazovú pipeline bez rozhodovacej logiky.

Key Takeaways

✓Klasický RAG je statická pipeline (embed, retrieve, generate); agentický RAG je dynamická politika volania nástrojov agenta s reflection, planning, tool-use a multi-hop.
✓Kľúčový rozdiel: agent rozhoduje za behu, ČI, ČO a AKO ČASTO sa retrievuje, namiesto toho, aby každú požiadavku posielal cez tú istú pevnú postupnosť.
✓Agentický RAG poskytuje vyššiu kvalitu odpovedí pri zložitých multi-hop otázkach, no platí za to vyššou latenciou, vyššími nákladmi a rizikom nekontrolovaných tool-loopov (zdroj: Singh et al. 2025).
✓Pojem ‚agentický RAG' nie je k roku 2026 ešte ostro konsolidovaný a siaha od jednoduchého ReAct-plus-retriever až po multi-agentové systémy.
✓Praktické pravidlo: klasický RAG pre časté, jednoduché faktické otázky; agentický RAG len tam, kde viacstupňový reasoning, query-routing alebo viaceré zdroje ospravedlňujú vyššiu réžiu.

Agentický RAG je ďalší vývojový stupeň Retrieval-Augmented Generation, pri ktorom autonómny AI agent dynamicky rozhoduje, či, čo a ako často sa vedomosti načítavajú. Retrieval je pritom nástroj, ktorý agent volá reflexívne, viacstupňovo a z viacerých zdrojov. Klasický RAG naopak posiela každú požiadavku cez pevnú, jednorazovú pipeline bez rozhodovacej logiky.

Klasický RAG = statická pipeline: embedovať, raz načítať, vložiť do promptu, generovať. Vždy rovnaký priebeh.
Agentický RAG = dynamická politika nástrojov: agent plánuje, rozhoduje pre každú požiadavku, volá retrieval iteratívne a sám sa koriguje.
Trade-off: agentický RAG zvyšuje kvalitu pri zložitých otázkach, no stojí za to viac latencie a peňazí a nesie riziko nekontrolovaných tool-loopov.

Klasický RAG: statická pipeline

Klasický RAG (vo výskume zaradený ako Naive RAG a Advanced RAG, Gao et al. 2023/2024) sleduje deterministický priebeh. Požiadavka prechádza vždy tou istou postupnosťou krokov, bez ohľadu na to, či ide o triviálnu faktickú otázku alebo zložito vnorenú viacstupňovú otázku.

Typická query-cesta produktívnej klasickej RAG pipeline vyzerá takto:

```
User Query
-> Query Rewriter / HyDE (voliteľné, jednorazovo)
-> Embedding + BM25-Query
-> Hybrid Retrieval (top_k = 50-100)
-> Re-Ranker (top_k = 5-10)
-> Prompt-Template + citovanie zdrojov
-> LLM (Generator)
-> Output + Faithfulness-Check
```

Kľúčový predpoklad: jediný retrieval krok poskytne dosť kontextu pre odpoveď. To je robustné, predvídateľné a dobre merateľné. Slabina sa ukazuje pri otázkach, ktoré potrebujú viacero kôl načítania, pri ktorých nie je jasné, ktorý zdroj je relevantný, alebo pri ktorých sa pôvodná formulácia zle hodí k indexu. Pipeline nemôže doplniť, nemôže prehodiť smer a nemôže pridať druhý zdroj, pretože nemá rozhodovaciu logiku.

Agentický RAG: retrieval ako nástroj agenta

Agentický RAG podľa smerodajnej survey od Singh et al. 2025 (arXiv:2501.09136) vkladá autonómnych agentov do RAG pipeline. Títo agenti využívajú štyri agentické design pattern-y na dynamické riadenie retrieval stratégie:

Reflection (sebakritika): agent hodnotí načítané zdroje a vlastnú medziodpoveď a rozhoduje, či treba doplniť.
Planning: agent rozkladá zložitú otázku na čiastkové kroky (plan-and-execute).
Tool Use: retrieval je len jedným z viacerých nástrojov popri webovom vyhľadávaní, SQL dotaze či ďalších API.
Multi-Agent Collaboration: viacero špecializovaných agentov si rozdeľuje prácu.

Skorou formalizáciou tohto princípu je Self-RAG (Asai et al. 2023, arXiv:2310.11511), ktorý sa cez self-reflection tokeny učí, kedy je načítanie potrebné a či generovanie zostáva verné zdrojom. Koncepčne vyzerá konštrukcia agentického RAG takto:

```
[Agent (Planner)]
|__ Tool: search_kb(query) -> RAG-Pipeline
Tool: web_search(query)
|-> Tool: sql_query(...)
|-- Memory: conversation buffer + episodic store
Reflection: critique(answer, sources) -> loop
```

Štyri rozhodnutia, ktoré agent robí

Rozhodujúci rozdiel sa dá zhrnúť do štyroch rozhodnutí za behu, ktoré sú v klasickom RAG pevne zadrôtované:

ČI sa retrievuje (query-routing): pri pozdrave alebo čisto výpočtovej úlohe netreba načítanie. Agent môže retrieval preskočiť.
ČO sa retrievuje (query-rewriting, voľba zdroja): agent požiadavku preformuluje alebo ju nasmeruje na vhodný zdroj (interná vedomostná báza vs. web vs. štruktúrovaná DB).
AKO ČASTO sa retrievuje (multi-hop): ak jedna odpoveď nestačí, agent doplní spresnenou požiadavkou.
ČI odpoveď obstojí (self-correction): cez reflection agent overí výsledok oproti zdrojom a koriguje, namiesto toho, aby slepo generoval.

Priame porovnanie

Dimenzia	Klasický RAG (Naive/Advanced)	Agentický RAG
Priebeh	Statická, jednorazová pipeline	Dynamická politika volania nástrojov
Rozhodnutie o retrievale	Pevné, vždy jedno načítanie	Agent rozhoduje či/čo/ako často
Multi-hop	Nie	Áno, iteratívne
Query-routing	Nie (jeden zdroj)	Áno (viaceré zdroje, voľba nástroja)
Self-correction	Nie (voliteľný faithfulness-check na konci)	Áno (reflection v loope)
Latencia	Stredná, predvídateľná (~100-800 ms)	Vysoká, premenlivá (viacero LLM kôl)
Náklady na požiadavku	Nízke-stredné, stabilné	Vyššie, ťažko plánovateľné
Typický failure	Chunk-mismatch, jeden príliš slabý zdroj	Nekontrolované tool-loopy, explózia nákladov
Komplexnosť (stavba/prevádzka)	Stredná	Veľmi vysoká
Mainstream-fáza	2020-2023	2024-2026

Zdroje: Gao et al. 2023/2024 (arXiv:2312.10997); Singh et al. 2025 (arXiv:2501.09136).

Výhody a nevýhody: kvalita oproti latencii a nákladom

Pridanou hodnotou agentického RAG je kvalita odpovedí pri zložitých otázkach. Multi-hop otázky („Ktorý dodávateľ v regióne X mal v poslednom kvartáli najvyššiu mieru reklamácií a čo k tomu stojí v rámcovej zmluve?") vyžadujú viacero načítaní z viacerých zdrojov plus medzireasoning. Statická pipeline na tom štrukturálne stroskotá, agent ich dokáže rozriešiť krok za krokom.

Náklady tejto pridanej hodnoty sú reálne a konkrétne:

Latencia: každé reflection a multi-hop kolo je dodatočné LLM volanie. Z jednej odpovede sa rýchlo môžu stať tri až päť sekvenčných generovaní.
Náklady: viac LLM volaní na požiadavku priamo znamená vyššie náklady. V nemčine to navyše sťažuje fakt, že nemecké kompozitá sú podľa tokenizera zhruba 1,3 až 1,7-krát náročnejšie na tokeny než anglický ekvivalent, čo robí každý dodatočný reasoning krok drahším.
Stabilita: vo výskume zdokumentovaným typickým failure-mode sú nekontrolované tool-loopy a explózia nákladov (Singh et al. 2025). Bez tvrdých limitov pre iterácie, rozpočet a timeout sa správanie stáva nepredvídateľným.
Zrelosť pojmu: „agentický RAG" nie je k roku 2026 ešte ostro konsolidovaný pojem. Siaha od jednoduchého ReAct-plus-retriever až po multi-agentové architektúry (HM-RAG, M-RAG). To treba zohľadniť pri výbere nástrojov a riadení očakávaní.

Dôležité pre zaradenie: agentický RAG nenahrádza klasický RAG, ale stavia naň. Podkladová pipeline (hybrid search, re-ranking, contextual retrieval) zostáva základom, ktorý agent volá ako nástroj. Rovnako tak paralelná long-context debata (1-2 mil. tokenov kontextové okno) k roku 2026 nie je náhradou RAG, ale komplementaritou: pri realistickom multi-needle retrievale klesá aj Gemini na zhruba 60 % recall, pri výrazne vyššej latencii a nákladoch na požiadavku.

Konkrétny príklad: tá istá otázka, dve architektúry

Požiadavka: „Porovnaj naše GDPR/DSGVO lehoty na vymazanie s aktuálnou praxou dozorných orgánov a uveď odchýlky."

Klasický RAG: embedding otázky, jedno hybrid načítanie z internej vedomostnej bázy, re-ranking na top-5, generovanie. Výsledok: interné lehoty na vymazanie sú správne citované. „Aktuálna prax dozorných orgánov" chýba, pretože nie je v internej báze a pipeline nemôže osloviť druhý zdroj. Jedno generovanie, nízke stabilné náklady, no neúplná odpoveď.

Agentický RAG: agent plánuje dve čiastkové otázky. Krok 1: search_kb("interné GDPR/DSGVO lehoty na vymazanie") poskytne interné hodnoty. Krok 2: reflection rozpozná, že chýba externé porovnávacie meradlo, a zavolá web_search("aktuálna prax dozorných orgánov lehoty na vymazanie"). Krok 3: agent zhrnie oba zdroje a označí odchýlky. Výsledok: úplná odpoveď, no tri LLM kolá namiesto jedného, tomu zodpovedajúca vyššia latencia a náklady.

Toto porovnanie ukazuje rozhodovacie kritérium: oplatí sa dodatočná réžia na požiadavku, meraná nárastom kvality pre daný prípad použitia.

Kedy sa agentický RAG oplatí

Agentický RAG je opodstatnený, ak platí aspoň jeden z týchto faktorov:

Relevantná časť požiadaviek vyžaduje multi-hop reasoning cez viaceré fakty.
Musia sa zahrnúť viaceré heterogénne zdroje (interná KB, web, štruktúrovaná DB).
Požiadavky sú často nejednoznačné a profitujú z query-routing a -rewriting.
Jediná pevná pipeline poskytuje merateľne príliš slabé hodnoty faithfulness, resp. context-recall (RAGAS).

Pragmatickou strednou cestou je hybrid s routingom: rýchla klasická cesta pre väčšinu jednoduchých faktických otázok a agentická cesta len pre zložité prípady. Tak vznikajú vysoké náklady len tam, kde poskytujú skutočnú pridanú hodnotu. V každom prípade k tomu patria tvrdé guardraily: limit iterácií, nákladový rozpočet na požiadavku, timeout a priebežné tracing (napríklad LangSmith alebo Arize Phoenix).

Pre agentúry a B2B rozhodovateľov

Pre DACH agentúry a B2B tímy je posolstvo striezlivé: agentický RAG nie je štandardný upgrade, ale vedomé architektonické rozhodnutie s nákladovými dôsledkami. Začnite čistou klasickou RAG pipeline (hybrid search, re-ranking, evaluácia cez RAGAS) a najprv zmerajte, kde stroskotáva na multi-hop alebo viaczdrojových otázkach. Až táto dátová báza ospravedlňuje krok k agentickému RAG a poskytuje argument voči rozpočtu. Ak chcete túto konštrukciu, routing medzi klasickou a agentickou cestou a potrebné guardraily pre DACH trh plánovať alebo evaluovať, Blck Alpaca vás podporí od architektonického rozhodnutia až po produktívnu, GDPR/DSGVO-konformnú realizáciu s EU-hostingom.

Často kladené otázky

Aký je hlavný rozdiel medzi agentickým RAG a klasickým RAG?

Klasický RAG spracúva každú požiadavku cez pevnú pipeline: embedovať, raz načítať, generovať. Agentický RAG pred to predradí agenta, ktorý za behu rozhoduje, či sa vôbec retrievuje, ktorý zdroj sa osloví, či sa požiadavka musí preformulovať a či je potrebný ďalší retrieval krok. Retrieval je tu jeden nástroj spomedzi viacerých, nie pevný predspracovací krok.

Je agentický RAG vždy lepší než klasický RAG?

Nie. Agentický RAG zvyšuje kvalitu pri zložitých multi-hop otázkach a nejednoznačných požiadavkách, no prináša vyššiu latenciu, vyššie náklady a riziko nekontrolovaných tool-loopov. Pre časté, jednoduché faktické otázky je dobre postavená klasická RAG pipeline väčšinou rýchlejšia, lacnejšia a stabilnejšia.

Aké sú typické schopnosti agentického RAG?

Query-routing (ktorý zdroj?), query-rewriting (preformulovanie požiadavky), multi-hop retrieval (viaceré načítania za sebou), tool-use (navyše webové vyhľadávanie alebo SQL), viaceré zdroje paralelne a self-correction. Skoro to bolo formalizované v Self-RAG (Asai et al. 2023) cez self-reflection tokeny; survey od Singh et al. 2025 zhŕňa tieto vzory.

Aká je najväčšia nevýhoda agentického RAG v produkcii?

Nekontrolované tool-loopy a explózia nákladov. Pretože agent sám rozhoduje, ako často retrievuje a generuje, jediná požiadavka môže spustiť mnoho LLM volaní. Bez tvrdých limitov pre iterácie, rozpočet a timeout sa latencia stáva nepredvídateľnou a náklady na požiadavku prudko rastú (zdroj: Singh et al. 2025).

Kedy sa oplatí prechod z klasického na agentický RAG?

Keď relevantná časť požiadaviek vyžaduje viacstupňový reasoning, keď je nutné zahrnúť viaceré heterogénne zdroje, keď sú požiadavky často nejednoznačné alebo keď jedna pevná pipeline merateľne poskytuje príliš slabé hodnoty faithfulness. Pragmatickou cestou je hybrid: routing medzi rýchlou klasickou cestou a agentickou cestou len pre zložité prípady.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky, alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.

Odoberať newsletter →Naše služby

Previous← Graph RAG: Keď sú vzťahy dôležitejšie než podobnosť NextCorrective RAG a Self-RAG: Samoopravné retrieval vzory pre menej halucinácií →