Multimodalny RAG: vyhľadávanie obrázkov, PDF a tabuliek
Multimodalny RAG rozširuje klasický Retrieval-Augmented-Generation o netextový obsah: obrázky, naskenované PDF, tabuľky, grafy a diagramy sa indexujú a sprístupňujú na vyhľadávanie. Namiesto prehľadávania len čistého textu systém získava vizuálne a štruktúrované informácie cez multimodalne embeddings, popisy z Vision-LLM alebo layout-aware parsing a vkladá ich so zdrojovým podložením do prompt-u odpovede.
Key Takeaways
- ✓Klasický RAG stráca všetko, čo nie je čistý plaintext - tabuľky, grafy, naskenované strany a diagramy prepadnú cez sito. Multimodalny RAG túto medzeru uzatvára.
- ✓Existujú tri hlavné prístupy: multimodalne embeddings (CLIP, ColPali), popis cez Vision-LLM (obrázok/tabuľka sa preloží do textu) a layout-aware parsing (Docling, Unstructured, RAGFlow) - často ako kombinácia.
- ✓Hybrid Search zostáva povinnosťou: čisté embeddings míňajú presné kódy, čísla artiklov a ID v tabuľkách; BM25 plus rank fusion (RRF) ich zachytí.
- ✓Typické use-cases sú technická dokumentácia, faktúry a reporty - presne tam, kde informácia spočíva primárne v layoute, tabuľkách a grafike namiesto súvislého textu.
- ✓Komplexné layouty (viacstĺpcové, vnorené tabuľky, zlé skeny) zostávajú najväčšou nástrahou - layout-aware parsing a evaluácia cez RAGAS nie sú voliteľné.
- ✓K roku 2026 je toolchain produkčne pripravený, ale nákladovo a latenčne náročnejší než čisto textový RAG - voľba komponentov by sa mala riadiť typom dokumentu.
Multimodalny RAG rozširuje vzorec Retrieval-Augmented-Generation o všetko, čo nie je čistý súvislý text: obrázky, naskenované PDF, tabuľky, grafy a diagramy. Klasický RAG indexuje len text. Akonáhle informácia spočíva primárne v layoute, v tabuľke alebo v grafike, čisto textová pipeline stráca práve tú podstatu, ktorá je pre odpoveď rozhodujúca. Multimodalny RAG robí tento obsah indexovateľným a vyhľadateľným - a tým aj citovateľným so zdrojovým podložením.
- Čo sa získava? Nielen plaintext, ale aj obrázky strán, štruktúry tabuliek, obsah grafov a naskenované dokumenty.
- Ako? Cez multimodalne embeddings (CLIP, ColPali), popisy z Vision-LLM alebo layout-aware parsing - väčšinou ako kombinácia.
- Načo? Technická dokumentácia, faktúry, reporty - tam, kde znalosť leží v layoute a grafike namiesto súvislého textu.
Prečo klasický RAG zlyháva pri obrázkoch a tabuľkách
Klasická RAG pipeline beží v dvoch dráhach: v indexačnej dráhe sa zdroje načítajú, parsujú, rozdelia na chunky, embeddujú a zapíšu do vektorovej databázy. V query dráhe sa dopyt embedduje, získa cez Hybrid Retrieval, re-ranknú sa výsledky a vloží sa do prompt-u generátorového LLM. Slabé miesto pre netextový obsah sedí priamo na začiatku - pri parsovaní a chunkingu.
Tu dominujú dva anti-patterny. Po prvé: naivný fixed-size chunking ignoruje hranice viet, tabuliek a zoznamov. Stratégia okna 512 tokenov rozseká tabuľku priamo v strede riadka, obsah tabuľky sa stratí alebo sa skreslí - typickým dôsledkom sú halucinácie a chýbajúce hodnoty. Po druhé: čistá sémantika bez BM25. Presné kódy ako číslo artiklu „TS-999" alebo číslo faktúry embeddings často míňajú, pretože sémantická podobnosť tu nepomáha. Hybrid Search s rank fusion (RRF) takéto presné zásahy zachytí a preto zostáva povinnosťou aj v multimodalnom variante.
Pri naskenovaných PDF k tomu pristupuje sťažujúca okolnosť, že vôbec neexistuje textová vrstva. Bez OCR alebo vizuálneho retrievalu je strana pre textový RAG jednoducho neviditeľná.
Tri prístupy k multimodalnemu retrievalu
1. Multimodalne embeddings (CLIP, ColPali)
Multimodalne embedding modely zobrazujú obrázok a text do toho istého vektorového priestoru. Tým sa dá textový dopyt matchovať proti obrazovým vektorom a naopak. CLIP je známym predstaviteľom generického prepojenia obrázok-text. ColPali ide o krok ďalej a je postavený špeciálne pre dokumentový retrieval: indexuje vyrenderovanú stranu ako obrázok a obchádza tým chybové medziparsovanie do textu - layout, tabuľky a grafika zostávajú zachované ako vizuálny kontext. To je obzvlášť silné pri dokumentoch, ktorých význam spočíva v layoute.
Aj v mainstreame sa embedding vrstva posúva smerom k multimodalite. Model Gemini Embedding (Google) je vedený ako multimodalny a v roku 2026 je na špici MTEB - Gemini Embedding 2 dosahuje retrieval score 67,71 (stav 2026). Keďže sa hodnoty MTEB menia týždenne a MTEB v2 nie je priamo porovnateľný s v1, malo by sa pri každej voľbe modelu dokumentovať dátum snapshotu.
2. Vision-LLM na popis
Tu preberá predspracovanie LLM schopné Vision: dostane obrázok, tabuľku alebo graf a vytvorí presný textový popis. Tento popis sa úplne normálne embedduje a zapíše do vektorovej databázy. Výhoda: existujúci textový RAG stack zostáva použiteľný, retrieval beží cez osvedčené text embeddings. Nevýhoda: popis je len taký dobrý ako Vision model a stojí dodatočné LLM volanie na každý asset pri indexovaní. Pre grafy a diagramy je tento prístup často presný, pretože dobrý Vision-LLM dokáže verbalizovať osi, trendy a dátové body.
3. Layout-aware parsing
Tretia cesta čisto oddelí štruktúru ešte predtým, než sa embedduje. Layout-aware parsery rozpoznávajú tabuľky, zoznamy, hlavičky a stĺpce a túto štruktúru zachovávajú. Na to je dostupných viacero produkčne pripravených nástrojov (stav 2026): Docling (IBM, Open Source), Unstructured.io, LlamaParse, Marker (datalab.to), PyMuPDF, ako aj OCR engines ako Tesseract, Azure Document Intelligence a AWS Textract. Framework RAGFlow prináša explicitne „Deep Document Understanding" s Document Layout Analysis (DLA) a OCR. Na úrovni chunkingu je vhodnou stratégiou layout-aware chunking (Docling, Unstructured), ktorý zachováva štruktúru tabuliek, zoznamov a hlavičiek - ideálny pre PDF, zmluvy a technické manuály.
Porovnanie prístupov
Prístup | Sila | Slabina | Hodí sa pre |
|---|---|---|---|
Multimodalne embeddings (CLIP, ColPali) | Layout zostáva zachovaný ako obrázok, žiadne stratové parsovanie | Vyššia pamäťová/výpočtová náročnosť, novší toolchain | Naskenované PDF, grafy, layoutom riadené dokumenty |
Popis cez Vision-LLM | Využíva existujúci textový RAG stack, dobrý pre grafy | Dodatočné LLM náklady na asset, kvalita závislá od modelu | Diagramy, jednotlivé obrázky, reporty |
Layout-aware parsing (Docling, Unstructured, RAGFlow) | Zachovanie štruktúry tabuliek, vyzretý, dobre auditovateľný | Slabý pri čistých skenoch bez OCR, chybový pri divokých layoutoch | Technická dokumentácia, zmluvy, faktúry s textovou vrstvou |
Hybrid Search (doplnkový) | Zachytí presné kódy, ID, sumy | Sám o sebe nerieši vizuálny retrieval | Vždy spolu aktivovať |
V praxi tieto prístupy nie sú rozhodnutím buď-alebo. Robustný systém kombinuje layout-aware parsing pre štruktúrované tabuľky, popisy z Vision-LLM pre grafy a Hybrid Search pre presné zásahy.
Typické use-cases
- Technická dokumentácia: manuály s rozkladovými výkresmi, schémami zapojenia a špecifikačnými tabuľkami. Agri-Query benchmark (arXiv:2508.18093, august 2025) ukazuje pre manuály poľnohospodárskej techniky, že Hybrid RAG dosahuje naprieč viacerými jazykmi viac než 85 percent accuracy a výrazne prekonáva naivné long-context prompty.
- Faktúry: položkové tabuľky, sumy, sadzby DPH a čísla faktúr. Tu je rozhodujúca kombinácia extrakcie štruktúry tabuľky a presného BM25 matchu na kódy.
- Reporty a prezentácie: kvartálne čísla v grafoch, KPI dashboardy, diagramy. Popis grafiky cez Vision-LLM plus parsing tabuliek pokryje oboje.
Konkrétny príklad: faktúrový RAG
Predpokladajme, že poskytovateľ služieb chce sprehľadávateľniť 50 000 naskenovaných PDF faktúr, aby support agent mohol odpovedať na otázky ako „Aká sadzba DPH platila pre položku 3 na faktúre TS-2024-0815?".
```
INDEXING (offline):
[50 000 PDF skenov]
-> OCR (Tesseract / Azure Document Intelligence)
-> Layout-aware parsing (Docling): rozpozná položkovú tabuľku
-> tabuľku serializovať so zachovaním štruktúry (Markdown)
-> voliteľne: Vision-LLM popíše layout/pečiatky
-> Embedding (multilingual, napr. Cohere Embed v4)
-> Vektor-DB upsert + paralelný BM25 index
(metadáta: tenant_id, cislo_faktury, datum, ACL)
QUERY (online):
[Otázka] -> Embedding + BM25 query ("TS-2024-0815")
-> Hybrid Retrieval (top_k = 50)
-> Re-Ranker (Cohere Rerank v3.5), top_k = 5
-> Prompt + citácia zdroja (číslo faktúry + snippet)
-> LLM -> odpoveď s faithfulness check (RAGAS)
```
BM25 dráha nájde presné číslo faktúry, ktoré by čisté embedding minulo. Layout parser zabezpečí, že „položka 3" a príslušná sadzba DPH zostanú v tom istom štruktúrovanom riadku, namiesto toho, aby boli roztrhnuté cez fixed-size chunking. Re-ranking výrazne znižuje chybovosť retrievalu - Anthropic Contextual Retrieval dokladá pre text až o 67 percent menej chýb retrievalu v kombinácii s rerankingom (stav 2024); pre multimodalne pipelines platí princíp re-rankingu analogicky.
Nástrahy pri komplexných layoutoch
- Vnorené a viacstĺpcové tabuľky: parsery priraďujú bunky nesprávne. Testovať pred roll-outom na reálnych dokumentoch, nie na ideálnych príkladoch.
- Zlá kvalita skenu: OCR chyby sa propagujú do každého nasledujúceho kroku. Tu sú vizuálne prístupy ako ColPali často robustnejšie, pretože obchádzajú OCR krok.
- Chýbajúci re-ranking a chýbajúca evaluácia: bez merania faithfulness zostávajú regresie kvality neviditeľné. RAGAS meria pozdĺž faithfulness, answer relevancy, context precision a context recall - to patrí do CI.
- Lost-in-the-chunks: chunk „Zvýšil sa o 12 percent" bez kontextovej hlavičky je bezcenný. Contextual chunking (Anthropic 2024) predraďuje LLM-generovaný kontext a merateľne zvyšuje kvalitu retrievalu.
- Embedding drift pri zmene modelu: zmena multimodalneho embedding modelu si vyžaduje úplnú re-indexáciu. Viesť verzný string v indexe.
- DSGVO pri faktúrach a skenoch: osobné údaje v obrázkoch a tabuľkách podliehajú rovnakým povinnostiam - oddelenie mandantov, koncept rolí, mazacia pipeline na chunky a embeddings, EU hosting (porov. DSK-Orientierungshilfe RAG). Informatívne, nie právne poradenstvo.
Pre agentúry a B2B rozhodovateľov
Multimodalny RAG už v roku 2026 nie je výskumnou témou, ale rozhoduje o tom, či KI asistent vôbec sprístupní najcennejšie firemné dokumenty - technické manuály, faktúry, reporty - alebo na nich stroskotá. Pre agentúry leží páka v čistej voľbe komponentov podľa typu dokumentu: layout-aware parsing pre štruktúrované PDF, vizuálny retrieval pre skeny a grafy, Hybrid Search a re-ranking ako štandard. Kto chce nastaviť znalostný systém s obrázkami, naskenovanými PDF a tabuľkami produkčne pripravený, v súlade s DSGVO a s merateľnou faithfulness, mal by plánovať architektúru a evaluáciu od začiatku spoločne. Blck Alpaca sprevádza DACH podniky práve pri tomto návrhu - od ingestion pipeline až po EU-suverénny toolchain.
Často kladené otázky
Aký je rozdiel medzi multimodalnym RAG a klasickým RAG?
Potrebujem CLIP alebo ColPali, alebo stačí parsovať PDF do textu?
Ako multimodalny RAG zaobchádza s tabuľkami?
Aké sú najčastejšie zdroje chýb pri multimodalnom RAG?
Dá sa multimodalny RAG nasadiť v súlade s DSGVO?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.