Preskočiť na obsah
4.12Expert7 min

Multimodalny RAG: vyhľadávanie obrázkov, PDF a tabuliek

Blck Alpaca·
Definition

Multimodalny RAG rozširuje klasický Retrieval-Augmented-Generation o netextový obsah: obrázky, naskenované PDF, tabuľky, grafy a diagramy sa indexujú a sprístupňujú na vyhľadávanie. Namiesto prehľadávania len čistého textu systém získava vizuálne a štruktúrované informácie cez multimodalne embeddings, popisy z Vision-LLM alebo layout-aware parsing a vkladá ich so zdrojovým podložením do prompt-u odpovede.

Key Takeaways

  • Klasický RAG stráca všetko, čo nie je čistý plaintext - tabuľky, grafy, naskenované strany a diagramy prepadnú cez sito. Multimodalny RAG túto medzeru uzatvára.
  • Existujú tri hlavné prístupy: multimodalne embeddings (CLIP, ColPali), popis cez Vision-LLM (obrázok/tabuľka sa preloží do textu) a layout-aware parsing (Docling, Unstructured, RAGFlow) - často ako kombinácia.
  • Hybrid Search zostáva povinnosťou: čisté embeddings míňajú presné kódy, čísla artiklov a ID v tabuľkách; BM25 plus rank fusion (RRF) ich zachytí.
  • Typické use-cases sú technická dokumentácia, faktúry a reporty - presne tam, kde informácia spočíva primárne v layoute, tabuľkách a grafike namiesto súvislého textu.
  • Komplexné layouty (viacstĺpcové, vnorené tabuľky, zlé skeny) zostávajú najväčšou nástrahou - layout-aware parsing a evaluácia cez RAGAS nie sú voliteľné.
  • K roku 2026 je toolchain produkčne pripravený, ale nákladovo a latenčne náročnejší než čisto textový RAG - voľba komponentov by sa mala riadiť typom dokumentu.

Multimodalny RAG rozširuje vzorec Retrieval-Augmented-Generation o všetko, čo nie je čistý súvislý text: obrázky, naskenované PDF, tabuľky, grafy a diagramy. Klasický RAG indexuje len text. Akonáhle informácia spočíva primárne v layoute, v tabuľke alebo v grafike, čisto textová pipeline stráca práve tú podstatu, ktorá je pre odpoveď rozhodujúca. Multimodalny RAG robí tento obsah indexovateľným a vyhľadateľným - a tým aj citovateľným so zdrojovým podložením.

  • Čo sa získava? Nielen plaintext, ale aj obrázky strán, štruktúry tabuliek, obsah grafov a naskenované dokumenty.
  • Ako? Cez multimodalne embeddings (CLIP, ColPali), popisy z Vision-LLM alebo layout-aware parsing - väčšinou ako kombinácia.
  • Načo? Technická dokumentácia, faktúry, reporty - tam, kde znalosť leží v layoute a grafike namiesto súvislého textu.

Prečo klasický RAG zlyháva pri obrázkoch a tabuľkách

Klasická RAG pipeline beží v dvoch dráhach: v indexačnej dráhe sa zdroje načítajú, parsujú, rozdelia na chunky, embeddujú a zapíšu do vektorovej databázy. V query dráhe sa dopyt embedduje, získa cez Hybrid Retrieval, re-ranknú sa výsledky a vloží sa do prompt-u generátorového LLM. Slabé miesto pre netextový obsah sedí priamo na začiatku - pri parsovaní a chunkingu.

Tu dominujú dva anti-patterny. Po prvé: naivný fixed-size chunking ignoruje hranice viet, tabuliek a zoznamov. Stratégia okna 512 tokenov rozseká tabuľku priamo v strede riadka, obsah tabuľky sa stratí alebo sa skreslí - typickým dôsledkom sú halucinácie a chýbajúce hodnoty. Po druhé: čistá sémantika bez BM25. Presné kódy ako číslo artiklu „TS-999" alebo číslo faktúry embeddings často míňajú, pretože sémantická podobnosť tu nepomáha. Hybrid Search s rank fusion (RRF) takéto presné zásahy zachytí a preto zostáva povinnosťou aj v multimodalnom variante.

Pri naskenovaných PDF k tomu pristupuje sťažujúca okolnosť, že vôbec neexistuje textová vrstva. Bez OCR alebo vizuálneho retrievalu je strana pre textový RAG jednoducho neviditeľná.

Tri prístupy k multimodalnemu retrievalu

1. Multimodalne embeddings (CLIP, ColPali)

Multimodalne embedding modely zobrazujú obrázok a text do toho istého vektorového priestoru. Tým sa dá textový dopyt matchovať proti obrazovým vektorom a naopak. CLIP je známym predstaviteľom generického prepojenia obrázok-text. ColPali ide o krok ďalej a je postavený špeciálne pre dokumentový retrieval: indexuje vyrenderovanú stranu ako obrázok a obchádza tým chybové medziparsovanie do textu - layout, tabuľky a grafika zostávajú zachované ako vizuálny kontext. To je obzvlášť silné pri dokumentoch, ktorých význam spočíva v layoute.

Aj v mainstreame sa embedding vrstva posúva smerom k multimodalite. Model Gemini Embedding (Google) je vedený ako multimodalny a v roku 2026 je na špici MTEB - Gemini Embedding 2 dosahuje retrieval score 67,71 (stav 2026). Keďže sa hodnoty MTEB menia týždenne a MTEB v2 nie je priamo porovnateľný s v1, malo by sa pri každej voľbe modelu dokumentovať dátum snapshotu.

2. Vision-LLM na popis

Tu preberá predspracovanie LLM schopné Vision: dostane obrázok, tabuľku alebo graf a vytvorí presný textový popis. Tento popis sa úplne normálne embedduje a zapíše do vektorovej databázy. Výhoda: existujúci textový RAG stack zostáva použiteľný, retrieval beží cez osvedčené text embeddings. Nevýhoda: popis je len taký dobrý ako Vision model a stojí dodatočné LLM volanie na každý asset pri indexovaní. Pre grafy a diagramy je tento prístup často presný, pretože dobrý Vision-LLM dokáže verbalizovať osi, trendy a dátové body.

3. Layout-aware parsing

Tretia cesta čisto oddelí štruktúru ešte predtým, než sa embedduje. Layout-aware parsery rozpoznávajú tabuľky, zoznamy, hlavičky a stĺpce a túto štruktúru zachovávajú. Na to je dostupných viacero produkčne pripravených nástrojov (stav 2026): Docling (IBM, Open Source), Unstructured.io, LlamaParse, Marker (datalab.to), PyMuPDF, ako aj OCR engines ako Tesseract, Azure Document Intelligence a AWS Textract. Framework RAGFlow prináša explicitne „Deep Document Understanding" s Document Layout Analysis (DLA) a OCR. Na úrovni chunkingu je vhodnou stratégiou layout-aware chunking (Docling, Unstructured), ktorý zachováva štruktúru tabuliek, zoznamov a hlavičiek - ideálny pre PDF, zmluvy a technické manuály.

Porovnanie prístupov

Prístup

Sila

Slabina

Hodí sa pre

Multimodalne embeddings (CLIP, ColPali)

Layout zostáva zachovaný ako obrázok, žiadne stratové parsovanie

Vyššia pamäťová/výpočtová náročnosť, novší toolchain

Naskenované PDF, grafy, layoutom riadené dokumenty

Popis cez Vision-LLM

Využíva existujúci textový RAG stack, dobrý pre grafy

Dodatočné LLM náklady na asset, kvalita závislá od modelu

Diagramy, jednotlivé obrázky, reporty

Layout-aware parsing (Docling, Unstructured, RAGFlow)

Zachovanie štruktúry tabuliek, vyzretý, dobre auditovateľný

Slabý pri čistých skenoch bez OCR, chybový pri divokých layoutoch

Technická dokumentácia, zmluvy, faktúry s textovou vrstvou

Hybrid Search (doplnkový)

Zachytí presné kódy, ID, sumy

Sám o sebe nerieši vizuálny retrieval

Vždy spolu aktivovať

V praxi tieto prístupy nie sú rozhodnutím buď-alebo. Robustný systém kombinuje layout-aware parsing pre štruktúrované tabuľky, popisy z Vision-LLM pre grafy a Hybrid Search pre presné zásahy.

Typické use-cases

  • Technická dokumentácia: manuály s rozkladovými výkresmi, schémami zapojenia a špecifikačnými tabuľkami. Agri-Query benchmark (arXiv:2508.18093, august 2025) ukazuje pre manuály poľnohospodárskej techniky, že Hybrid RAG dosahuje naprieč viacerými jazykmi viac než 85 percent accuracy a výrazne prekonáva naivné long-context prompty.
  • Faktúry: položkové tabuľky, sumy, sadzby DPH a čísla faktúr. Tu je rozhodujúca kombinácia extrakcie štruktúry tabuľky a presného BM25 matchu na kódy.
  • Reporty a prezentácie: kvartálne čísla v grafoch, KPI dashboardy, diagramy. Popis grafiky cez Vision-LLM plus parsing tabuliek pokryje oboje.

Konkrétny príklad: faktúrový RAG

Predpokladajme, že poskytovateľ služieb chce sprehľadávateľniť 50 000 naskenovaných PDF faktúr, aby support agent mohol odpovedať na otázky ako „Aká sadzba DPH platila pre položku 3 na faktúre TS-2024-0815?".

```
INDEXING (offline):
[50 000 PDF skenov]
-> OCR (Tesseract / Azure Document Intelligence)
-> Layout-aware parsing (Docling): rozpozná položkovú tabuľku
-> tabuľku serializovať so zachovaním štruktúry (Markdown)
-> voliteľne: Vision-LLM popíše layout/pečiatky
-> Embedding (multilingual, napr. Cohere Embed v4)
-> Vektor-DB upsert + paralelný BM25 index
(metadáta: tenant_id, cislo_faktury, datum, ACL)

QUERY (online):
[Otázka] -> Embedding + BM25 query ("TS-2024-0815")
-> Hybrid Retrieval (top_k = 50)
-> Re-Ranker (Cohere Rerank v3.5), top_k = 5
-> Prompt + citácia zdroja (číslo faktúry + snippet)
-> LLM -> odpoveď s faithfulness check (RAGAS)
```

BM25 dráha nájde presné číslo faktúry, ktoré by čisté embedding minulo. Layout parser zabezpečí, že „položka 3" a príslušná sadzba DPH zostanú v tom istom štruktúrovanom riadku, namiesto toho, aby boli roztrhnuté cez fixed-size chunking. Re-ranking výrazne znižuje chybovosť retrievalu - Anthropic Contextual Retrieval dokladá pre text až o 67 percent menej chýb retrievalu v kombinácii s rerankingom (stav 2024); pre multimodalne pipelines platí princíp re-rankingu analogicky.

Nástrahy pri komplexných layoutoch

  • Vnorené a viacstĺpcové tabuľky: parsery priraďujú bunky nesprávne. Testovať pred roll-outom na reálnych dokumentoch, nie na ideálnych príkladoch.
  • Zlá kvalita skenu: OCR chyby sa propagujú do každého nasledujúceho kroku. Tu sú vizuálne prístupy ako ColPali často robustnejšie, pretože obchádzajú OCR krok.
  • Chýbajúci re-ranking a chýbajúca evaluácia: bez merania faithfulness zostávajú regresie kvality neviditeľné. RAGAS meria pozdĺž faithfulness, answer relevancy, context precision a context recall - to patrí do CI.
  • Lost-in-the-chunks: chunk „Zvýšil sa o 12 percent" bez kontextovej hlavičky je bezcenný. Contextual chunking (Anthropic 2024) predraďuje LLM-generovaný kontext a merateľne zvyšuje kvalitu retrievalu.
  • Embedding drift pri zmene modelu: zmena multimodalneho embedding modelu si vyžaduje úplnú re-indexáciu. Viesť verzný string v indexe.
  • DSGVO pri faktúrach a skenoch: osobné údaje v obrázkoch a tabuľkách podliehajú rovnakým povinnostiam - oddelenie mandantov, koncept rolí, mazacia pipeline na chunky a embeddings, EU hosting (porov. DSK-Orientierungshilfe RAG). Informatívne, nie právne poradenstvo.

Pre agentúry a B2B rozhodovateľov

Multimodalny RAG už v roku 2026 nie je výskumnou témou, ale rozhoduje o tom, či KI asistent vôbec sprístupní najcennejšie firemné dokumenty - technické manuály, faktúry, reporty - alebo na nich stroskotá. Pre agentúry leží páka v čistej voľbe komponentov podľa typu dokumentu: layout-aware parsing pre štruktúrované PDF, vizuálny retrieval pre skeny a grafy, Hybrid Search a re-ranking ako štandard. Kto chce nastaviť znalostný systém s obrázkami, naskenovanými PDF a tabuľkami produkčne pripravený, v súlade s DSGVO a s merateľnou faithfulness, mal by plánovať architektúru a evaluáciu od začiatku spoločne. Blck Alpaca sprevádza DACH podniky práve pri tomto návrhu - od ingestion pipeline až po EU-suverénny toolchain.

Často kladené otázky

Aký je rozdiel medzi multimodalnym RAG a klasickým RAG?
Klasický RAG indexuje a získava výlučne text. Obsah v obrázkoch, naskenovaných PDF, tabuľkách alebo grafoch sa stráca alebo sa pri parsovaní zmrzačí. Multimodalny RAG sprístupňuje práve tento vizuálny a štruktúrovaný obsah - buď cez multimodalne embeddings, ktoré ukladajú obrázok a text do toho istého vektorového priestoru, alebo tým, že Vision-LLM preloží netextové prvky vopred do prehľadávateľných popisov.
Potrebujem CLIP alebo ColPali, alebo stačí parsovať PDF do textu?
Závisí to od typu dokumentu. Pri čisto štruktúrovaných PDF s jasnou textovou vrstvou často stačí layout-aware parsing (napr. Docling alebo Unstructured) plus klasický text embedding. Pri naskenovaných dokumentoch, hustých grafoch alebo komplexných viacstĺpcových layoutoch poskytujú vizuálne prístupy ako ColPali (retrieval priamo cez obrázky strán) lepšie výsledky, pretože nemusia layout najprv tlačiť do chybového textu.
Ako multimodalny RAG zaobchádza s tabuľkami?
Existujú dve osvedčené cesty. Po prvé: layout-aware parsing extrahuje štruktúru tabuľky (riadky, stĺpce, hlavičky) a serializuje ju so zachovaním štruktúry, napríklad ako Markdown tabuľku. Po druhé: Vision-LLM popíše tabuľku v prirodzenom jazyku a popisný text sa embedduje. Pre presné hodnoty ako čísla artiklov alebo sumy by mal byť dodatočne aktívny Hybrid Search s BM25, keďže čisté embeddings presné kódy míňajú.
Aké sú najčastejšie zdroje chýb pri multimodalnom RAG?
Naivný fixed-size chunking, ktorý rozseká tabuľky priamo cez stred, chýbajúce rozpoznanie layoutu pri viacstĺpcových alebo vnorených dokumentoch, zlá kvalita OCR pri skenoch, ako aj chýbajúci re-ranking a chýbajúce meranie faithfulness. Aj vzdanie sa Hybrid Search je klasická chyba, pretože presné kódy a ID sa inak nenájdu.
Dá sa multimodalny RAG nasadiť v súlade s DSGVO?
V zásade áno, s rovnakými požiadavkami ako textový RAG: oddelenie mandantov v metadátach, koncept práv a rolí, mazacia pipeline pre chunky a embeddings, ako aj hosting v EU regióne. Pri faktúrach, zmluvách a naskenovaných dokumentoch s osobnými údajmi platia zásady podľa DSGVO čl. 5, 6 a 17 nezmenene. Toto je informatívne upozornenie a nie právne poradenstvo.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.