Multimodales RAG: Bilder, PDFs und Tabellen retrievern
Multimodales RAG erweitert klassische Retrieval-Augmented-Generation um nicht-textuelle Inhalte: Bilder, gescannte PDFs, Tabellen, Charts und Diagramme werden indexiert und abrufbar gemacht. Statt nur Plaintext zu durchsuchen, retrievt das System visuelle und strukturierte Informationen über multimodale Embeddings, Vision-LLM-Beschreibungen oder layout-bewusstes Parsing und speist sie quellengestützt in den Antwort-Prompt ein.
Auf einen Blick
- ✓Klassisches RAG verliert alles, was nicht sauberer Plaintext ist - Tabellen, Charts, gescannte Seiten und Diagramme fallen durch das Raster. Multimodales RAG schließt diese Lücke.
- ✓Es gibt drei Hauptansätze: multimodale Embeddings (CLIP, ColPali), Vision-LLM-Beschreibung (Bild/Tabelle wird in Text übersetzt) und layout-bewusstes Parsing (Docling, Unstructured, RAGFlow) - oft als Kombination.
- ✓Hybrid Search bleibt Pflicht: reine Embeddings verfehlen exakte Codes, Artikelnummern und IDs in Tabellen; BM25 plus Rank-Fusion (RRF) fängt sie ab.
- ✓Typische Use-Cases sind technische Dokumentation, Rechnungen und Reports - genau dort, wo Information primär in Layout, Tabellen und Grafiken statt in Fließtext steckt.
- ✓Komplexe Layouts (mehrspaltig, verschachtelte Tabellen, schlechte Scans) bleiben die größte Stolperfalle - layout-bewusstes Parsing und Evaluation mit RAGAS sind nicht optional.
- ✓Stand 2026 ist die Toolchain produktionsreif, aber kosten- und latenzintensiver als reines Text-RAG - die Komponentenwahl sollte am Dokumenttyp ausgerichtet sein.
Multimodales RAG erweitert das Retrieval-Augmented-Generation-Muster um alles, was kein sauberer Fließtext ist: Bilder, gescannte PDFs, Tabellen, Charts und Diagramme. Klassisches RAG indexiert nur Text. Sobald Information primär im Layout, in einer Tabelle oder in einer Grafik steckt, verliert eine reine Text-Pipeline genau die Substanz, die für die Antwort entscheidend ist. Multimodales RAG macht diese Inhalte indexierbar und abrufbar - und damit quellengestützt zitierbar.
- Was wird retrievt? Nicht nur Plaintext, sondern auch Seitenbilder, Tabellenstrukturen, Chart-Inhalte und gescannte Dokumente.
- Wie? Über multimodale Embeddings (CLIP, ColPali), Vision-LLM-Beschreibungen oder layout-bewusstes Parsing - meist als Kombination.
- Wofür? Technische Dokumentation, Rechnungen, Reports - dort, wo Wissen in Layout und Grafik statt in Fließtext liegt.
Warum klassisches RAG bei Bildern und Tabellen scheitert
Eine klassische RAG-Pipeline läuft in zwei Pfaden: Im Indexing-Pfad werden Quellen geladen, geparst, in Chunks zerlegt, embedded und in eine Vektordatenbank geschrieben. Im Query-Pfad wird die Anfrage embedded, per Hybrid Retrieval abgerufen, re-ranked und in den Prompt des Generator-LLMs eingefügt. Der Schwachpunkt für nicht-textuelle Inhalte sitzt direkt am Anfang - beim Parsen und Chunking.
Zwei Anti-Patterns sind hier dominant. Erstens: naives Fixed-Size-Chunking ignoriert Satz-, Tabellen- und Listengrenzen. Eine 512-Token-Fenster-Strategie zerschneidet eine Tabelle mitten in einer Zeile, der Tabelleninhalt geht verloren oder wird sinnentstellt - typische Folge sind Halluzinationen und fehlende Werte. Zweitens: reine Semantik ohne BM25. Exakte Codes wie eine Artikelnummer "TS-999" oder eine Rechnungsnummer werden von Embeddings häufig verfehlt, weil semantische Ähnlichkeit hier nicht hilft. Hybrid Search mit Rank-Fusion (RRF) fängt solche exakten Treffer ab und bleibt deshalb auch in der multimodalen Variante Pflicht.
Bei gescannten PDFs kommt erschwerend hinzu, dass es gar keinen Textlayer gibt. Ohne OCR oder visuelles Retrieval ist die Seite für ein Text-RAG schlicht unsichtbar.
Die drei Ansätze für multimodales Retrieval
1. Multimodale Embeddings (CLIP, ColPali)
Multimodale Embedding-Modelle bilden Bild und Text in denselben Vektorraum ab. Damit lässt sich eine Textanfrage gegen Bildvektoren matchen und umgekehrt. CLIP ist der bekannte Vertreter für die generische Bild-Text-Verknüpfung. ColPali geht einen Schritt weiter und ist speziell für Dokument-Retrieval gebaut: Es indexiert die gerenderte Seite als Bild und umgeht damit das fehleranfällige Zwischenparsen in Text - Layout, Tabellen und Grafik bleiben als visueller Kontext erhalten. Das ist besonders stark bei Dokumenten, deren Bedeutung im Layout liegt.
Auch im Mainstream verschiebt sich die Embedding-Ebene Richtung Multimodalität. Das Modell Gemini Embedding (Google) wird als multimodal geführt und liegt 2026 an der MTEB-Spitze - Gemini Embedding 2 erreicht einen Retrieval-Score von 67,71 (Stand 2026). Da sich MTEB-Werte wöchentlich ändern und MTEB v2 nicht direkt mit v1 vergleichbar ist, sollte das Snapshot-Datum bei jeder Modellwahl dokumentiert werden.
2. Vision-LLM zur Beschreibung
Hier übernimmt ein Vision-fähiges LLM die Vorverarbeitung: Es bekommt das Bild, die Tabelle oder den Chart und erzeugt eine präzise textuelle Beschreibung. Diese Beschreibung wird ganz normal embedded und in die Vektordatenbank geschrieben. Vorteil: Der bestehende Text-RAG-Stack bleibt nutzbar, das Retrieval läuft über bewährte Text-Embeddings. Nachteil: Die Beschreibung ist nur so gut wie das Vision-Modell und kostet einen zusätzlichen LLM-Aufruf je Asset im Indexing. Für Charts und Diagramme ist dieser Ansatz oft präzise, weil ein gutes Vision-LLM Achsen, Trends und Datenpunkte verbalisieren kann.
3. Layout-aware Parsing
Der dritte Weg trennt Struktur sauber heraus, bevor embedded wird. Layout-bewusste Parser erkennen Tabellen, Listen, Header und Spalten und erhalten diese Struktur. Dafür sind mehrere produktionsreife Werkzeuge verfügbar (Stand 2026): Docling (IBM, Open Source), Unstructured.io, LlamaParse, Marker (datalab.to), PyMuPDF sowie OCR-Engines wie Tesseract, Azure Document Intelligence und AWS Textract. Das Framework RAGFlow bringt explizit "Deep Document Understanding" mit Document Layout Analysis (DLA) und OCR mit. Auf der Chunking-Ebene ist die passende Strategie layout-bewusstes Chunking (Docling, Unstructured), das Tabellen-, Listen- und Headerstruktur erhält - ideal für PDFs, Verträge und technische Manuals.
Ansatzvergleich
Ansatz | Stärke | Schwäche | Passt für |
|---|---|---|---|
Multimodale Embeddings (CLIP, ColPali) | Layout bleibt als Bild erhalten, kein verlustbehaftetes Parsen | Höherer Speicher-/Rechenbedarf, neuere Toolchain | Gescannte PDFs, Charts, layout-getriebene Dokumente |
Vision-LLM-Beschreibung | Nutzt bestehenden Text-RAG-Stack, gut für Charts | Zusatz-LLM-Kosten je Asset, Qualität modellabhängig | Diagramme, einzelne Bilder, Reports |
Layout-aware Parsing (Docling, Unstructured, RAGFlow) | Strukturerhalt von Tabellen, ausgereift, gut auditierbar | Schwach bei reinen Scans ohne OCR, bei wilden Layouts fehleranfällig | Technische Dokumentation, Verträge, Rechnungen mit Textlayer |
Hybrid Search (ergänzend) | Fängt exakte Codes, IDs, Beträge | Löst visuelles Retrieval nicht allein | Immer mit-aktivieren |
In der Praxis sind diese Ansätze keine Entweder-oder-Entscheidung. Ein robustes System kombiniert layout-bewusstes Parsing für strukturierte Tabellen, Vision-LLM-Beschreibungen für Charts und Hybrid Search für exakte Treffer.
Typische Use-Cases
- Technische Dokumentation: Manuals mit Explosionszeichnungen, Schaltplänen und Spezifikationstabellen. Der Agri-Query-Benchmark (arXiv:2508.18093, August 2025) zeigt für Agrartechnik-Manuals, dass Hybrid RAG über mehrere Sprachen mehr als 85 Prozent Accuracy erreicht und naive Long-Context-Prompts deutlich schlägt.
- Rechnungen: Positionstabellen, Beträge, Steuersätze und Rechnungsnummern. Hier ist die Kombination aus Tabellenstruktur-Extraktion und exaktem BM25-Match auf Codes entscheidend.
- Reports und Präsentationen: Quartalszahlen in Charts, KPI-Dashboards, Diagramme. Vision-LLM-Beschreibung der Grafiken plus Tabellen-Parsing deckt beides ab.
Konkretes Beispiel: Rechnungs-RAG
Angenommen, ein Dienstleister will 50.000 gescannte PDF-Rechnungen durchsuchbar machen, damit ein Support-Agent Fragen wie "Welcher Steuersatz galt für Position 3 auf Rechnung TS-2024-0815?" beantworten kann.
```
INDEXING (offline):
[50.000 PDF-Scans]
-> OCR (Tesseract / Azure Document Intelligence)
-> Layout-aware Parsing (Docling): erkennt Positions-Tabelle
-> Tabelle strukturerhaltend serialisieren (Markdown)
-> optional: Vision-LLM beschreibt Layout/Stempel
-> Embedding (multilingual, z. B. Cohere Embed v4)
-> Vektor-DB-Upsert + paralleler BM25-Index
(Metadaten: tenant_id, rechnungsnummer, datum, ACL)
QUERY (online):
[Frage] -> Embedding + BM25-Query ("TS-2024-0815")
-> Hybrid Retrieval (top_k = 50)
-> Re-Ranker (Cohere Rerank v3.5), top_k = 5
-> Prompt + Quellen-Zitat (Rechnungsnummer + Snippet)
-> LLM -> Antwort mit Faithfulness-Check (RAGAS)
```
Der BM25-Pfad findet die exakte Rechnungsnummer, die ein reines Embedding verfehlen würde. Der Layout-Parser sorgt dafür, dass "Position 3" und der zugehörige Steuersatz in derselben strukturierten Zeile bleiben, statt durch Fixed-Size-Chunking auseinandergerissen zu werden. Das Re-Ranking reduziert die Retrieval-Fehlerrate erheblich - Anthropic Contextual Retrieval belegt für Text bis zu 67 Prozent weniger Retrieval-Fehler in Kombination mit Reranking (Stand 2024); für multimodale Pipelines gilt das Re-Ranking-Prinzip analog.
Stolperfallen bei komplexen Layouts
- Verschachtelte und mehrspaltige Tabellen: Parser ordnen Zellen falsch zu. Vor dem Roll-out an realen Dokumenten testen, nicht an Idealbeispielen.
- Schlechte Scan-Qualität: OCR-Fehler propagieren in jeden nachfolgenden Schritt. Hier sind visuelle Ansätze wie ColPali oft robuster, weil sie den OCR-Schritt umgehen.
- Fehlendes Re-Ranking und fehlende Evaluation: Ohne Faithfulness-Messung bleiben Qualitätsregressionen unsichtbar. RAGAS misst entlang Faithfulness, Answer Relevancy, Context Precision und Context Recall - das gehört in die CI.
- Lost-in-the-chunks: Ein Chunk "Er erhöhte sich um 12 Prozent" ohne Kontext-Header ist wertlos. Contextual Chunking (Anthropic 2024) stellt einen LLM-generierten Kontext voran und steigert die Retrieval-Qualität messbar.
- Embedding-Drift bei Modellwechsel: Ein Wechsel des multimodalen Embedding-Modells erfordert vollständige Re-Indexierung. Versionsstring im Index führen.
- DSGVO bei Rechnungen und Scans: Personenbezogene Inhalte in Bildern und Tabellen unterliegen denselben Pflichten - Mandantentrennung, Rollenkonzept, Lösch-Pipeline auf Chunks und Embeddings, EU-Hosting (vgl. DSK-Orientierungshilfe RAG). Informativ, keine Rechtsberatung.
Für Agenturen und B2B-Entscheider
Multimodales RAG ist 2026 kein Forschungsthema mehr, sondern entscheidet darüber, ob ein KI-Assistent die wertvollsten Unternehmensdokumente - technische Manuals, Rechnungen, Reports - überhaupt erschließt oder daran scheitert. Für Agenturen liegt der Hebel in der sauberen Komponentenwahl je Dokumenttyp: layout-bewusstes Parsing für strukturierte PDFs, visuelles Retrieval für Scans und Charts, Hybrid Search und Re-Ranking als Standard. Wer ein Wissens-System mit Bildern, gescannten PDFs und Tabellen produktionsreif, DSGVO-konform und mit messbarer Faithfulness aufsetzen will, sollte Architektur und Evaluation von Anfang an gemeinsam planen. Blck Alpaca begleitet DACH-Unternehmen bei genau dieser Auslegung - von der Ingestion-Pipeline bis zur EU-souveränen Toolchain.
Häufig gestellte Fragen
Was ist der Unterschied zwischen multimodalem RAG und klassischem RAG?
Brauche ich CLIP oder ColPali, oder reicht es, PDFs in Text zu parsen?
Wie geht multimodales RAG mit Tabellen um?
Was sind die häufigsten Fehlerquellen bei multimodalem RAG?
Ist multimodales RAG DSGVO-konform einsetzbar?
Tiefer einsteigen?
Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.