4.11Experte7 min

Corrective RAG und Self-RAG: Selbstkorrigierende Retrieval-Pattern für weniger Halluzinationen

Blck Alpaca·9. Juni 2026

Definition

Corrective RAG (CRAG) und Self-RAG sind selbstkorrigierende Retrieval-Pattern. CRAG bewertet die Relevanz abgerufener Treffer und schaltet bei schwacher Qualität auf einen Web-Search-Fallback. Self-RAG lässt das Modell per Reflection-Tokens selbst entscheiden, ob es überhaupt abruft und ob die eigene Antwort durch die Quellen gedeckt ist.

Auf einen Blick

✓CRAG fügt der RAG-Pipeline einen Retrieval-Evaluator hinzu: Treffer werden als korrekt, mehrdeutig oder falsch bewertet; bei schwacher Qualität greift ein Web-Search-Fallback statt blind auf schlechtem Kontext zu generieren.
✓Self-RAG (Asai et al. 2023, arXiv:2310.11511) trainiert das Modell auf Reflection-Tokens, mit denen es selbst entscheidet, ob Retrieval nötig ist, und die eigene Antwort gegen die Quellen prüft (Faithfulness-Selbstkritik).
✓Beide Pattern adressieren das Kernproblem context-unfaithful generation: Halluzinationen trotz RAG, wenn das Modell Quellen zitiert, aber inhaltlich abweicht (Anti-Pattern AP9 der Research).
✓Sie sind Spezialfälle von Agentic RAG (Singh et al. 2025): Retrieval wird zum reflektierend und iterativ aufgerufenen Tool statt zur statischen Vorverarbeitung.
✓Der Tradeoff ist real: zusätzliche LLM-Calls für Bewertung und Selbstkritik erhöhen Latenz und Kosten und bergen das Risiko unkontrollierter Tool-Loops; lohnend vor allem bei hohem Halluzinations-Risiko und unvollständigen Wissensbasen.
✓Pragmatischer Einstieg für die meisten DACH-Projekte: erst Hybrid Search, Re-Ranking und Faithfulness-Guardrails (RAGAS) ausschöpfen, dann CRAG/Self-RAG selektiv ergänzen.

Corrective RAG (CRAG) und Self-RAG sind zwei selbstkorrigierende Retrieval-Pattern, die das klassische RAG-Muster um eine Qualitätskontrolle erweitern. CRAG bewertet die Relevanz der abgerufenen Treffer und schaltet bei schwacher Retrieval-Qualität auf einen Web-Search-Fallback. Self-RAG lässt das Sprachmodell per Reflection-Tokens selbst entscheiden, ob es überhaupt abruft, und prüft anschliessend, ob die eigene Antwort durch die Quellen gedeckt ist. Beide zielen auf dasselbe Problem: Halluzinationen, die trotz RAG entstehen.

CRAG in einem Satz: Ein Retrieval-Evaluator stuft Treffer als korrekt, mehrdeutig oder falsch ein und löst bei schlechtem Kontext eine Korrekturmassnahme aus, statt blind weiterzugenerieren.
Self-RAG in einem Satz: Das Modell steuert über trainierte Reflection-Tokens selbst, wann es abruft und ob seine Antwort zu den Quellen passt.
Gemeinsamer Kern: Beide gehören zur Familie der Agentic-RAG-Pattern und behandeln Retrieval nicht als statische Vorverarbeitung, sondern als prüfbaren, steuerbaren Schritt.

Warum klassisches RAG nicht reicht

Standard-RAG (Naive RAG nach der Taxonomie von Gao et al. 2023, arXiv:2312.10997) folgt einem festen Ablauf: einbetten, abrufen, in den Prompt einfügen, generieren. Das Problem: Die Pipeline vertraut den Top-k-Treffern blind. Sind sie semantisch ähnlich, aber inhaltlich irrelevant oder schlicht nicht vorhanden, generiert das Modell trotzdem eine Antwort und stützt sie auf untaugliche Quellen.

Die Research zu diesem Pillar führt zwei einschlägige Anti-Pattern: Beim Anti-Pattern AP9, der context-unfaithful generation, zitiert das Modell Quellen, weicht aber inhaltlich davon ab. Die empfohlene Gegenmassnahme sind Faithfulness-Guardrails, Selbst-Kritik und Citation-Forcing-Prompts. Beim Anti-Pattern AP3 fehlt ein Re-Ranking, sodass Top-k-Treffer ähnlich, aber nicht relevant sind. Genau in diese Lücke stossen CRAG und Self-RAG: Sie machen die Retrieval-Qualität explizit überprüfbar und reagieren darauf.

Wichtig zur Einordnung: Der grösste Hebel gegen Halluzinationen liegt nach wie vor in der Retrieval-Qualität selbst. Anthropic Contextual Retrieval reduziert die Top-20-Retrieval-Fehlerrate um 49 Prozent (von 5,7 auf 2,9 Prozent), in Kombination mit Reranking um 67 Prozent (auf 1,9 Prozent); das sind Vendor-Benchmarks von Anthropic, Stand September 2024. Selbstkorrektur ist die zweite Verteidigungslinie, nicht die erste.

Corrective RAG (CRAG): Treffer bewerten, dann korrigieren

CRAG fügt der Pipeline einen Retrieval-Evaluator hinzu. Nach dem Retrieval, aber vor der Generierung, bewertet dieser Evaluator die Relevanz der gefundenen Dokumente und teilt sie in drei Konfidenz-Klassen ein:

Correct (hohe Konfidenz): Die Treffer sind relevant. Sie werden verfeinert (etwa per Decompose-Recompose, um Rauschen zu entfernen) und an den Generator gegeben.
Incorrect (niedrige Konfidenz): Die Treffer taugen nicht. Statt auf schlechtem Kontext zu generieren, wird ein Fallback ausgelöst, typischerweise eine Web-Suche, um aktuelle externe Inhalte nachzuladen.
Ambiguous (mittlere Konfidenz): Unsicher. Beide Wege werden kombiniert: interner Kontext plus Web-Search-Ergebnisse.

Der entscheidende Mechanismus ist der Web-Search-Fallback bei schwacher interner Retrieval-Qualität. Damit kompensiert CRAG eine unvollständige oder veraltete Wissensbasis, ohne dass das Modell ins Halluzinieren gerät. CRAG ist modellunabhängig: Es lässt sich als zusätzlicher Knoten vor jede bestehende RAG-Pipeline schalten, ohne das Generator-LLM neu zu trainieren. (CRAG geht auf Yan et al. 2024 zurück; das Pattern ist gesichertes Allgemeinwissen, im Pillar-Dossier selbst nicht im Detail benannt.)

Self-RAG: das Modell kritisiert sich selbst

Self-RAG (Asai et al., University of Washington, arXiv:2310.11511, Oktober 2023) verlagert die Kontrolle in das Modell. Es wird darauf trainiert, sogenannte Reflection-Tokens zu erzeugen, mit denen es seinen eigenen Prozess steuert und bewertet. Vereinfacht laufen drei Entscheidungen ab:

Retrieve? Das Modell entscheidet pro Anfrage (oder pro Segment), ob ein Retrieval überhaupt nötig ist. Triviale oder im Modellwissen abgedeckte Fragen brauchen keinen Abruf.
Is Supported? Nach dem Abruf prüft das Modell, ob die generierte Aussage durch die abgerufene Passage gedeckt ist, eine eingebaute Faithfulness-Selbstkritik.
Is Useful? Das Modell bewertet, wie nützlich die Antwort die Frage beantwortet.

Im Pillar-Dossier ist Self-RAG als frühes Agentic-RAG-Pattern mit Self-Reflection-Tokens geführt (Quelle Q5). Der Reiz: Das Modell ruft nur ab, wenn es das selbst für nötig hält (spart Kosten bei einfachen Fragen), und es bricht Antworten ab oder verweigert sie, wenn die Quellen sie nicht stützen. Der Preis: Die originale Self-RAG-Implementierung setzt ein speziell auf Reflection-Tokens trainiertes Modell voraus. In der Praxis approximieren viele Teams das Verhalten per Prompting und einer Selbstkritik-Schleife mit einem Standardmodell, was günstiger umzusetzen, aber weniger zuverlässig ist als ein dafür trainiertes Modell.

Vergleich: CRAG vs. Self-RAG vs. Standard-RAG

Dimension	Standard-RAG (Naive)	Corrective RAG (CRAG)	Self-RAG
Kontrollinstanz	keine	externer Retrieval-Evaluator	das Modell selbst (Reflection-Tokens)
Retrieval-Entscheidung	immer	immer, dann bewertet	modell-gesteuert (on demand)
Reaktion auf schlechten Kontext	keine, generiert trotzdem	Web-Search-Fallback / Verfeinerung	Selbstkritik, ggf. Verweigerung
Faithfulness-Prüfung	extern (z. B. RAGAS) nötig	über Evaluator	eingebaut (Is-Supported-Token)
Modell-Training nötig	nein	nein	ja (originale Variante)
Implementierungsaufwand	niedrig	mittel	hoch (bzw. mittel als Prompt-Approximation)
Latenz / Kosten pro Anfrage	Basis	Evaluator, ggf. Web-Search	Reflection-/Kritik-Schritte
Typischer Failure-Mode	Chunk-Mismatch, AP9	Fehlbewertung des Evaluators	unkontrollierte Loops, Kosten

Beide Pattern sind nach der RAG-Evolutionstaxonomie (Naive, Advanced, Modular, Agentic) der Agentic-RAG-Stufe zuzuordnen. Singh et al. 2025 (arXiv:2501.09136) beschreiben Agentic RAG als Pattern, bei denen Retrieval als dynamisch und iterativ aufgerufenes Tool eines Agenten fungiert, mit Reflexion, Planung und Tool-Nutzung. Self-RAG gilt dabei als eines der frühen Beispiele. Zur Einordnung gehört die Ehrlichkeit, dass der Begriff Agentic RAG 2026 noch nicht scharf konsolidiert ist.

Konkretes Beispiel: Support-Wissensdatenbank mit Lücken

Angenommen, eine Agentur betreibt für einen B2B-Kunden einen RAG-gestützten Support-Assistenten über eine interne Wissensdatenbank. Ein Nutzer fragt nach einem Feature, das erst gestern in einem Release-Note veröffentlicht wurde, der noch nicht indexiert ist.

Standard-RAG: Holt die drei ähnlichsten Altdokumente, findet die Antwort nicht, halluziniert eine plausibel klingende, aber falsche Konfiguration. Klassisches AP9.
CRAG: Der Retrieval-Evaluator stuft die Treffer als incorrect ein (niedrige Relevanz-Konfidenz), löst eine Web-Suche auf der öffentlichen Produktdoku aus, findet das Release-Note und generiert eine korrekte Antwort mit Quelle.
Self-RAG: Das Modell prüft per Is-Supported-Token, ob seine Antwort durch die abgerufenen Chunks gedeckt ist, erkennt die fehlende Deckung und verweigert eine erfundene Antwort beziehungsweise eskaliert an einen Menschen.

Eine Rechnung zum Tradeoff: Wenn ein Standard-RAG-Call beispielhaft einen LLM-Aufruf kostet, addiert CRAG mindestens einen Evaluator-Aufruf plus im Fallback-Fall die Web-Search-Verarbeitung; eine Selbstkritik-Schleife im Self-RAG-Stil kann je nach Design weitere Aufrufe bedeuten. Bei einfachen Fragen kann Self-RAG den Retrieval-Schritt sogar einsparen. Pauschal gilt: Selbstkorrektur ist kein Gratis-Upgrade, sondern ein bewusster Tausch von zusätzlicher Latenz und Kosten gegen geringeres Halluzinations-Risiko. Das Anti-Pattern unkontrollierter Tool-Loops und Kosten-Explosion ist in der Research explizit als typischer Failure von Agentic RAG genannt.

Wann diese Pattern sinnvoll sind

Selbstkorrigierende Pattern lohnen sich, wenn mindestens einer dieser Punkte zutrifft:

Die Wissensbasis ist unvollständig oder veraltet, ein Web- oder Drittquellen-Fallback bringt echten Mehrwert (CRAG).
Falsche Antworten sind teuer: Recht, Finanzen, regulierter Support, alles mit Haftungsbezug.
Antwortverweigerung bei Unsicherheit ist erwünscht und akzeptiert (Self-RAG).

Sie sind weniger sinnvoll, wenn die Wissensbasis vollständig und sauber indexiert ist, Latenz im Vordergrund steht oder das Budget pro Anfrage eng ist. In diesen Fällen liefern die günstigeren Massnahmen aus der Advanced-RAG-Stufe meist das bessere Verhältnis: Hybrid Search (dense plus BM25 gegen das Verfehlen exakter Codes), Cross-Encoder-Re-Ranking (bis 67 Prozent weniger Retrieval-Fehler laut Anthropic), Contextual Retrieval gegen Lost-in-the-chunks (AP4) sowie ein Faithfulness-Guardrail über RAGAS in der CI-Pipeline. Erst danach lohnt es sich, CRAG oder Self-RAG selektiv für die kritischen Pfade zu ergänzen.

Für Agenturen und B2B-Entscheider

Für Agenturen ist die Botschaft an Kunden klar: Selbstkorrigierende Retrieval-Pattern sind kein Standard-Feature, das man pauschal aktiviert, sondern eine gezielte Investition für Anwendungsfälle mit hohem Halluzinations-Risiko. Der pragmatische Weg führt über eine messbare Baseline (Retrieval-Qualität und Faithfulness mit RAGAS erheben) und ergänzt CRAG oder Self-RAG erst dort, wo die Zahlen es rechtfertigen. Für DACH-B2B-Projekte gilt zusätzlich: Ein Web-Search-Fallback (CRAG) muss mit Datenschutz- und Quellen-Governance abgestimmt sein, da plötzlich externe Inhalte in die Antwortkette gelangen. Blck Alpaca konzipiert RAG-Architekturen so, dass Selbstkorrektur dort sitzt, wo sie den Unterschied macht, und nicht überall Kosten und Latenz aufbläht.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Corrective RAG und Self-RAG?

CRAG setzt einen separaten Retrieval-Evaluator vor die Generierung: Er bewertet die Relevanz der abgerufenen Treffer und löst bei schwacher Qualität einen Web-Search-Fallback oder eine Wissensverfeinerung aus. Self-RAG verlagert die Kontrolle ins Modell selbst: Über trainierte Reflection-Tokens entscheidet das LLM, ob es überhaupt abruft, und bewertet anschließend, ob die eigene Antwort durch die Quellen gedeckt ist. CRAG korrigiert also den Retrieval-Schritt, Self-RAG den gesamten Entscheidungs- und Generierungsprozess.

Reduzieren selbstkorrigierende RAG-Pattern wirklich Halluzinationen?

Sie adressieren gezielt das Anti-Pattern context-unfaithful generation, also Halluzinationen trotz RAG. Indem schlechter Kontext erkannt (CRAG) oder die eigene Antwort gegen die Quellen geprüft wird (Self-RAG), sinkt das Risiko, dass das Modell auf irrelevanten Treffern frei weitergeneriert. Der grösste Hebel bleibt jedoch saubere Retrieval-Qualität: Hybrid Search und Re-Ranking reduzieren Retrieval-Fehler laut Anthropic Contextual Retrieval um bis zu 67 Prozent, bevor Selbstkorrektur überhaupt greifen muss.

Wie hoch ist der Implementierungsaufwand für CRAG und Self-RAG?

CRAG ist mit moderatem Aufwand über bestehende Frameworks (LangGraph, LlamaIndex, Haystack, Stand 2026) als zusätzlicher Evaluator-Knoten in der Pipeline umsetzbar und benötigt keine Modell-Anpassung. Self-RAG in der originalen Form (Asai et al. 2023) setzt ein auf Reflection-Tokens trainiertes Modell voraus, was deutlich aufwändiger ist; praxisnahe Varianten approximieren das Verhalten per Prompting und Selbstkritik-Schleife mit einem Standardmodell.

Wann lohnen sich diese Pattern und wann nicht?

Sie lohnen sich bei hohem Halluzinations-Risiko, unvollständigen oder veralteten Wissensbasen und Anwendungsfällen, in denen ein falsch beantworteter Treffer teuer ist (Recht, Finanzen, Support mit Haftung). Nicht sinnvoll sind sie, wenn die Wissensbasis vollständig und gut indexiert ist, Latenz kritisch ist oder das Budget pro Anfrage knapp ist: Jeder zusätzliche Bewertungs- und Selbstkritik-Schritt kostet weitere LLM-Calls.

Sind CRAG und Self-RAG dasselbe wie Agentic RAG?

Sie sind Spezialfälle davon. Agentic RAG (Singh et al. 2025, arXiv:2501.09136) beschreibt allgemein Pattern, bei denen Retrieval als dynamisch und iterativ aufgerufenes Tool eines Agenten behandelt wird, mit Reflexion, Planung und Tool-Nutzung. Self-RAG gilt als frühes Agentic-RAG-Pattern; CRAG fügt die Reflexion über Retrieval-Qualität hinzu. Der Begriff Agentic RAG ist 2026 allerdings noch nicht scharf konsolidiert.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← Agentic RAG vs. klassisches RAG: Was ist der Unterschied?NächsterMultimodales RAG: Bilder, PDFs und Tabellen retrievern →