4.13Experte7 min

RAG-Evaluation: RAGAS, TruLens und DeepEval im Vergleich

Blck Alpaca·9. Juni 2026

Definition

RAG-Evaluation ist die systematische, messbare Qualitätsprüfung eines Retrieval-Augmented-Generation-Systems. Sie bewertet getrennt, ob das Retrieval die richtigen Dokumente findet und ob die generierte Antwort treu auf diesen Quellen beruht. Zentrale Metriken sind Faithfulness, Answer Relevance, Context Precision und Context Recall, gemessen mit Frameworks wie RAGAS, TruLens, DeepEval oder LangSmith.

Auf einen Blick

✓RAG-Evaluation trennt zwei Fehlerquellen: schlechtes Retrieval (falsche Kontexte) und unfaithful Generation (Modell weicht trotz korrekter Quellen ab). Beide brauchen eigene Metriken.
✓Die vier Kernmetriken sind Faithfulness/Groundedness, Answer Relevance, Context Precision und Context Recall. RAGAS, TruLens und DeepEval setzen sie als LLM-as-Judge um.
✓RAGAS gilt als De-facto-Standard und kann reference-free messen; TruLens fokussiert auf die RAG-Triade; DeepEval bringt Pytest-Stil-Tests; LangSmith liefert End-to-End-Tracing plus Dataset-Eval.
✓Ein Eval-Datensatz (Goldset) aus Frage, Referenzkontext und Idealantwort ist die Grundlage. Ohne ihn bleibt Qualität messlos und Regressionen fallen erst im Betrieb auf.
✓Evaluation gehört in die CI/CD-Pipeline: jeder Pipeline-Change wird gegen das Goldset getestet, bevor er live geht. Sonst droht stille Qualitätsregression (Anti-Pattern AP5).

RAG-Evaluation ist die systematische, messbare Qualitätsprüfung eines Retrieval-Augmented-Generation-Systems. Sie beantwortet zwei getrennte Fragen: Findet das Retrieval die richtigen Dokumente, und beruht die generierte Antwort treu auf genau diesen Dokumenten? Ohne diese Trennung bleibt unklar, ob eine schlechte Antwort vom Retrieval oder vom Sprachmodell kommt. Frameworks wie RAGAS, TruLens, DeepEval und LangSmith automatisieren diese Messung mit standardisierten Metriken.

Was wird gemessen? Vier Kernmetriken: Faithfulness/Groundedness, Answer Relevance, Context Precision und Context Recall.
Womit? RAGAS (De-facto-Standard), TruLens (RAG-Triade), DeepEval (Pytest-Stil), LangSmith (Tracing + Dataset-Eval) sowie Arize Phoenix (OSS-Tracing).
Warum? Ohne Evaluation entsteht stille Qualitätsregression: Ein Pipeline-Change verschlechtert die Antworten, ohne dass es jemand bemerkt, bis sich Nutzer beschweren.

Warum RAG zwei Fehlerquellen hat

Ein RAG-System kann auf zwei voneinander unabhängige Arten versagen. Erstens kann das Retrieval die falschen oder unvollständigen Kontexte liefern, dann hat das Modell gar keine Chance auf eine korrekte Antwort. Zweitens kann das Modell trotz korrektem Kontext halluzinieren, also Aussagen treffen, die im abgerufenen Material nicht stehen. Dieses zweite Phänomen heißt context-unfaithful generation: Das Modell zitiert Quellen, weicht inhaltlich aber davon ab.

Genau deshalb reicht eine einzige Gesamtnote nicht. RAG-Evaluation zerlegt die Qualität in eine Retrieval-Achse und eine Generierungs-Achse. Erst diese Trennung macht Debugging möglich: Sinkt Context Recall, optimiert man Chunking, Embeddings oder Hybrid Search. Sinkt Faithfulness bei gutem Kontext, optimiert man Prompt, Citation-Forcing oder Guardrails.

Die vier zentralen RAG-Metriken

RAGAS misst RAG-Qualität entlang von Faithfulness, Answer Relevancy, Context Precision und Context Recall. Diese vier Begriffe sind das gemeinsame Vokabular der gesamten Branche, auch wenn einzelne Tools sie anders benennen.

Faithfulness / Groundedness (Generierungs-Achse)

Misst, ob jede einzelne Aussage der Antwort durch den abgerufenen Kontext gedeckt ist. Ein LLM-as-Judge zerlegt die Antwort in atomare Behauptungen und prüft jede gegen den Kontext. Der Wert ist der Anteil belegter Behauptungen. Niedrige Faithfulness bedeutet Halluzination trotz RAG, die häufigste Vertrauensfalle in produktiven Systemen.

Answer Relevance (Generierungs-Achse)

Misst, ob die Antwort die gestellte Frage tatsächlich beantwortet und nicht abschweift oder unvollständig bleibt. Eine Antwort kann faithful, aber irrelevant sein, etwa wenn sie korrekt einen Nebenaspekt referiert, die Kernfrage aber nicht trifft. Beide Metriken müssen daher immer gemeinsam betrachtet werden.

Context Precision (Retrieval-Achse)

Misst, ob die relevanten Chunks in den oberen Rängen der Retrieval-Ergebnisse stehen. Hohe Precision heißt: wenig Rauschen, die wichtigen Passagen kommen zuerst. Das ist entscheidend, weil zu viel irrelevanter Kontext zum Lost-in-the-middle-Effekt führt und die Generierungsqualität senkt.

Context Recall (Retrieval-Achse)

Misst, ob alle für die Idealantwort nötigen Informationen überhaupt abgerufen wurden. Recall benötigt eine Referenzantwort (Ground Truth), gegen die geprüft wird, ob jede nötige Information in den abgerufenen Kontexten vorhanden war. Niedriger Recall ist ein klassisches Symptom für schlechtes Chunking oder ein für die Sprache ungeeignetes Embedding-Modell.

Ergänzend bieten die Frameworks weitere Metriken wie Answer Correctness, Noise Sensitivity (RAGAS) oder Hallucination (DeepEval).

RAG-Evaluations-Tools im Vergleich

Die folgenden Frameworks sind 2026 die etablierten Werkzeuge. Alle arbeiten überwiegend nach dem LLM-as-Judge-Prinzip, ein zweites Modell bewertet also die Ausgabe.

Tool	Kernmetriken	Besonderheit
RAGAS	Faithfulness, Answer Relevancy, Context Precision, Context Recall, Noise Sensitivity, Answer Correctness	De-facto-Standard; reference-free-Messung möglich (Quelle: docs.ragas.io v0.1.21).
TruLens	Groundedness, Answer Relevance, Context Relevance (die „RAG-Triade")	Kompaktes Triaden-Schema, das Retrieval- und Generierungs-Treue zugleich abdeckt (TruLens-Eval).
DeepEval	G-Eval, Faithfulness, Hallucination, Contextual Precision/Recall	Evals im Pytest-Stil, dadurch direkt als Unit-Tests in CI integrierbar.
Arize Phoenix	LLM-Tracing plus Eval	Open Source, OpenTelemetry-kompatibel; stark für Observability und Trace-Inspektion.
LangSmith	End-to-End-Tracing, Dataset-Eval	Kommerziell (LangChain Inc.); erste Wahl in LangChain/LangGraph-Stacks.

Hinweis Stand 2026: Versions- und Metrik-Bezeichnungen entwickeln sich schnell weiter. Die hier genannten RAGAS-Metriken beziehen sich auf die Dokumentation der Version v0.1.21; vor produktivem Einsatz die aktuelle Doku des jeweiligen Tools prüfen.

Einen Eval-Datensatz (Goldset) aufbauen

Jede belastbare Evaluation braucht ein Goldset, also einen kuratierten Datensatz aus repräsentativen Fragen. Ein Eintrag besteht typischerweise aus vier Feldern:

question: eine reale oder realistische Nutzerfrage
ground_truth: die ideale, faktisch korrekte Antwort
reference_contexts (optional): die Chunks, die die Antwort belegen
metadata (optional): Tenant, Quelle, Schwierigkeitsgrad

Vorgehen in der Praxis:

Manuell kuratieren: 30 bis 100 echte Fragen aus Support-Logs, Vertriebsanfragen oder Fachabteilungen sammeln und mit Expertenantworten versehen. Qualität schlägt Quantität.
Synthetisch ergänzen: RAGAS und DeepEval bieten Test-Set-Generatoren, die aus dem eigenen Dokumentenkorpus automatisch Frage-Antwort-Paare erzeugen. Diese unbedingt stichprobenartig manuell prüfen.
Edge Cases einplanen: Fragen, deren Antwort gar nicht im Korpus steht (das System soll dann „weiß ich nicht" antworten), sowie Fragen nach exakten Codes oder IDs, die reine Embeddings oft verfehlen.
Versionieren: Das Goldset gehört ins Repository. Jede Änderung wird nachvollziehbar, und Eval-Ergebnisse bleiben über die Zeit vergleichbar.

Wo ein vollständiges Goldset fehlt, lassen sich reference-free-Metriken (Faithfulness, Answer Relevancy) plus implizite Signale (Klicks, Daumen hoch/runter) als Übergangslösung nutzen.

Konkretes Beispiel: Eval im Entwicklungs-Loop

Ein DACH-Mittelständler betreibt einen internen RAG-Assistenten auf der technischen Dokumentation. Das Goldset umfasst 60 Fragen. Die Evaluation läuft bei jedem Pull Request automatisch (Pseudocode):

```
goldset = load("eval/goldset_v3.json") # 60 Einträge
results = ragas.evaluate(
dataset = goldset,
metrics = [faithfulness, answer_relevancy,
context_precision, context_recall]
)

assert results["faithfulness"] >= 0.90
assert results["context_recall"] >= 0.80
assert results["answer_relevancy"] >= 0.85

Build bricht, wenn ein Schwellenwert unterschritten wird

```

Im Ausgangszustand liefert die Pipeline Faithfulness 0,88 und Context Recall 0,71. Ein Entwickler ergänzt einen Cross-Encoder-Reranker und Contextual-Header pro Chunk. Anthropic beziffert den Effekt von Contextual Retrieval auf eine Reduktion der Retrieval-Fehlerrate um 49 Prozent, in Kombination mit Reranking um 67 Prozent (Anthropic, Stand 09/2024). Im Goldset steigt Context Recall daraufhin auf 0,86 und Faithfulness auf 0,93, alle Schwellenwerte sind erfüllt, der Build geht durch.

Drei Wochen später senkt jemand testweise top_k von 8 auf 3. Faithfulness bleibt stabil, aber Context Recall fällt auf 0,74. Der automatisierte Eval-Lauf blockiert den Merge, bevor die Verschlechterung jemals einen Nutzer erreicht. Genau das ist der Sinn von Evaluation in der CI: stille Qualitätsregression sichtbar machen (Anti-Pattern AP5: Deployment ohne Faithfulness-Messung).

Faithfulness als Guardrail zur Laufzeit

Evaluation endet nicht beim Deployment. Dieselbe Faithfulness-Messung lässt sich als Laufzeit-Guardrail einsetzen: Liegt der Faithfulness-Score einer konkreten Antwort unter einem Schwellenwert, verweigert das System die Antwort oder eskaliert an einen Menschen, statt eine möglicherweise halluzinierte Auskunft auszuliefern. Kombiniert mit Citation-Forcing (jede Aussage muss eine Chunk-Quelle nennen) entsteht so eine doppelte Absicherung gegen Halluzinationen, die in regulierten Branchen Pflicht ist.

Für Agenturen und B2B

Für Marketing-Agenturen und B2B-Entscheider ist RAG-Evaluation der Unterschied zwischen einer demotauglichen Spielerei und einem produktionsreifen Wissenssystem. Wer einem Kunden einen RAG-Assistenten verkauft, sollte Qualität in Zahlen belegen können, nicht in Anekdoten. Ein dokumentiertes Goldset plus CI-Gate aus Faithfulness und Context Recall ist ein konkretes, prüfbares Qualitätsversprechen und zugleich ein Differenzierungsmerkmal im Pitch. Blck Alpaca aus Wien begleitet DACH-Unternehmen beim Aufbau evaluierbarer RAG-Pipelines, von der Goldset-Kuratierung über die Tool-Auswahl bis zur Integration der Evaluation in den Entwicklungs-Loop. Sprich uns an, wenn du dein RAG-System messbar machen willst.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Faithfulness und Answer Relevance?

Faithfulness (auch Groundedness) misst, ob jede Aussage der Antwort durch den abgerufenen Kontext gedeckt ist, also ob das Modell nicht halluziniert. Answer Relevance misst dagegen, ob die Antwort die gestellte Frage tatsächlich beantwortet. Eine Antwort kann faithful, aber irrelevant sein und umgekehrt. Deshalb braucht man beide Metriken parallel.

Brauche ich für RAG-Evaluation immer einen Referenzdatensatz?

Nein. RAGAS und vergleichbare Frameworks können viele Metriken reference-free per LLM-as-Judge berechnen, etwa Faithfulness und Answer Relevancy, weil sie nur Frage, Kontext und Antwort vergleichen. Context Recall und Answer Correctness benötigen jedoch eine Referenz (Ground Truth). Für belastbare Regressionstests empfiehlt sich trotzdem ein kuratiertes Goldset.

Welches RAG-Evaluations-Framework soll ich wählen?

RAGAS ist der De-facto-Standard mit breiter Metrik-Abdeckung und reference-free-Option. TruLens passt, wenn die RAG-Triade aus Groundedness, Answer Relevance und Context Relevance im Vordergrund steht. DeepEval eignet sich, wenn man Evals wie Unit-Tests im Pytest-Stil in CI schreiben will. LangSmith ist erste Wahl bei LangChain- und LangGraph-Stacks mit Bedarf an End-to-End-Tracing.

Wie integriere ich RAG-Evaluation in den Entwicklungs-Loop?

Lege ein versioniertes Goldset an, definiere Schwellenwerte je Metrik (z. B. Faithfulness >= 0,9) und lasse die Evaluation bei jedem Pull Request gegen das Goldset laufen. Fällt eine Metrik unter den Schwellenwert, blockiert der Build. So werden Regressionen vor dem Deployment sichtbar statt erst im Betrieb (Anti-Pattern AP5).

Was ist die RAG-Triade bei TruLens?

Die RAG-Triade von TruLens umfasst drei Bewertungsachsen: Context Relevance (sind die abgerufenen Kontexte relevant zur Frage), Groundedness (ist die Antwort durch die Kontexte gedeckt) und Answer Relevance (beantwortet die Antwort die Frage). Zusammen decken sie Retrieval-Qualität und Generierungs-Treue in einem kompakten Schema ab.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach, oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.

Newsletter abonnieren →Unsere Services

Vorheriger← Multimodales RAG: Bilder, PDFs und Tabellen retrievern NächsterRAG-Systeme DSGVO-konform aufbauen: Praxis-Leitfaden →