Zum Inhalt springen
4.8Experte7 min

Reranking in RAG: Cross-Encoder vs. Bi-Encoder

Blck Alpaca·
Definition

Reranking ist die zweite Retrieval-Stufe in einer RAG-Pipeline: Ein Cross-Encoder bewertet die vom schnellen Bi-Encoder gefundenen Top-Kandidaten erneut und sortiert sie nach echter Query-Relevanz. Laut Anthropic senkt Reranking die Retrieval-Fehlerrate gegenüber reinem Vektor-Retrieval deutlich – auf Kosten höherer Latenz.

Auf einen Blick

  • Bi-Encoder kodieren Query und Dokument getrennt und sind schnell genug für das initiale Retrieval über Millionen Chunks; Cross-Encoder verarbeiten Query und Dokument gemeinsam und sind genauer, aber zu teuer für den ersten Durchlauf.
  • Reranking ist eine Post-Retrieval-Stufe: Hybrid Retrieval liefert Top-50 bis Top-100 Kandidaten, der Reranker reduziert sie auf die relevantesten Top-5 bis Top-10 für den LLM-Prompt.
  • Anthropic Contextual Retrieval reduziert die Top-20-Retrieval-Fehlerrate um 49 Prozent; in Kombination mit Reranking um 67 Prozent (von 5,7 auf 1,9 Prozent).
  • Praxisrelevante Modelle (Stand 2026): Cohere Rerank v3/v3.5 (API, multilingual inkl. Deutsch), BGE-Reranker und Jina Reranker v2 (Open Source), Voyage rerank-2 sowie LLM-as-Judge-Reranker.
  • Der Tradeoff lautet Latenz gegen Präzision: Hybrid Retrieval plus Reranking bewegt sich typischerweise bei rund 100 bis 800 Millisekunden Gesamtlatenz.
  • Ein zu großes Top-k an den LLM verursacht 'Lost-in-the-Middle' und höhere Kosten; Reranking plus Top-k von 5 bis 10 ist die Standardgegenmaßnahme.

Reranking ist die zweite Retrieval-Stufe in einer RAG-Pipeline: Ein Cross-Encoder bewertet die vom schnellen Bi-Encoder gefundenen Top-Kandidaten erneut und sortiert sie nach echter Query-Relevanz. Laut Anthropic senkt Reranking die Retrieval-Fehlerrate gegenüber reinem Vektor-Retrieval deutlich – auf Kosten höherer Latenz. Reranking ist damit kein optionales Nice-to-have, sondern in produktiven Systemen die zuverlässigste Stellschraube zwischen "semantisch ähnlich" und "tatsächlich relevant".

  • Was es macht: Reranking ordnet die vom ersten Retrieval gefundenen Kandidaten neu, bevor sie in den LLM-Prompt gelangen.
  • Warum zwei Stufen: Der schnelle Bi-Encoder sorgt für Recall über Millionen Chunks, der genaue Cross-Encoder für Precision auf den finalen Top-k.
  • Konkreter Effekt: Anthropic berichtet eine Reduktion der Top-20-Retrieval-Fehlerrate um bis zu 67 Prozent, wenn Contextual Retrieval mit Reranking kombiniert wird.

Warum ein einstufiges Retrieval nicht ausreicht

Klassisches Vektor-Retrieval arbeitet mit einem Bi-Encoder. Dieser kodiert jeden Dokument-Chunk vorab in einen Vektor und legt ihn in einem ANN-Index (meist HNSW) ab. Zur Anfragezeit wird die Query in denselben Vektorraum projiziert, und die Ähnlichkeit wird per Cosine-Distanz berechnet. Das ist extrem schnell und skaliert auf Millionen Einträge – aber es ist eine Näherung. Query und Dokument "sehen" sich nie gemeinsam; das Modell vergleicht nur zwei unabhängig erzeugte Verdichtungen.

Die Folge ist ein typisches Anti-Pattern: Die Top-k-Treffer sind semantisch ähnlich, aber nicht zwingend relevant für die konkrete Frage. Genau hier setzt Reranking an. Es ist eine Post-Retrieval-Stufe, die einen genaueren – aber langsameren – Mechanismus auf eine kleine Kandidatenmenge anwendet, statt auf den gesamten Korpus.

Bi-Encoder vs. Cross-Encoder: der zentrale Unterschied

Der architektonische Kern von Reranking ist der Wechsel vom Bi-Encoder zum Cross-Encoder.

Ein Bi-Encoder verarbeitet Query und Dokument getrennt. Beide werden je in einen Vektor kodiert, die Relevanz ergibt sich erst nachgelagert aus der Distanz dieser Vektoren. Weil Dokument-Embeddings vorab berechnet und indexiert werden können, ist der Bi-Encoder die einzige praktikable Wahl für das initiale Retrieval über große Korpora.

Ein Cross-Encoder verarbeitet Query und Dokument gemeinsam in einem einzigen Forward-Pass. Das Modell sieht beide Texte zusammen und kann Wort-für-Wort-Interaktionen, Negationen und feine Bedeutungsunterschiede berücksichtigen. Das Ergebnis ist eine deutlich präzisere Relevanzbewertung – allerdings muss für jedes Query-Dokument-Paar gerechnet werden. Über Millionen Chunks wäre das prohibitiv teuer; über 50 bis 100 vorgefilterte Kandidaten ist es vertretbar.

Eigenschaft

Bi-Encoder

Cross-Encoder

Eingabe

Query und Dokument getrennt

Query und Dokument gemeinsam

Vorab-Indexierung

Ja (Dokument-Vektoren speicherbar)

Nein (paarweise zur Laufzeit)

Geschwindigkeit

Sehr schnell

Langsam (Forward-Pass pro Paar)

Präzision

Näherung

Hoch

Rolle in der Pipeline

Initiales Retrieval (Recall)

Reranking (Precision)

Skaliert auf

Millionen Chunks

Dutzende bis wenige Hundert Kandidaten

Dazwischen liegt der Late-Interaction-Ansatz (ColBERT): Er speichert Token-Level-Embeddings pro Dokument und berechnet die Relevanz über eine MaxSim-Operation zwischen Query- und Dokument-Tokens. Das bietet mehr Genauigkeit als ein klassischer Bi-Encoder bei besserer Skalierbarkeit als ein voller Cross-Encoder, kostet aber deutlich mehr Speicher für die Token-Vektoren.

Position in der Pipeline und Top-k-Strategie

Reranking ist eine fest definierte Stufe im Query-Pfad. Die kanonische Anordnung sieht so aus:

```
[Hybrid Retrieval, top_k = 50-100]
-> [Cross-Encoder Reranker (Cohere Rerank / BGE / Jina)]
-> [top_k = 5-10]
-> [Prompt + Quellen-Zitierung]
-> [LLM]
```

Der entscheidende Punkt: Der Reranker kommt erst nach dem kostengünstigen Bi-Encoder-Recall. Das initiale Hybrid Retrieval (Dense plus BM25, fusioniert via Reciprocal Rank Fusion) liefert bewusst einen großzügigen Kandidaten-Pool von 50 bis 100 Einträgen, um den Recall zu maximieren. Der Cross-Encoder reduziert diesen Pool dann auf die 5 bis 10 wirklich relevanten Chunks, die in den Prompt gelangen.

Diese Verengung ist nicht nur eine Kostenfrage. Ein zu großes Top-k an den LLM führt zum "Lost-in-the-Middle"-Effekt: Relevante Informationen in der Mitte eines langen Kontexts werden schlechter verarbeitet, und die Token-Kosten steigen. Reranking plus ein knappes Top-k von 5 bis 10 ist die Standardgegenmaßnahme – mit dem zusätzlichen Hinweis, die wichtigsten Chunks vorne im Prompt zu platzieren.

Reranking-Modelle im Überblick (Stand 2026)

Modell

Typ

Hosting / Lizenz

Sprachen

Bemerkung

Cohere Rerank v3 / v3.5

Cross-Encoder

API

multilingual inkl. DE

API-Standard

BGE-Reranker (large / v2-m3)

Cross-Encoder

Open Source, Apache 2.0

multilingual

On-Prem-fähig

Jina Reranker v2

Cross-Encoder

Open Source

multilingual

DACH-Anbieter (Berlin)

Voyage rerank-2

Cross-Encoder

API

multilingual

API-Alternative

LLM-as-Judge (Haystack LLMRanker)

LLM-Prompt

eigenes GPT-/Claude-Prompt

beliebig

flexibel, aber teurer

Für DACH-Szenarien mit Souveränitätsanforderung sind die Open-Source-Optionen BGE-Reranker und der in Berlin entwickelte Jina Reranker v2 relevant, da sie sich On-Prem oder in EU-Regionen betreiben lassen. Wer eine API akzeptiert und multilinguale Qualität inklusive Deutsch braucht, greift in der Praxis zu Cohere Rerank. Der LLM-as-Judge-Ansatz (etwa der LLMRanker in Haystack) ist am flexibelsten, aber pro Anfrage am teuersten und sollte nur dort eingesetzt werden, wo die Reranking-Qualität kritisch und das Latenzbudget großzügig ist.

Latenz-/Qualitäts-Tradeoff

Reranking ist die teuerste Einzelstufe im Online-Pfad, weil der Cross-Encoder pro Kandidat rechnet. In produktiven Systemen liegt die Gesamtlatenz aus Hybrid Retrieval plus Reranking typischerweise bei rund 100 bis 800 Millisekunden. Diese Spanne ist direkt steuerbar:

  • Größe des Eingangs-Pools: 100 Kandidaten zu reranken kostet mehr als 30. Je nach Korpus reicht oft ein kleinerer Pool.
  • Modellwahl: API-Reranker wie Cohere sind durchsatzoptimiert; ein LLM-as-Judge ist deutlich langsamer.
  • Hardware: Open-Source-Reranker profitieren stark von GPU-Inferenz; auf CPU steigt die Latenz erheblich.

Der Tradeoff lautet also nicht "Reranking ja oder nein", sondern "wie viele Kandidaten zu welchem Latenzbudget". Für die meisten Enterprise-Use-Cases ist der Präzisionsgewinn die Zusatzlatenz wert.

Numerisches Beispiel: Precision-Steigerung

Anthropic hat in der Veröffentlichung "Introducing Contextual Retrieval" (19.09.2024) konkrete Zahlen über eigene Benchmarks (Code, Fiction, ArXiv-Papers, Science) gemessen. Als Vendor-Eval mit Eigeninteresse zu lesen, aber methodisch dokumentiert:

  • Basis (reines Retrieval): Top-20-Retrieval-Fehlerrate 5,7 Prozent.
  • Contextual Embeddings allein: Reduktion um 35 Prozent auf 3,7 Prozent.
  • Contextual Retrieval (Embeddings plus BM25): Reduktion um 49 Prozent auf 2,9 Prozent.
  • Contextual Retrieval plus Reranking: Reduktion um 67 Prozent auf 1,9 Prozent.

Konkret heißt das: Von ursprünglich 57 Fehlern pro 1.000 Anfragen bleiben mit der vollen Pipeline nur noch 19 übrig. Reranking allein – als Schritt von 2,9 auf 1,9 Prozent – eliminiert in diesem Setup rund ein weiteres Drittel der verbliebenen Fehler. Für ein produktives RAG-System bedeutet jeder vermiedene Retrieval-Fehler einen Chunk weniger, der das LLM zu einer falschen oder unbelegten Antwort verleitet. Genau deshalb listet die RAG-Praxis "Kein Reranking" als klares Anti-Pattern: Top-k sind dann zwar semantisch ähnlich, aber nicht relevant.

Für Agenturen und B2B-Entscheider

Wer in DACH ein produktives RAG-System aufsetzt, sollte Reranking von Anfang an als feste Pipeline-Stufe einplanen – nicht als nachgelagertes Tuning. Der Hebel ist groß, der Implementierungsaufwand überschaubar: ein zusätzlicher API-Call (Cohere) oder ein selbst gehosteter Open-Source-Reranker (BGE, Jina) zwischen Retrieval und LLM. Für Agenturen, die Wissens-Assistenten oder interne Suchen für Kunden bauen, ist Reranking das beste Verhältnis aus Qualitätsgewinn und Aufwand – und ein messbares Argument im Pitch, weil sich die Precision-Steigerung in Evaluations-Frameworks wie RAGAS (Context Precision) belegen lässt. Blck Alpaca konzipiert solche zweistufigen Retrieval-Architekturen inklusive EU-konformer Modellwahl und Latenzbudgetierung. Lassen Sie Ihre bestehende RAG-Pipeline darauf prüfen, ob die richtigen Chunks tatsächlich vorne ankommen.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Bi-Encoder und Cross-Encoder?
Ein Bi-Encoder kodiert Query und Dokument unabhängig voneinander in separate Vektoren; die Ähnlichkeit wird erst danach per Cosine-Distanz berechnet. Das ist schnell und vorab indexierbar, daher ideal fürs initiale Retrieval. Ein Cross-Encoder verarbeitet Query und Dokument gemeinsam in einem Forward-Pass und liefert dadurch eine deutlich präzisere Relevanzbewertung, ist aber zu rechenintensiv, um Millionen Chunks zu durchsuchen. Deshalb kommt der Cross-Encoder erst im Reranking auf wenige Kandidaten zum Einsatz.
Brauche ich Reranking, wenn ich bereits Hybrid Search nutze?
In den meisten produktiven Fällen ja. Hybrid Search verbessert den Recall, das heißt es landen mehr relevante Dokumente im Kandidaten-Pool. Reranking verbessert die Precision an der Spitze: Es sorgt dafür, dass die wirklich relevantesten Chunks ganz vorne stehen und im begrenzten LLM-Kontext landen. Laut Anthropic addiert Reranking über Contextual Retrieval hinaus messbar Qualität (Reduktion der Retrieval-Fehler von 49 auf 67 Prozent).
Welche Reranking-Modelle sind 2026 relevant?
Als API-Standard gilt Cohere Rerank v3 und v3.5, multilingual inklusive Deutsch. Open-Source-Optionen sind der BGE-Reranker (large beziehungsweise v2-m3, Apache 2.0) und der Jina Reranker v2 aus Berlin. Voyage rerank-2 ist eine weitere API-Variante. Flexibel, aber teurer ist ein LLM-as-Judge-Reranker, etwa der LLMRanker in Haystack. Alle Angaben Stand 2026.
Wie viel Latenz kostet Reranking?
Reranking ist die teuerste Einzelstufe im Query-Pfad, weil der Cross-Encoder pro Kandidat einen vollen Forward-Pass rechnet. In der Praxis liegt die Gesamtlatenz aus Hybrid Retrieval plus Reranking typischerweise bei rund 100 bis 800 Millisekunden. Steuerbar ist das über die Anzahl der gererankten Kandidaten: Je kleiner der Eingangs-Pool, desto geringer Latenz und Kosten.
Was ist ColBERT beziehungsweise Late Interaction?
ColBERT ist ein Late-Interaction-Ansatz, der zwischen Bi- und Cross-Encoder liegt. Statt eines einzigen Vektors pro Dokument speichert er Token-Level-Embeddings und berechnet die Relevanz über eine MaxSim-Operation zwischen Query- und Dokument-Tokens. Das liefert eine höhere Genauigkeit als reine Bi-Encoder bei besserer Skalierbarkeit als Cross-Encoder, erfordert aber mehr Speicher für die Token-Vektoren.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.