Zum Inhalt springen
4.15Fortgeschritten5 min

RAG on-premise vs. EU-Cloud: Entscheidungsmatrix für Hosting-Optionen

Blck Alpaca·
Definition

RAG on-premise vs. Cloud bezeichnet die Hosting-Entscheidung für ein Retrieval-Augmented-Generation-System: On-premise (self-hosted) läuft auf eigener Hardware mit maximaler Datenkontrolle und CapEx, EU-Cloud nutzt verwaltete Dienste in EU-Rechenzentren mit OpEx und schnellerer Skalierung. Die Wahl richtet sich nach Datensensibilität, Compliance, Kosten und Betriebs-Know-how.

Auf einen Blick

  • On-premise (self-hosted) maximiert Datenkontrolle und Souveränität, verursacht aber hohe CapEx, GPU-Sizing und internen Betriebsaufwand; EU-Cloud verlagert das auf planbare OpEx und schnelle Skalierung.
  • Entscheidende Kriterien sind Datensensibilität, Compliance (DSGVO Art. 5/6/17, perspektivisch EU AI Act), Kosten (Token-OpEx vs. Hardware-CapEx), Skalierung, Latenz und vorhandenes Know-how.
  • DACH-/EU-souveräne Bausteine existieren für jede Schicht: Qdrant (Berlin) und Weaviate (NL/EU) als Vektor-DB, Haystack/deepset (Berlin) als Framework, Aleph Alpha (Heidelberg) und Mistral (FR/EU) als LLM, STACKIT/IONOS/OVHcloud als Hosting (Stand 2026).
  • Die DSK-Orientierungshilfe RAG fordert Mandantentrennung, Rollen-/Rechtekonzept und eine Lösch-Pipeline für Chunks und Embeddings - das gilt für jedes Hosting-Modell, ist on-premise aber direkt umsetzbar.
  • Faustregel: KMU starten in der EU-Cloud, regulierte Branchen und klassifizierte Daten tendieren zu on-premise/sovereign, Konzerne fahren meist hybrid (sensible Daten on-prem, generische Workloads in EU-Cloud).

RAG on-premise vs. Cloud beschreibt die Hosting-Entscheidung für ein Retrieval-Augmented-Generation-System: Bei on-premise (self-hosted) laufen Vektor-Datenbank, Embedding- und Sprachmodell auf eigener oder dedizierter Hardware mit maximaler Datenkontrolle (CapEx). Bei der EU-Cloud nutzen Sie verwaltete Dienste in EU-Rechenzentren mit verbrauchsbasierten Kosten (OpEx) und schneller Skalierung. Die richtige Wahl folgt aus Datensensibilität, Compliance, Kosten, Latenz und Betriebs-Know-how.

  • On-premise/self-hosted passt bei hoher Datensensibilität, strikten Souveränitätsanforderungen und vorhandenem Betriebs-Know-how - der Preis sind CapEx und interner Aufwand.
  • EU-Cloud passt für schnellen Roll-out, planbare OpEx und elastische Skalierung - bei US-Anbietern bleibt jedoch ein Cloud-Act-Restrisiko zu bewerten.
  • Hybrid kombiniert beides: sensible Daten on-prem, generische Workloads in der EU-Cloud - der Standardweg für Konzerne mit gemischten Datenklassen.

Die sechs Entscheidungskriterien

Eine belastbare Hosting-Entscheidung für RAG hängt nicht an einem einzelnen Faktor, sondern an sechs Dimensionen, die sich gegenseitig bedingen.

Datensensibilität

Embeddings sind kein sicherer Schutz: Nach derzeitiger Auffassung ist das Embedding personenbezogener Dokumente keine sichere Pseudonymisierung - aus Embeddings lassen sich mit passenden Decodern Bestandteile rekonstruieren. Personenbezogene oder klassifizierte Inhalte sollten daher als personenbezogen behandelt werden, bis Aufsicht oder Rechtsprechung anders entscheiden. Je sensibler der Korpus, desto stärker das Argument für on-premise oder zumindest souveränes EU-Hosting.

Compliance (DSGVO und Branchenrecht)

Die zentrale DACH-Quelle ist die Orientierungshilfe RAG der Datenschutzkonferenz (DSK). Sie verlangt unabhängig vom Hosting-Modell drei Dinge: Mandantentrennung, ein Rollen- und Rechtekonzept sowie eine Lösch-Pipeline für Chunks und Embeddings. Relevant sind insbesondere DSGVO Art. 5 (Grundsätze wie Zweckbindung, Datenminimierung, Speicherbegrenzung), Art. 6 (Rechtsgrundlage, typisch Art. 6 Abs. 1 lit. b/f) und Art. 17 (Recht auf Löschung - Vektor-Einträge sind als adressierbare Records zu behandeln). Beim EU AI Act gilt: Die politische Einigung des Digital Omnibus vom 7. Mai 2026 schlägt eine Verschiebung der Hochrisiko-Regeln auf den 2. Dezember 2027 vor, ist aber formal noch nicht verabschiedet; die Transparenzpflichten nach Art. 50 bleiben unverändert beim 2. August 2026 (Stand 2026). Für RAG als Wissens-Layer eines Hochrisiko-Systems greifen perspektivisch Datenqualität (Art. 10), Logging (Art. 12) und Transparenz (Art. 13). Diese Angaben sind informativ und stellen keine Rechtsberatung dar.

Kosten: CapEx vs. OpEx, Token vs. Hardware

EU-Cloud ist OpEx-getrieben: Hauptkostenblöcke sind Embedding-API, Vektor-DB-Hosting, LLM-Calls und optional ein Reranker. Größenordnung laut Research: Indexierung etwa 0,02-0,13 USD pro 1 Mio. Tokens, eine Anfrage etwa 0,001-0,05 USD je nach Modell; Contextual-Retrieval-Indexierung bei Anthropic ca. 1,02 USD pro 1 Mio. Document-Tokens mit Prompt-Caching (Stand 2026). On-premise ist CapEx-getrieben: GPUs, Storage, Betrieb. Bei niedrigem oder schwankendem Volumen gewinnt die Cloud; bei hohem, konstantem Volumen kann self-hosted nach Amortisation günstiger werden.

Skalierung

Vektor-Datenbanken skalieren über den Index. HNSW (Malkov und Yashunin) ist Standard-Index in Qdrant, Weaviate, Milvus, pgvector, OpenSearch, Elasticsearch und weiteren - bis etwa 100 Mio. Vektoren mit gutem Recall/Speed-Verhältnis. Für sehr große Indizes unter RAM-Druck kommen IVF_PQ oder DiskANN/BBQ zum Einsatz. EU-Cloud-Dienste (Qdrant Cloud, Weaviate Cloud) liefern Elastizität ohne Hardware-Planung; on-premise erfordert vorausschauendes GPU- und Storage-Sizing.

Latenz

Eine Hybrid-Retrieval- plus Rerank-Pipeline liegt typisch bei rund 100-800 ms. On-premise kann Latenz und Datenpfade vollständig kontrollieren (kein Internet-Hop zu externen APIs), Cloud-Dienste bieten EU-Regionen mit niedrigen Latenzprofilen - Qdrant und Pinecone gelten als sehr niedrig-latent.

Betriebsaufwand und Know-how

On-premise bündelt Verantwortung intern: Index-Tuning (M, ef_construction, ef_search), Re-Indexierung bei Embedding-Modellwechsel, Monitoring und Eval. EU-Cloud verlagert Teile davon zum Anbieter. Ohne RAGAS/TruLens-Evaluation droht in beiden Modellen stille Qualitätsregression.

Entscheidungsmatrix: on-premise vs. EU-Cloud vs. Hybrid

Kriterium

On-premise (self-hosted)

EU-Cloud

Hybrid

Datensensibilität

Maximale Kontrolle; auch klassifizierte Daten

Hoch bei EU-Anbieter; Restrisiko bei US-Anbieter (Cloud Act)

Sensibles on-prem, Rest in EU-Cloud

Compliance (DSGVO/AI Act)

Mandantentrennung, ACL, Lösch-Pipeline direkt umsetzbar

EU-Region + SCC/TIA bei US-Anbieter; DSK-Pflichten gelten

Datenklassen getrennt behandelbar

Kosten

CapEx (Hardware, GPU, Betrieb)

OpEx (Token, Hosting, LLM-Calls)

gemischt CapEx + OpEx

Skalierung

Vorab-Sizing, begrenzt durch Hardware

elastisch, anbietergetrieben

sensibler Teil begrenzt, Rest elastisch

Latenz

voll kontrollierbar, kein externer API-Hop

EU-Region, sehr niedrig (z. B. Qdrant)

je Komponente optimierbar

Betriebsaufwand/Know-how

hoch, intern

gering bis mittel, teils ausgelagert

mittel, geteilte Verantwortung

Souveräne Bausteine

Qdrant, Weaviate, Haystack, Aleph Alpha, jina-v3, BGE-M3

Qdrant Cloud, Weaviate Cloud, STACKIT, IONOS, OVHcloud

beliebige Kombination

Souveräne DACH-/EU-Optionen (Stand 2026): Vektor-DB Qdrant (Berlin, Apache 2.0) und Weaviate (Amsterdam, BSD-3); Framework Haystack/deepset (Berlin), gelistet im Deutschland-Stack (D-Stack) des BMFTR; Embeddings Aleph Alpha (Heidelberg, on-prem-fähig), jina-embeddings-v3 (Berlin) und BGE-M3 als OSS-Fallback; LLM Mistral (FR/EU), Aleph Alpha Pharia und Teuken-7B (OpenGPT-X); Hosting STACKIT (Schwarz-Gruppe), IONOS, OVHcloud und Open Telekom Cloud.

Empfehlung je Szenario

KMU

Für KMU mit moderatem Volumen und ohne dediziertes ML-Ops-Team ist die EU-Cloud meist die rationale Wahl: schneller Roll-out, planbare OpEx, keine Hardware-Investition. Pragmatischer Stack: Qdrant Cloud oder Weaviate Cloud in der EU-Region, ein multilinguales Embedding-Modell (etwa Cohere Embed v4 oder jina-embeddings-v3) und ein EU-Anbieter-LLM wie Mistral. Wichtig bleiben Mandantentrennung, ACL-Filter und eine Lösch-Pipeline gemäß DSK-Orientierungshilfe.

Regulierte Branche

Gesundheit, Finanz, öffentliche Verwaltung oder Verteidigung mit hochsensiblen oder klassifizierten Daten tendieren zu on-premise/sovereign. Referenzpunkt aus der Research: die Architektur secunet x NVIDIA x Haystack für klassifizierte Informationen sowie das On-Prem-Deployment der Aleph-Alpha-Pharia-Plattform für Konzerne und öffentliche Verwaltung. Hier zählt vollständige Datenkontrolle stärker als die Bequemlichkeit der Cloud; Quellen-Zitate in der Antwort sind für regulierte Industrien Pflicht.

Konzern

Großunternehmen fahren typischerweise hybrid: sensible, personenbezogene Embeddings on-premise oder in einer souveränen Private-Cloud, generische Wissens-Workloads (Produktdoku, FAQ) in der EU-Cloud. Bekannte Haystack-Nutzer wie Airbus, Lufthansa Industry Solutions, Infineon oder LEGO zeigen, dass souveräne Frameworks in großen Umgebungen produktiv laufen. Datenklassen werden getrennt, Skalierung und Kontrolle bleiben gleichzeitig erfüllbar.

Praxisbeispiel mit Zahlen

Ein DACH-Mittelständler erwägt ein internes Wissens-RAG mit 5 Mio. Document-Tokens und 50.000 Anfragen pro Monat.

  • Indexierung (einmalig/inkrementell): 5 Mio. Tokens bei ca. 0,02-0,13 USD pro 1 Mio. Tokens ergibt rund 0,10-0,65 USD pro vollem Re-Index. Mit Contextual Retrieval und Prompt-Caching (ca. 1,02 USD pro 1 Mio. Tokens) liegt ein vollständiger kontextualisierter Index bei ca. 5 USD.
  • Anfragen (laufend): 50.000 Anfragen bei ca. 0,001-0,05 USD ergeben rund 50-2.500 USD pro Monat, stark modellabhängig.

In der EU-Cloud entstehen daraus reine OpEx ohne Vorabinvestition - bei diesem Volumen klar wirtschaftlich. Erst bei deutlich höherem, konstantem Anfragevolumen oder bei zwingender on-prem-Datenhaltung kippt die Rechnung zugunsten amortisierter Hardware. Qualitativer Anker: Eine RAG-Pipeline ist gegenüber naiven 1-Mio.-Token-Long-Context-Requests rund 30-60x schneller und etwa 1.250x günstiger pro Query (Größenordnung, Stand 2026) - ein zusätzliches Argument, Wissen über RAG statt über teure Vollkontext-Prompts zu erschließen, unabhängig vom Hosting.

Für Agenturen und B2B-Entscheider

Die Hosting-Frage ist keine reine IT-Entscheidung, sondern ein Compliance- und Kostenhebel. Agenturen, die RAG-Lösungen für DACH-Kunden bauen, sollten die Matrix oben als Discovery-Werkzeug nutzen: Datensensibilität und Branchenrecht zuerst klären, dann Kosten- und Skalierungsprofil, zuletzt Betriebsmodell. Wir bei Blck Alpaca bewerten für jeden Use Case die passende Kombination aus EU-Cloud und souveränen on-prem-Bausteinen und liefern die DSGVO-konforme Architektur (Mandantentrennung, Lösch-Pipeline, Quellen-Zitate) gleich mit. Rechtsbegriffe, Artikelnummern und Fristen in diesem Text sind informativ und ersetzen keine Rechtsberatung - die endgültige rechtliche Bewertung gehört in die Hand von Datenschutz- und Fachjuristen.

Häufig gestellte Fragen

Wann lohnt sich RAG self-hosted statt EU-Cloud?
Self-hosted (on-premise) lohnt sich, wenn Datensensibilität sehr hoch ist (z. B. klassifizierte oder besonders schützenswerte personenbezogene Daten), wenn Cloud-Act-Restrisiken vollständig ausgeschlossen werden müssen oder bei sehr hohem, konstantem Anfragevolumen, bei dem amortisierte Hardware-CapEx günstiger wird als laufende Token- und Hosting-OpEx. Voraussetzung ist internes Betriebs-Know-how für GPU-Sizing, Vektor-DB-Betrieb und Updates.
Ist eine EU-Cloud automatisch DSGVO-konform für RAG?
Nein. EU-Region-Hosting reduziert das Datenresidenz- und Cloud-Act-Risiko, ersetzt aber nicht die technisch-organisatorischen Pflichten. Die DSK-Orientierungshilfe RAG verlangt Mandantentrennung, ein Rollen- und Rechtekonzept sowie eine Lösch-Pipeline für Chunks und Embeddings (DSGVO Art. 17). Bei US-Anbietern mit EU-Region bleibt das Cloud-Act-Restrisiko bestehen und ist per SCC und TIA zu bewerten. Dies ist informativ und keine Rechtsberatung.
Was ist günstiger: on-premise oder EU-Cloud für RAG?
Es kommt auf Volumen und Lastprofil an. EU-Cloud ist OpEx-getrieben: Sie zahlen pro Embedding, Vektor-DB-Hosting, LLM-Call und optional Reranker. On-premise ist CapEx-getrieben: GPUs, Storage und Betrieb werden vorab investiert und über die Laufzeit amortisiert. Bei niedrigem oder schwankendem Volumen ist die Cloud meist günstiger; bei hohem, konstantem Volumen kann self-hosted nach Amortisation günstiger werden.
Was ist die hybride Variante bei RAG-Hosting?
Hybrid bedeutet, sensible Komponenten on-premise zu betreiben (z. B. Vektor-DB mit personenbezogenen Embeddings, ein souveränes LLM wie Aleph Alpha Pharia) und generische, weniger sensible Workloads in die EU-Cloud auszulagern. So lassen sich Datenkontrolle und Skalierung kombinieren. Hybrid ist der typische Pfad für Konzerne mit gemischten Datenklassen.
Welche souveränen DACH-/EU-Bausteine gibt es für self-hosted RAG?
Stand 2026: Vektor-DB Qdrant (Berlin, Apache 2.0) und Weaviate (Amsterdam, BSD-3); Framework Haystack/deepset (Berlin); Embeddings Aleph Alpha (Heidelberg, on-prem-fähig), jina-embeddings-v3 (Berlin) und BGE-M3 als OSS-Fallback; LLM Mistral (FR/EU), Aleph Alpha Pharia und Teuken-7B; Hosting STACKIT, IONOS, OVHcloud, Open Telekom Cloud.

Tiefer einsteigen?

Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.