RAG on-premise vs. EU-Cloud: Entscheidungsmatrix für Hosting-Optionen
RAG on-premise vs. Cloud bezeichnet die Hosting-Entscheidung für ein Retrieval-Augmented-Generation-System: On-premise (self-hosted) läuft auf eigener Hardware mit maximaler Datenkontrolle und CapEx, EU-Cloud nutzt verwaltete Dienste in EU-Rechenzentren mit OpEx und schnellerer Skalierung. Die Wahl richtet sich nach Datensensibilität, Compliance, Kosten und Betriebs-Know-how.
Auf einen Blick
- ✓On-premise (self-hosted) maximiert Datenkontrolle und Souveränität, verursacht aber hohe CapEx, GPU-Sizing und internen Betriebsaufwand; EU-Cloud verlagert das auf planbare OpEx und schnelle Skalierung.
- ✓Entscheidende Kriterien sind Datensensibilität, Compliance (DSGVO Art. 5/6/17, perspektivisch EU AI Act), Kosten (Token-OpEx vs. Hardware-CapEx), Skalierung, Latenz und vorhandenes Know-how.
- ✓DACH-/EU-souveräne Bausteine existieren für jede Schicht: Qdrant (Berlin) und Weaviate (NL/EU) als Vektor-DB, Haystack/deepset (Berlin) als Framework, Aleph Alpha (Heidelberg) und Mistral (FR/EU) als LLM, STACKIT/IONOS/OVHcloud als Hosting (Stand 2026).
- ✓Die DSK-Orientierungshilfe RAG fordert Mandantentrennung, Rollen-/Rechtekonzept und eine Lösch-Pipeline für Chunks und Embeddings - das gilt für jedes Hosting-Modell, ist on-premise aber direkt umsetzbar.
- ✓Faustregel: KMU starten in der EU-Cloud, regulierte Branchen und klassifizierte Daten tendieren zu on-premise/sovereign, Konzerne fahren meist hybrid (sensible Daten on-prem, generische Workloads in EU-Cloud).
RAG on-premise vs. Cloud beschreibt die Hosting-Entscheidung für ein Retrieval-Augmented-Generation-System: Bei on-premise (self-hosted) laufen Vektor-Datenbank, Embedding- und Sprachmodell auf eigener oder dedizierter Hardware mit maximaler Datenkontrolle (CapEx). Bei der EU-Cloud nutzen Sie verwaltete Dienste in EU-Rechenzentren mit verbrauchsbasierten Kosten (OpEx) und schneller Skalierung. Die richtige Wahl folgt aus Datensensibilität, Compliance, Kosten, Latenz und Betriebs-Know-how.
- On-premise/self-hosted passt bei hoher Datensensibilität, strikten Souveränitätsanforderungen und vorhandenem Betriebs-Know-how - der Preis sind CapEx und interner Aufwand.
- EU-Cloud passt für schnellen Roll-out, planbare OpEx und elastische Skalierung - bei US-Anbietern bleibt jedoch ein Cloud-Act-Restrisiko zu bewerten.
- Hybrid kombiniert beides: sensible Daten on-prem, generische Workloads in der EU-Cloud - der Standardweg für Konzerne mit gemischten Datenklassen.
Die sechs Entscheidungskriterien
Eine belastbare Hosting-Entscheidung für RAG hängt nicht an einem einzelnen Faktor, sondern an sechs Dimensionen, die sich gegenseitig bedingen.
Datensensibilität
Embeddings sind kein sicherer Schutz: Nach derzeitiger Auffassung ist das Embedding personenbezogener Dokumente keine sichere Pseudonymisierung - aus Embeddings lassen sich mit passenden Decodern Bestandteile rekonstruieren. Personenbezogene oder klassifizierte Inhalte sollten daher als personenbezogen behandelt werden, bis Aufsicht oder Rechtsprechung anders entscheiden. Je sensibler der Korpus, desto stärker das Argument für on-premise oder zumindest souveränes EU-Hosting.
Compliance (DSGVO und Branchenrecht)
Die zentrale DACH-Quelle ist die Orientierungshilfe RAG der Datenschutzkonferenz (DSK). Sie verlangt unabhängig vom Hosting-Modell drei Dinge: Mandantentrennung, ein Rollen- und Rechtekonzept sowie eine Lösch-Pipeline für Chunks und Embeddings. Relevant sind insbesondere DSGVO Art. 5 (Grundsätze wie Zweckbindung, Datenminimierung, Speicherbegrenzung), Art. 6 (Rechtsgrundlage, typisch Art. 6 Abs. 1 lit. b/f) und Art. 17 (Recht auf Löschung - Vektor-Einträge sind als adressierbare Records zu behandeln). Beim EU AI Act gilt: Die politische Einigung des Digital Omnibus vom 7. Mai 2026 schlägt eine Verschiebung der Hochrisiko-Regeln auf den 2. Dezember 2027 vor, ist aber formal noch nicht verabschiedet; die Transparenzpflichten nach Art. 50 bleiben unverändert beim 2. August 2026 (Stand 2026). Für RAG als Wissens-Layer eines Hochrisiko-Systems greifen perspektivisch Datenqualität (Art. 10), Logging (Art. 12) und Transparenz (Art. 13). Diese Angaben sind informativ und stellen keine Rechtsberatung dar.
Kosten: CapEx vs. OpEx, Token vs. Hardware
EU-Cloud ist OpEx-getrieben: Hauptkostenblöcke sind Embedding-API, Vektor-DB-Hosting, LLM-Calls und optional ein Reranker. Größenordnung laut Research: Indexierung etwa 0,02-0,13 USD pro 1 Mio. Tokens, eine Anfrage etwa 0,001-0,05 USD je nach Modell; Contextual-Retrieval-Indexierung bei Anthropic ca. 1,02 USD pro 1 Mio. Document-Tokens mit Prompt-Caching (Stand 2026). On-premise ist CapEx-getrieben: GPUs, Storage, Betrieb. Bei niedrigem oder schwankendem Volumen gewinnt die Cloud; bei hohem, konstantem Volumen kann self-hosted nach Amortisation günstiger werden.
Skalierung
Vektor-Datenbanken skalieren über den Index. HNSW (Malkov und Yashunin) ist Standard-Index in Qdrant, Weaviate, Milvus, pgvector, OpenSearch, Elasticsearch und weiteren - bis etwa 100 Mio. Vektoren mit gutem Recall/Speed-Verhältnis. Für sehr große Indizes unter RAM-Druck kommen IVF_PQ oder DiskANN/BBQ zum Einsatz. EU-Cloud-Dienste (Qdrant Cloud, Weaviate Cloud) liefern Elastizität ohne Hardware-Planung; on-premise erfordert vorausschauendes GPU- und Storage-Sizing.
Latenz
Eine Hybrid-Retrieval- plus Rerank-Pipeline liegt typisch bei rund 100-800 ms. On-premise kann Latenz und Datenpfade vollständig kontrollieren (kein Internet-Hop zu externen APIs), Cloud-Dienste bieten EU-Regionen mit niedrigen Latenzprofilen - Qdrant und Pinecone gelten als sehr niedrig-latent.
Betriebsaufwand und Know-how
On-premise bündelt Verantwortung intern: Index-Tuning (M, ef_construction, ef_search), Re-Indexierung bei Embedding-Modellwechsel, Monitoring und Eval. EU-Cloud verlagert Teile davon zum Anbieter. Ohne RAGAS/TruLens-Evaluation droht in beiden Modellen stille Qualitätsregression.
Entscheidungsmatrix: on-premise vs. EU-Cloud vs. Hybrid
Kriterium | On-premise (self-hosted) | EU-Cloud | Hybrid |
|---|---|---|---|
Datensensibilität | Maximale Kontrolle; auch klassifizierte Daten | Hoch bei EU-Anbieter; Restrisiko bei US-Anbieter (Cloud Act) | Sensibles on-prem, Rest in EU-Cloud |
Compliance (DSGVO/AI Act) | Mandantentrennung, ACL, Lösch-Pipeline direkt umsetzbar | EU-Region + SCC/TIA bei US-Anbieter; DSK-Pflichten gelten | Datenklassen getrennt behandelbar |
Kosten | CapEx (Hardware, GPU, Betrieb) | gemischt CapEx + OpEx | |
Skalierung | Vorab-Sizing, begrenzt durch Hardware | elastisch, anbietergetrieben | sensibler Teil begrenzt, Rest elastisch |
Latenz | voll kontrollierbar, kein externer API-Hop | EU-Region, sehr niedrig (z. B. Qdrant) | je Komponente optimierbar |
Betriebsaufwand/Know-how | hoch, intern | gering bis mittel, teils ausgelagert | mittel, geteilte Verantwortung |
Souveräne Bausteine | Qdrant, Weaviate, Haystack, Aleph Alpha, jina-v3, BGE-M3 | Qdrant Cloud, Weaviate Cloud, STACKIT, IONOS, OVHcloud | beliebige Kombination |
Souveräne DACH-/EU-Optionen (Stand 2026): Vektor-DB Qdrant (Berlin, Apache 2.0) und Weaviate (Amsterdam, BSD-3); Framework Haystack/deepset (Berlin), gelistet im Deutschland-Stack (D-Stack) des BMFTR; Embeddings Aleph Alpha (Heidelberg, on-prem-fähig), jina-embeddings-v3 (Berlin) und BGE-M3 als OSS-Fallback; LLM Mistral (FR/EU), Aleph Alpha Pharia und Teuken-7B (OpenGPT-X); Hosting STACKIT (Schwarz-Gruppe), IONOS, OVHcloud und Open Telekom Cloud.
Empfehlung je Szenario
KMU
Für KMU mit moderatem Volumen und ohne dediziertes ML-Ops-Team ist die EU-Cloud meist die rationale Wahl: schneller Roll-out, planbare OpEx, keine Hardware-Investition. Pragmatischer Stack: Qdrant Cloud oder Weaviate Cloud in der EU-Region, ein multilinguales Embedding-Modell (etwa Cohere Embed v4 oder jina-embeddings-v3) und ein EU-Anbieter-LLM wie Mistral. Wichtig bleiben Mandantentrennung, ACL-Filter und eine Lösch-Pipeline gemäß DSK-Orientierungshilfe.
Regulierte Branche
Gesundheit, Finanz, öffentliche Verwaltung oder Verteidigung mit hochsensiblen oder klassifizierten Daten tendieren zu on-premise/sovereign. Referenzpunkt aus der Research: die Architektur secunet x NVIDIA x Haystack für klassifizierte Informationen sowie das On-Prem-Deployment der Aleph-Alpha-Pharia-Plattform für Konzerne und öffentliche Verwaltung. Hier zählt vollständige Datenkontrolle stärker als die Bequemlichkeit der Cloud; Quellen-Zitate in der Antwort sind für regulierte Industrien Pflicht.
Konzern
Großunternehmen fahren typischerweise hybrid: sensible, personenbezogene Embeddings on-premise oder in einer souveränen Private-Cloud, generische Wissens-Workloads (Produktdoku, FAQ) in der EU-Cloud. Bekannte Haystack-Nutzer wie Airbus, Lufthansa Industry Solutions, Infineon oder LEGO zeigen, dass souveräne Frameworks in großen Umgebungen produktiv laufen. Datenklassen werden getrennt, Skalierung und Kontrolle bleiben gleichzeitig erfüllbar.
Praxisbeispiel mit Zahlen
Ein DACH-Mittelständler erwägt ein internes Wissens-RAG mit 5 Mio. Document-Tokens und 50.000 Anfragen pro Monat.
- Indexierung (einmalig/inkrementell): 5 Mio. Tokens bei ca. 0,02-0,13 USD pro 1 Mio. Tokens ergibt rund 0,10-0,65 USD pro vollem Re-Index. Mit Contextual Retrieval und Prompt-Caching (ca. 1,02 USD pro 1 Mio. Tokens) liegt ein vollständiger kontextualisierter Index bei ca. 5 USD.
- Anfragen (laufend): 50.000 Anfragen bei ca. 0,001-0,05 USD ergeben rund 50-2.500 USD pro Monat, stark modellabhängig.
In der EU-Cloud entstehen daraus reine OpEx ohne Vorabinvestition - bei diesem Volumen klar wirtschaftlich. Erst bei deutlich höherem, konstantem Anfragevolumen oder bei zwingender on-prem-Datenhaltung kippt die Rechnung zugunsten amortisierter Hardware. Qualitativer Anker: Eine RAG-Pipeline ist gegenüber naiven 1-Mio.-Token-Long-Context-Requests rund 30-60x schneller und etwa 1.250x günstiger pro Query (Größenordnung, Stand 2026) - ein zusätzliches Argument, Wissen über RAG statt über teure Vollkontext-Prompts zu erschließen, unabhängig vom Hosting.
Für Agenturen und B2B-Entscheider
Die Hosting-Frage ist keine reine IT-Entscheidung, sondern ein Compliance- und Kostenhebel. Agenturen, die RAG-Lösungen für DACH-Kunden bauen, sollten die Matrix oben als Discovery-Werkzeug nutzen: Datensensibilität und Branchenrecht zuerst klären, dann Kosten- und Skalierungsprofil, zuletzt Betriebsmodell. Wir bei Blck Alpaca bewerten für jeden Use Case die passende Kombination aus EU-Cloud und souveränen on-prem-Bausteinen und liefern die DSGVO-konforme Architektur (Mandantentrennung, Lösch-Pipeline, Quellen-Zitate) gleich mit. Rechtsbegriffe, Artikelnummern und Fristen in diesem Text sind informativ und ersetzen keine Rechtsberatung - die endgültige rechtliche Bewertung gehört in die Hand von Datenschutz- und Fachjuristen.
Häufig gestellte Fragen
Wann lohnt sich RAG self-hosted statt EU-Cloud?
Ist eine EU-Cloud automatisch DSGVO-konform für RAG?
Was ist günstiger: on-premise oder EU-Cloud für RAG?
Was ist die hybride Variante bei RAG-Hosting?
Welche souveränen DACH-/EU-Bausteine gibt es für self-hosted RAG?
Tiefer einsteigen?
Erhalte neue Analysen direkt ins Postfach – oder sieh dir an, wie wir dieses Wissen für Unternehmen umsetzen.