RAG on-premise vs. EU cloud: rozhodovacia matica pre možnosti hostingu
RAG on-premise vs. cloud označuje rozhodnutie o hostingu systému Retrieval-Augmented Generation: on-premise (self-hosted) beží na vlastnom hardvéri s maximálnou kontrolou nad dátami a s nákladmi typu CapEx, EU cloud využíva spravované služby v dátových centrách v EÚ s nákladmi typu OpEx a rýchlejším škálovaním. Voľba sa riadi citlivosťou dát, súladom s predpismi, nákladmi a prevádzkovým know-how.
Key Takeaways
- ✓On-premise (self-hosted) maximalizuje kontrolu nad dátami a suverenitu, no spôsobuje vysoké CapEx, dimenzovanie GPU a interný prevádzkový náklad; EU cloud to presúva na plánovateľné OpEx a rýchle škálovanie.
- ✓Rozhodujúcimi kritériami sú citlivosť dát, súlad s predpismi (GDPR čl. 5/6/17, perspektívne EU AI Act), náklady (token-OpEx vs. hardvérové CapEx), škálovanie, latencia a existujúce know-how.
- ✓Suverénne stavebné bloky z regiónu DACH/EÚ existujú pre každú vrstvu: Qdrant (Berlín) a Weaviate (NL/EÚ) ako vektorová databáza, Haystack/deepset (Berlín) ako framework, Aleph Alpha (Heidelberg) a Mistral (FR/EÚ) ako LLM, STACKIT/IONOS/OVHcloud ako hosting (stav 2026).
- ✓Orientačná pomôcka DSK k RAG vyžaduje oddelenie mandantov, koncept rolí a oprávnení a pipeline na mazanie chunkov a embeddingov - to platí pre každý model hostingu, on-premise je to však priamo realizovateľné.
- ✓Pravidlo z praxe: MSP začínajú v EU cloude, regulované odvetvia a klasifikované dáta inklinujú k on-premise/sovereign, koncerny jazdia väčšinou hybridne (citlivé dáta on-prem, generické workloady v EU cloude).
RAG on-premise vs. cloud opisuje rozhodnutie o hostingu systému Retrieval-Augmented Generation: pri on-premise (self-hosted) bežia vektorová databáza, embedding model a jazykový model na vlastnom alebo dedikovanom hardvéri s maximálnou kontrolou nad dátami (CapEx). Pri EU cloude využívate spravované služby v dátových centrách v EÚ s nákladmi založenými na spotrebe (OpEx) a s rýchlym škálovaním. Správna voľba vyplýva z citlivosti dát, súladu s predpismi, nákladov, latencie a prevádzkového know-how.
- On-premise/self-hosted sa hodí pri vysokej citlivosti dát, prísnych požiadavkách na suverenitu a pri existujúcom prevádzkovom know-how - cenou sú CapEx a interný náklad.
- EU cloud sa hodí na rýchly roll-out, plánovateľné OpEx a elastické škálovanie - pri amerických poskytovateľoch však zostáva potrebné posúdiť zvyškové riziko podľa Cloud Act.
- Hybrid kombinuje oboje: citlivé dáta on-prem, generické workloady v EU cloude - štandardná cesta pre koncerny so zmiešanými triedami dát.
Šesť rozhodovacích kritérií
Spoľahlivé rozhodnutie o hostingu pre RAG nezávisí od jediného faktora, ale od šiestich dimenzií, ktoré sa navzájom podmieňujú.
Citlivosť dát
Embeddingy nie sú bezpečnou ochranou: podľa súčasného názoru nie je embedding osobných dokumentov bezpečnou pseudonymizáciou - z embeddingov možno pomocou vhodných dekodérov rekonštruovať časti obsahu. Osobné alebo klasifikované obsahy by sa preto mali považovať za osobné, kým dozorný orgán alebo judikatúra nerozhodnú inak. Čím citlivejší je korpus, tým silnejší je argument pre on-premise alebo aspoň suverénny EU hosting.
Súlad s predpismi (GDPR a odvetvové právo)
Centrálnym zdrojom v regióne DACH je Orientačná pomôcka k RAG od Konferencie dozorných úradov pre ochranu údajov (DSK). Nezávisle od modelu hostingu vyžaduje tri veci: oddelenie mandantov, koncept rolí a oprávnení a pipeline na mazanie chunkov a embeddingov. Relevantné sú najmä GDPR čl. 5 (zásady ako účelové obmedzenie, minimalizácia dát, obmedzenie uchovávania), čl. 6 (právny základ, typicky čl. 6 ods. 1 písm. b/f) a čl. 17 (právo na vymazanie - vektorové záznamy treba považovať za adresovateľné records). Pri EU AI Act platí: politická dohoda Digital Omnibus zo 7. mája 2026 navrhuje odklad pravidiel pre vysokorizikové systémy na 2. decembra 2027, formálne však ešte nebola schválená; povinnosti transparentnosti podľa čl. 50 zostávajú nezmenené k 2. augustu 2026 (stav 2026). Pre RAG ako vrstvu znalostí vysokorizikového systému sa perspektívne uplatnia kvalita dát (čl. 10), logging (čl. 12) a transparentnosť (čl. 13). Tieto údaje sú informatívne a nepredstavujú právne poradenstvo.
Náklady: CapEx vs. OpEx, token vs. hardvér
EU cloud je riadený OpEx: hlavnými nákladovými blokmi sú embedding API, hosting vektorovej databázy, LLM-calls a voliteľne reranker. Rádový odhad podľa výskumu: indexácia približne 0,02-0,13 USD na 1 mil. tokenov, jeden dopyt približne 0,001-0,05 USD podľa modelu; indexácia Contextual Retrieval pri Anthropicu cca 1,02 USD na 1 mil. document tokenov s prompt cachingom (stav 2026). On-premise je riadený CapEx: GPU, úložisko, prevádzka. Pri nízkom alebo kolísavom objeme víťazí cloud; pri vysokom, konštantnom objeme môže byť self-hosted po amortizácii lacnejší.
Škálovanie
Vektorové databázy škálujú cez index. HNSW (Malkov a Yashunin) je štandardný index v Qdrant, Weaviate, Milvus, pgvector, OpenSearch, Elasticsearch a ďalších - do približne 100 mil. vektorov s dobrým pomerom recall/rýchlosť. Pre veľmi veľké indexy pod tlakom RAM sa nasadzujú IVF_PQ alebo DiskANN/BBQ. EU cloudové služby (Qdrant Cloud, Weaviate Cloud) poskytujú elasticitu bez plánovania hardvéru; on-premise vyžaduje predvídavé dimenzovanie GPU a úložiska.
Latencia
Hybridná retrieval pipeline plus rerank sa typicky pohybuje okolo 100-800 ms. On-premise dokáže úplne kontrolovať latenciu a dátové cesty (žiadny internetový hop k externým API), cloudové služby ponúkajú regióny EÚ s nízkymi profilmi latencie - Qdrant a Pinecone sa považujú za veľmi nízko-latentné.
Prevádzkový náklad a know-how
On-premise sústreďuje zodpovednosť interne: ladenie indexu (M, ef_construction, ef_search), re-indexácia pri zmene embedding modelu, monitoring a eval. EU cloud presúva ich časť na poskytovateľa. Bez evaluácie RAGAS/TruLens hrozí v oboch modeloch tichá regresia kvality.
Rozhodovacia matica: on-premise vs. EU cloud vs. hybrid
Kritérium | On-premise (self-hosted) | EU cloud | Hybrid |
|---|---|---|---|
Citlivosť dát | Maximálna kontrola; aj klasifikované dáta | Vysoká pri poskytovateľovi z EÚ; zvyškové riziko pri americkom poskytovateľovi (Cloud Act) | Citlivé on-prem, zvyšok v EU cloude |
Oddelenie mandantov, ACL, pipeline na mazanie priamo realizovateľné | Región EÚ + SCC/TIA pri americkom poskytovateľovi; povinnosti DSK platia | Triedy dát spracovateľné oddelene | |
Náklady | CapEx (hardvér, GPU, prevádzka) | zmiešané CapEx + OpEx | |
Škálovanie | Predbežné dimenzovanie, obmedzené hardvérom | elastické, riadené poskytovateľom | citlivá časť obmedzená, zvyšok elastický |
Latencia | plne kontrolovateľná, žiadny externý API-hop | región EÚ, veľmi nízka (napr. Qdrant) | optimalizovateľná podľa komponentu |
Prevádzkový náklad/know-how | vysoký, interný | nízky až stredný, čiastočne outsourcovaný | stredný, zdieľaná zodpovednosť |
Suverénne stavebné bloky | Qdrant, Weaviate, Haystack, Aleph Alpha, jina-v3, BGE-M3 | Qdrant Cloud, Weaviate Cloud, STACKIT, IONOS, OVHcloud | ľubovoľná kombinácia |
Suverénne možnosti z regiónu DACH/EÚ (stav 2026): vektorová databáza Qdrant (Berlín, Apache 2.0) a Weaviate (Amsterdam, BSD-3); framework Haystack/deepset (Berlín), uvedený v Deutschland-Stack (D-Stack) od BMFTR; embeddingy Aleph Alpha (Heidelberg, schopné on-prem), jina-embeddings-v3 (Berlín) a BGE-M3 ako OSS fallback; LLM Mistral (FR/EÚ), Aleph Alpha Pharia a Teuken-7B (OpenGPT-X); hosting STACKIT (skupina Schwarz), IONOS, OVHcloud a Open Telekom Cloud.
Odporúčanie podľa scenára
MSP
Pre MSP s miernym objemom a bez dedikovaného ML-Ops tímu je EU cloud väčšinou racionálna voľba: rýchly roll-out, plánovateľné OpEx, žiadna investícia do hardvéru. Pragmatický stack: Qdrant Cloud alebo Weaviate Cloud v regióne EÚ, multilingválny embedding model (napríklad Cohere Embed v4 alebo jina-embeddings-v3) a LLM od poskytovateľa z EÚ ako Mistral. Dôležité zostávajú oddelenie mandantov, ACL filtre a pipeline na mazanie podľa orientačnej pomôcky DSK.
Regulované odvetvie
Zdravotníctvo, financie, verejná správa alebo obrana s vysoko citlivými alebo klasifikovanými dátami inklinujú k on-premise/sovereign. Referenčný bod z výskumu: architektúra secunet x NVIDIA x Haystack pre klasifikované informácie, ako aj on-prem nasadenie platformy Aleph Alpha Pharia pre koncerny a verejnú správu. Tu zaváži úplná kontrola nad dátami viac než pohodlie cloudu; citácie zdrojov v odpovedi sú pre regulované odvetvia povinnosťou.
Koncern
Veľké podniky jazdia typicky hybridne: citlivé, osobné embeddingy on-premise alebo v suverénnom private cloude, generické znalostné workloady (produktová dokumentácia, FAQ) v EU cloude. Známi používatelia Haystack ako Airbus, Lufthansa Industry Solutions, Infineon alebo LEGO ukazujú, že suverénne frameworky bežia produktívne aj vo veľkých prostrediach. Triedy dát sa oddelia, pričom škálovanie a kontrola zostávajú splniteľné súčasne.
Praktický príklad s číslami
Stredne veľký podnik z regiónu DACH zvažuje interné znalostné RAG s 5 mil. document tokenov a 50 000 dopytmi mesačne.
- Indexácia (jednorazová/inkrementálna): 5 mil. tokenov pri cca 0,02-0,13 USD na 1 mil. tokenov dáva približne 0,10-0,65 USD na jeden plný re-index. S Contextual Retrieval a prompt cachingom (cca 1,02 USD na 1 mil. tokenov) je úplný kontextualizovaný index na úrovni cca 5 USD.
- Dopyty (priebežné): 50 000 dopytov pri cca 0,001-0,05 USD dáva približne 50-2 500 USD mesačne, silne závisle od modelu.
V EU cloude z toho vznikajú čisté OpEx bez vstupnej investície - pri tomto objeme jednoznačne ekonomické. Až pri výrazne vyššom, konštantnom objeme dopytov alebo pri nevyhnutnom on-prem uchovávaní dát sa výpočet prikláňa v prospech amortizovaného hardvéru. Kvalitatívny ukazovateľ: RAG pipeline je oproti naivným long-context requestom s 1 mil. tokenov približne 30-60x rýchlejšia a približne 1 250x lacnejšia na dopyt (rádovo, stav 2026) - dodatočný argument sprístupňovať znalosti cez RAG namiesto drahých plnokontextových promptov, nezávisle od hostingu.
Pre agentúry a B2B rozhodovateľov
Otázka hostingu nie je čisto IT rozhodnutím, ale pákou súladu s predpismi a nákladov. Agentúry, ktoré stavajú RAG riešenia pre zákazníkov v regióne DACH, by mali maticu vyššie využívať ako nástroj discovery: najprv vyjasniť citlivosť dát a odvetvové právo, potom profil nákladov a škálovania, nakoniec prevádzkový model. My v Blck Alpaca posudzujeme pre každý use case vhodnú kombináciu EU cloudu a suverénnych on-prem stavebných blokov a rovno dodávame architektúru v súlade s GDPR (oddelenie mandantov, pipeline na mazanie, citácie zdrojov). Právne pojmy, čísla článkov a lehoty v tomto texte sú informatívne a nenahrádzajú právne poradenstvo - konečné právne posúdenie patrí do rúk právnikov so zameraním na ochranu údajov a odborné právo.
Často kladené otázky
Kedy sa oplatí RAG self-hosted namiesto EU cloudu?
Je EU cloud automaticky v súlade s GDPR pre RAG?
Čo je lacnejšie: on-premise alebo EU cloud pre RAG?
Čo je hybridný variant pri hostingu RAG?
Aké suverénne stavebné bloky z regiónu DACH/EÚ existujú pre self-hosted RAG?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.