Preskočiť na obsah
4.15Pokročilý5 min

RAG on-premise vs. EU cloud: rozhodovacia matica pre možnosti hostingu

Blck Alpaca·
Definition

RAG on-premise vs. cloud označuje rozhodnutie o hostingu systému Retrieval-Augmented Generation: on-premise (self-hosted) beží na vlastnom hardvéri s maximálnou kontrolou nad dátami a s nákladmi typu CapEx, EU cloud využíva spravované služby v dátových centrách v EÚ s nákladmi typu OpEx a rýchlejším škálovaním. Voľba sa riadi citlivosťou dát, súladom s predpismi, nákladmi a prevádzkovým know-how.

Key Takeaways

  • On-premise (self-hosted) maximalizuje kontrolu nad dátami a suverenitu, no spôsobuje vysoké CapEx, dimenzovanie GPU a interný prevádzkový náklad; EU cloud to presúva na plánovateľné OpEx a rýchle škálovanie.
  • Rozhodujúcimi kritériami sú citlivosť dát, súlad s predpismi (GDPR čl. 5/6/17, perspektívne EU AI Act), náklady (token-OpEx vs. hardvérové CapEx), škálovanie, latencia a existujúce know-how.
  • Suverénne stavebné bloky z regiónu DACH/EÚ existujú pre každú vrstvu: Qdrant (Berlín) a Weaviate (NL/EÚ) ako vektorová databáza, Haystack/deepset (Berlín) ako framework, Aleph Alpha (Heidelberg) a Mistral (FR/EÚ) ako LLM, STACKIT/IONOS/OVHcloud ako hosting (stav 2026).
  • Orientačná pomôcka DSK k RAG vyžaduje oddelenie mandantov, koncept rolí a oprávnení a pipeline na mazanie chunkov a embeddingov - to platí pre každý model hostingu, on-premise je to však priamo realizovateľné.
  • Pravidlo z praxe: MSP začínajú v EU cloude, regulované odvetvia a klasifikované dáta inklinujú k on-premise/sovereign, koncerny jazdia väčšinou hybridne (citlivé dáta on-prem, generické workloady v EU cloude).

RAG on-premise vs. cloud opisuje rozhodnutie o hostingu systému Retrieval-Augmented Generation: pri on-premise (self-hosted) bežia vektorová databáza, embedding model a jazykový model na vlastnom alebo dedikovanom hardvéri s maximálnou kontrolou nad dátami (CapEx). Pri EU cloude využívate spravované služby v dátových centrách v EÚ s nákladmi založenými na spotrebe (OpEx) a s rýchlym škálovaním. Správna voľba vyplýva z citlivosti dát, súladu s predpismi, nákladov, latencie a prevádzkového know-how.

  • On-premise/self-hosted sa hodí pri vysokej citlivosti dát, prísnych požiadavkách na suverenitu a pri existujúcom prevádzkovom know-how - cenou sú CapEx a interný náklad.
  • EU cloud sa hodí na rýchly roll-out, plánovateľné OpEx a elastické škálovanie - pri amerických poskytovateľoch však zostáva potrebné posúdiť zvyškové riziko podľa Cloud Act.
  • Hybrid kombinuje oboje: citlivé dáta on-prem, generické workloady v EU cloude - štandardná cesta pre koncerny so zmiešanými triedami dát.

Šesť rozhodovacích kritérií

Spoľahlivé rozhodnutie o hostingu pre RAG nezávisí od jediného faktora, ale od šiestich dimenzií, ktoré sa navzájom podmieňujú.

Citlivosť dát

Embeddingy nie sú bezpečnou ochranou: podľa súčasného názoru nie je embedding osobných dokumentov bezpečnou pseudonymizáciou - z embeddingov možno pomocou vhodných dekodérov rekonštruovať časti obsahu. Osobné alebo klasifikované obsahy by sa preto mali považovať za osobné, kým dozorný orgán alebo judikatúra nerozhodnú inak. Čím citlivejší je korpus, tým silnejší je argument pre on-premise alebo aspoň suverénny EU hosting.

Súlad s predpismi (GDPR a odvetvové právo)

Centrálnym zdrojom v regióne DACH je Orientačná pomôcka k RAG od Konferencie dozorných úradov pre ochranu údajov (DSK). Nezávisle od modelu hostingu vyžaduje tri veci: oddelenie mandantov, koncept rolí a oprávnení a pipeline na mazanie chunkov a embeddingov. Relevantné sú najmä GDPR čl. 5 (zásady ako účelové obmedzenie, minimalizácia dát, obmedzenie uchovávania), čl. 6 (právny základ, typicky čl. 6 ods. 1 písm. b/f) a čl. 17 (právo na vymazanie - vektorové záznamy treba považovať za adresovateľné records). Pri EU AI Act platí: politická dohoda Digital Omnibus zo 7. mája 2026 navrhuje odklad pravidiel pre vysokorizikové systémy na 2. decembra 2027, formálne však ešte nebola schválená; povinnosti transparentnosti podľa čl. 50 zostávajú nezmenené k 2. augustu 2026 (stav 2026). Pre RAG ako vrstvu znalostí vysokorizikového systému sa perspektívne uplatnia kvalita dát (čl. 10), logging (čl. 12) a transparentnosť (čl. 13). Tieto údaje sú informatívne a nepredstavujú právne poradenstvo.

Náklady: CapEx vs. OpEx, token vs. hardvér

EU cloud je riadený OpEx: hlavnými nákladovými blokmi sú embedding API, hosting vektorovej databázy, LLM-calls a voliteľne reranker. Rádový odhad podľa výskumu: indexácia približne 0,02-0,13 USD na 1 mil. tokenov, jeden dopyt približne 0,001-0,05 USD podľa modelu; indexácia Contextual Retrieval pri Anthropicu cca 1,02 USD na 1 mil. document tokenov s prompt cachingom (stav 2026). On-premise je riadený CapEx: GPU, úložisko, prevádzka. Pri nízkom alebo kolísavom objeme víťazí cloud; pri vysokom, konštantnom objeme môže byť self-hosted po amortizácii lacnejší.

Škálovanie

Vektorové databázy škálujú cez index. HNSW (Malkov a Yashunin) je štandardný index v Qdrant, Weaviate, Milvus, pgvector, OpenSearch, Elasticsearch a ďalších - do približne 100 mil. vektorov s dobrým pomerom recall/rýchlosť. Pre veľmi veľké indexy pod tlakom RAM sa nasadzujú IVF_PQ alebo DiskANN/BBQ. EU cloudové služby (Qdrant Cloud, Weaviate Cloud) poskytujú elasticitu bez plánovania hardvéru; on-premise vyžaduje predvídavé dimenzovanie GPU a úložiska.

Latencia

Hybridná retrieval pipeline plus rerank sa typicky pohybuje okolo 100-800 ms. On-premise dokáže úplne kontrolovať latenciu a dátové cesty (žiadny internetový hop k externým API), cloudové služby ponúkajú regióny EÚ s nízkymi profilmi latencie - Qdrant a Pinecone sa považujú za veľmi nízko-latentné.

Prevádzkový náklad a know-how

On-premise sústreďuje zodpovednosť interne: ladenie indexu (M, ef_construction, ef_search), re-indexácia pri zmene embedding modelu, monitoring a eval. EU cloud presúva ich časť na poskytovateľa. Bez evaluácie RAGAS/TruLens hrozí v oboch modeloch tichá regresia kvality.

Rozhodovacia matica: on-premise vs. EU cloud vs. hybrid

Kritérium

On-premise (self-hosted)

EU cloud

Hybrid

Citlivosť dát

Maximálna kontrola; aj klasifikované dáta

Vysoká pri poskytovateľovi z EÚ; zvyškové riziko pri americkom poskytovateľovi (Cloud Act)

Citlivé on-prem, zvyšok v EU cloude

Súlad (GDPR/AI Act)

Oddelenie mandantov, ACL, pipeline na mazanie priamo realizovateľné

Región EÚ + SCC/TIA pri americkom poskytovateľovi; povinnosti DSK platia

Triedy dát spracovateľné oddelene

Náklady

CapEx (hardvér, GPU, prevádzka)

OpEx (token, hosting, LLM-calls)

zmiešané CapEx + OpEx

Škálovanie

Predbežné dimenzovanie, obmedzené hardvérom

elastické, riadené poskytovateľom

citlivá časť obmedzená, zvyšok elastický

Latencia

plne kontrolovateľná, žiadny externý API-hop

región EÚ, veľmi nízka (napr. Qdrant)

optimalizovateľná podľa komponentu

Prevádzkový náklad/know-how

vysoký, interný

nízky až stredný, čiastočne outsourcovaný

stredný, zdieľaná zodpovednosť

Suverénne stavebné bloky

Qdrant, Weaviate, Haystack, Aleph Alpha, jina-v3, BGE-M3

Qdrant Cloud, Weaviate Cloud, STACKIT, IONOS, OVHcloud

ľubovoľná kombinácia

Suverénne možnosti z regiónu DACH/EÚ (stav 2026): vektorová databáza Qdrant (Berlín, Apache 2.0) a Weaviate (Amsterdam, BSD-3); framework Haystack/deepset (Berlín), uvedený v Deutschland-Stack (D-Stack) od BMFTR; embeddingy Aleph Alpha (Heidelberg, schopné on-prem), jina-embeddings-v3 (Berlín) a BGE-M3 ako OSS fallback; LLM Mistral (FR/EÚ), Aleph Alpha Pharia a Teuken-7B (OpenGPT-X); hosting STACKIT (skupina Schwarz), IONOS, OVHcloud a Open Telekom Cloud.

Odporúčanie podľa scenára

MSP

Pre MSP s miernym objemom a bez dedikovaného ML-Ops tímu je EU cloud väčšinou racionálna voľba: rýchly roll-out, plánovateľné OpEx, žiadna investícia do hardvéru. Pragmatický stack: Qdrant Cloud alebo Weaviate Cloud v regióne EÚ, multilingválny embedding model (napríklad Cohere Embed v4 alebo jina-embeddings-v3) a LLM od poskytovateľa z EÚ ako Mistral. Dôležité zostávajú oddelenie mandantov, ACL filtre a pipeline na mazanie podľa orientačnej pomôcky DSK.

Regulované odvetvie

Zdravotníctvo, financie, verejná správa alebo obrana s vysoko citlivými alebo klasifikovanými dátami inklinujú k on-premise/sovereign. Referenčný bod z výskumu: architektúra secunet x NVIDIA x Haystack pre klasifikované informácie, ako aj on-prem nasadenie platformy Aleph Alpha Pharia pre koncerny a verejnú správu. Tu zaváži úplná kontrola nad dátami viac než pohodlie cloudu; citácie zdrojov v odpovedi sú pre regulované odvetvia povinnosťou.

Koncern

Veľké podniky jazdia typicky hybridne: citlivé, osobné embeddingy on-premise alebo v suverénnom private cloude, generické znalostné workloady (produktová dokumentácia, FAQ) v EU cloude. Známi používatelia Haystack ako Airbus, Lufthansa Industry Solutions, Infineon alebo LEGO ukazujú, že suverénne frameworky bežia produktívne aj vo veľkých prostrediach. Triedy dát sa oddelia, pričom škálovanie a kontrola zostávajú splniteľné súčasne.

Praktický príklad s číslami

Stredne veľký podnik z regiónu DACH zvažuje interné znalostné RAG s 5 mil. document tokenov a 50 000 dopytmi mesačne.

  • Indexácia (jednorazová/inkrementálna): 5 mil. tokenov pri cca 0,02-0,13 USD na 1 mil. tokenov dáva približne 0,10-0,65 USD na jeden plný re-index. S Contextual Retrieval a prompt cachingom (cca 1,02 USD na 1 mil. tokenov) je úplný kontextualizovaný index na úrovni cca 5 USD.
  • Dopyty (priebežné): 50 000 dopytov pri cca 0,001-0,05 USD dáva približne 50-2 500 USD mesačne, silne závisle od modelu.

V EU cloude z toho vznikajú čisté OpEx bez vstupnej investície - pri tomto objeme jednoznačne ekonomické. Až pri výrazne vyššom, konštantnom objeme dopytov alebo pri nevyhnutnom on-prem uchovávaní dát sa výpočet prikláňa v prospech amortizovaného hardvéru. Kvalitatívny ukazovateľ: RAG pipeline je oproti naivným long-context requestom s 1 mil. tokenov približne 30-60x rýchlejšia a približne 1 250x lacnejšia na dopyt (rádovo, stav 2026) - dodatočný argument sprístupňovať znalosti cez RAG namiesto drahých plnokontextových promptov, nezávisle od hostingu.

Pre agentúry a B2B rozhodovateľov

Otázka hostingu nie je čisto IT rozhodnutím, ale pákou súladu s predpismi a nákladov. Agentúry, ktoré stavajú RAG riešenia pre zákazníkov v regióne DACH, by mali maticu vyššie využívať ako nástroj discovery: najprv vyjasniť citlivosť dát a odvetvové právo, potom profil nákladov a škálovania, nakoniec prevádzkový model. My v Blck Alpaca posudzujeme pre každý use case vhodnú kombináciu EU cloudu a suverénnych on-prem stavebných blokov a rovno dodávame architektúru v súlade s GDPR (oddelenie mandantov, pipeline na mazanie, citácie zdrojov). Právne pojmy, čísla článkov a lehoty v tomto texte sú informatívne a nenahrádzajú právne poradenstvo - konečné právne posúdenie patrí do rúk právnikov so zameraním na ochranu údajov a odborné právo.

Často kladené otázky

Kedy sa oplatí RAG self-hosted namiesto EU cloudu?
Self-hosted (on-premise) sa oplatí, keď je citlivosť dát veľmi vysoká (napr. klasifikované alebo obzvlášť chránené osobné údaje), keď treba úplne vylúčiť zvyškové riziká podľa Cloud Act, alebo pri veľmi vysokom, konštantnom objeme dopytov, pri ktorom sa amortizované hardvérové CapEx stávajú lacnejšími než priebežné token- a hosting-OpEx. Predpokladom je interné prevádzkové know-how na dimenzovanie GPU, prevádzku vektorovej databázy a aktualizácie.
Je EU cloud automaticky v súlade s GDPR pre RAG?
Nie. Hosting v regióne EÚ znižuje riziko rezidencie dát a riziko Cloud Act, no nenahrádza technicko-organizačné povinnosti. Orientačná pomôcka DSK k RAG vyžaduje oddelenie mandantov, koncept rolí a oprávnení, ako aj pipeline na mazanie chunkov a embeddingov (GDPR čl. 17). Pri amerických poskytovateľoch s regiónom EÚ zostáva zvyškové riziko podľa Cloud Act a treba ho posúdiť cez SCC a TIA. Toto je informatívne a nejde o právne poradenstvo.
Čo je lacnejšie: on-premise alebo EU cloud pre RAG?
Závisí to od objemu a profilu záťaže. EU cloud je riadený OpEx: platíte za embedding, hosting vektorovej databázy, LLM-call a voliteľne reranker. On-premise je riadený CapEx: GPU, úložisko a prevádzka sa investujú vopred a amortizujú počas životnosti. Pri nízkom alebo kolísavom objeme je cloud zvyčajne lacnejší; pri vysokom, konštantnom objeme môže byť self-hosted po amortizácii lacnejší.
Čo je hybridný variant pri hostingu RAG?
Hybrid znamená prevádzkovať citlivé komponenty on-premise (napr. vektorovú databázu s osobnými embeddingmi, suverénne LLM ako Aleph Alpha Pharia) a generické, menej citlivé workloady presunúť do EU cloudu. Takto možno skombinovať kontrolu nad dátami a škálovanie. Hybrid je typická cesta pre koncerny so zmiešanými triedami dát.
Aké suverénne stavebné bloky z regiónu DACH/EÚ existujú pre self-hosted RAG?
Stav 2026: vektorová databáza Qdrant (Berlín, Apache 2.0) a Weaviate (Amsterdam, BSD-3); framework Haystack/deepset (Berlín); embeddingy Aleph Alpha (Heidelberg, schopné on-prem), jina-embeddings-v3 (Berlín) a BGE-M3 ako OSS fallback; LLM Mistral (FR/EÚ), Aleph Alpha Pharia a Teuken-7B; hosting STACKIT, IONOS, OVHcloud, Open Telekom Cloud.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.