Porovnanie embedding modelov 2026: text-embedding-3, Cohere, BGE-M3, Voyage a Jina
Porovnanie embedding modelov hodnotí modely ako OpenAI text-embedding-3, Cohere Embed v4, BGE-M3, Voyage a Jina na základe dimenzií, dĺžky kontextu, benchmarkov MTEB/MMTEB, viacjazyčnosti, nákladov, self-hostingu a licencie. Pre nemecky hovoriace RAG systémy nerozhoduje anglické poradie v MTEB, ale doložená kvalita na MMTEB, MIRACL a MTEB-DE.
Key Takeaways
- ✓Anglické poradie v MTEB nie je nemecké poradie: na MMTEB, MIRACL-de a MTEB-DE strácajú modely optimalizované pre angličtinu často 5-15 bodov nDCG@10 pri kompozitách, odbornom jazyku a retrievale náročnom na dlhé slová.
- ✓Pre nemecky hovoriace RAG systémy sú lídrami roku 2026 Cohere Embed v4 (najlepšia proprietárna nemčina), BGE-M3 (najlepší open-source multilingválny, MIT) a Jina v3/v4 (Berlín, Apache 2.0).
- ✓Self-hosting rozhoduje o suverenite: BGE-M3, Jina v3/v4 a mxbai sú na stiahnutie, a teda v súlade s DSGVO/DACH; OpenAI a Voyage zostávajú výhradne API s jurisdikciou USA.
- ✓Matryoshka modely (text-embedding-3, Cohere v4, BGE, Voyage 4) umožňujú orezanie dimenzií: skrátenie z 3 072 na 512-1 024 dimenzií stojí len približne 1-3 % kvality retrievalu, ale šetrí 3-6x pamäť a latenciu.
- ✓Cross-encoder reranker je najúčinnejšie jednotlivé opatrenie: plus 5-15 bodov recall@5; embeddingy + BM25 + reranker znižujú podľa Anthropicu neúspešné retrievaly až o 67 %.
- ✓Embeddingy z osobných údajov sa považujú za osobné údaje - pre regulované DACH workloady sú prípustné iba suverénne hostovateľné modely (BGE-M3, Jina, mxbai, Cohere na STACKIT).
Embedding model premieňa text na číselné vektory, ktoré robia sémantickú podobnosť merateľnou - základ každého RAG systému. Fundované porovnanie embedding modelov hodnotí kandidátov podľa dimenzií, dĺžky kontextu, benchmarkov MTEB/MMTEB, viacjazyčnosti, nákladov, schopnosti self-hostingu a licencie. Pre DACH región platí: anglické poradie v MTEB nie je nemecké poradie. Smerodajné sú MMTEB, MIRACL a MTEB-DE.
- Najlepšia nemčina (proprietárna): Cohere Embed v4 - multilingválny líder, suverénne hostovateľný na STACKIT (stav 2026).
- Najlepší open-source multilingválny: BGE-M3 (MIT) - SOTA na MIRACL, kombinuje Dense, Sparse a Multi-Vector v jednom modeli.
- DACH-natívny a multimodálny: Jina v3/v4 (Berlín, Apache 2.0) - na stiahnutie, v4 spracúva aj vizuálne dokumenty.
Prečo anglické poradie v MTEB zavádza
MTEB v1 dominujú anglické úlohy. Správne DACH referencie sú MMTEB (Massive Multilingual Text Embedding Benchmark s vyše 1 000 úlohami a 250+ jazykmi), MIRACL (18-jazyčný monolingválny retrieval) a nemecké subsety ako MTEB-DE, GermanQuAD-Retrieval a MIRACL-de. Tieto benchmarky pravidelne nanovo usporadúvajú leaderboard: modely, ktoré žiaria v angličtine, strácajú v nemčine často 5-15 bodov nDCG@10 - pri kompozitách, odbornom jazyku, právnej a medicínskej terminológii, ako aj pri retrievale dlhých slov náročnom na tokenizáciu.
Pre nemecké B2B korpusy navyše platí, že pomenované entity (named entities), produktové kódy, čísla paragrafov, ICD kódy, čísla materiálu SAP, IBAN a spisové značky sú práve tými tokenmi, pri ktorých čisto Dense retrieval modely zlyhávajú. Voľba modelu je preto vždy rozhodnutím o kvalite nemeckého jazyka - nie o globálnom leaderboarde.
Najdôležitejšie embedding modely 2026 v porovnaní
Nasledujúca tabuľka zhŕňa centrálne výberové kritériá. Všetky údaje pochádzajú z internej výskumnej základne, stav 2026.
Model | Dimenzie | Kontext | Licencia / Hosting | Signál nemčiny | Matryoshka | Multimodálny | Suverenita |
|---|---|---|---|---|---|---|---|
OpenAI text-embedding-3-large | 3 072 (orezateľné) | 8 192 | API + Azure OpenAI (regióny EU) | solídna EN, slabšia pri DE odborných úlohách | áno | nie | jurisdikcia USA, žiadny On-Prem |
OpenAI text-embedding-3-small | 1 536 (orezateľné) | 8 192 | ako vyššie | podobný vzorec | áno | nie | jurisdikcia USA |
Cohere Embed v4 | 256-1 536 | 128k | API, Bedrock EU, Azure EU, STACKIT | nemčina Top-Tier, MTEB v2 ~65 | áno | áno | suverénne na STACKIT |
BGE-M3 (BAAI) | 1 024 + sparse + multi-vec | 8 192 | MIT, self-host | multilingválny Top-Tier, SOTA MIRACL | nie | plne suverénny | |
Jina Embeddings v3 (Berlín) | 1 024 (Task-LoRA) | 8 192 | Apache 2.0, self-host | silný, prekonáva OpenAI/Cohere na MTEB pri 570M Params | áno | nie | DACH-natívny |
Jina Embeddings v4 | do 2 048 / multi-vec | 32k | Apache 2.0, self-host | MMTEB 66,49; ViDoRe 90,17 | áno | áno | DACH-natívny |
jina-embeddings-v2-base-de | 768 | 8 192 | Apache 2.0, self-host | bilingválny DE/EN, vhodný pre CPU (322 MB) | nie | nie | plne suverénny |
Voyage-3.5 / voyage-4 | variabilné | do 32k | iba API (MongoDB/Voyage) | zameraný na EN/Finance/Legal/Code | čiastočne | áno (multimodal-3/3.5) | jurisdikcia USA |
mxbai-embed-large-v1 (Berlín) | 1 024 | 512 | Apache 2.0, self-host | vyvinutý v EU, orientovaný na EN | áno | nie | DACH-natívny |
Qwen3-Embedding-8B | variabilné | 32k | Apache 2.0, self-host | MTEB v2 ~70,58, veľmi silný | áno | nie | plne suverénny |
multilingual-e5-large-instruct | 1 024 | 514 | MIT, self-host | solídny multilingválny | čiastočne | nie | plne suverénny |
Proprietárne API: OpenAI, Cohere, Voyage
OpenAI text-embedding-3-large dodáva s 3 072 dimenziami a kontextom 8 192 tokenov solídne anglické hodnoty, ale pri nemeckých špeciálnych úlohách citeľne zaostáva za Cohere a BGE. Zostáva iba API (aj cez Azure OpenAI v regiónoch EU ako Sweden Central alebo Switzerland North), čím zostáva zachovaná jurisdikcia USA. Cohere Embed v4 je proprietárny multilingválny líder s najlepším signálom nemčiny, kontextom až 128k a Matryoshka orezaním od 256 do 1 536 dimenzií - a suverénne hostovateľný cez STACKIT. Voyage (od februára 2025 pod MongoDB) je špecializovaný na angličtinu, Finance, Legal a Code; pre nemecky hovoriaci retrieval nie je meradlom.
Open-source lídri: BGE-M3, Jina, Qwen3
BGE-M3 (BAAI, MIT) je open-source štandard pre DACH multilingválny RAG: 1 024 dimenzií, kontext 8 192 tokenov, SOTA na MIRACL a - jedinečne - Dense, Sparse a Multi-Vector embeddingy v jednom modeli. Jina v3 a v4 z Berlína (Apache 2.0) sú DACH-natívni favoriti; v4 spracúva s kontextom 32k navyše vizuálne bohaté dokumenty (tabuľky, grafy, diagramy) a dosahuje ViDoRe 90,17 v Multi-Vector režime. Pre stredostavovské stacky bez GPU je jina-embeddings-v2-base-de s 322 MB pragmatickou bilingválnou voľbou. Pozor pri licenciách: NV-Embed-v2 (NVIDIA) je CC-BY-NC, a teda vylúčený pre komerčné DACH nasadenia.
Praktický príklad: náklady na pamäť a Matryoshka
Konkrétny výpočtový príklad pre 10 mil. vektorov pri 1 024 dimenziách s indexom HNSW:
- float32 (baseline): surové vektory 40 GB, plus 50-100 % réžia HNSW -> efektívny working set 60-80 GB.
- halfvec (float16): približne 30-40 GB pri zanedbateľnej strate recall.
- Scalar Quantization (SQ8): približne 10-20 GB pri strate recall len 1-3 %.
- Binary + Rescore: približne 5-10 GB - ale len s Full-Vector rescore Top-N, inak strata recall 30-60 %.
K tomu sa pridáva Matryoshka: text-embedding-3-large s 3 072 dimenziami je pre väčšinu enterprise RAG prípadov predimenzovaný. Orezanie na 1 024 alebo 512 dimenzií stojí len približne 1-3 % kvality retrievalu, ale šetrí 3-6x pamäť a ANN latenciu - pri nulových nákladoch na tréning. To isté platí pre Cohere Embed v4, BGE, mxbai-2d a Voyage 4. Pre nové projekty znie odporúčanie: vybrať model schopný Matryoshka a ukladať pri 512-1 024 dimenziách.
Nezabudnúť na reranker
Voľba modelu je len polovica úspechu. Cross-encoder reranker po prvej fáze retrievalu je najúčinnejšie jednotlivé opatrenie v pipeline - zdvihne recall@5 typicky o 5-15 percentuálnych bodov. Štúdia Anthropicu o Contextual Retrieval dokladá: embeddingy plus BM25 znižujú neúspešné retrievaly približne o 49 %, s dodatočným rerankerom až o 67 %. Suverénne self-hostovateľné možnosti sú BGE Reranker M3 (MIT), Jina Reranker v2/v3 (Apache 2.0) a mxbai-rerank-large-v2; Cohere Rerank Multilingual je ako prémiový variant dostupný cez STACKIT.
Odporúčanie pre DACH a viacjazyčné use-cases
Konkrétne poradie pre nemecky hovoriaci enterprise RAG (stav 2026) znie: 1. Cohere Embed v4 (najlepšia nemčina, proprietárny, suverénny na STACKIT), 2. BGE-M3 (najlepší open-source multilingválny, MIT, plne suverénny), 3. Jina v3/v4 (DACH-natívny, multimodálny), 4. BGE-multilingual-gemma2 (ťažší, ale SOTA na viacerých splitoch), 5. Qwen3-Embedding-8B (Apache 2.0, MTEB v2 ~70,58). OpenAI text-embedding-3-large sa pri nemeckých úlohách umiestňuje výrazne pozadu.
Najsuverénnejší stack: BGE-M3 alebo Jina v4, self-hosted na jednej L4-/A10G-GPU, doplnený o BGE Reranker M3 - všetky modely na stiahnutie, všetky vrstvy prevádzkovateľné na DACH-suverénnych cloudoch (STACKIT, IONOS, OTC, Hetzner). Cohere Embed v4 na STACKIT sa pridáva tam, kde o niečo lepšia nemecká kvalita ospravedlňuje komerčný záväzok. Dôležité pre compliance: embeddingy z osobných údajov sa s vysokou pravdepodobnosťou samy považujú za osobné údaje (EDPB-Opinion 28/2024). Pre regulované workloady sú preto prípustné iba suverénne hostovateľné modely.
Pre agentúry a B2B rozhodovateľov
Voľba embedding modelu rozhoduje rovnakou mierou o kvalite retrievalu, nákladoch na pamäť a súlade s DSGVO vášho RAG systému. Kto stavia pre DACH trh, by nemal vyberať podľa anglického poradia v MTEB, ale podľa doloženej nemeckej kvality a suverenity. Ako viedenská agentúra koncipuje a implementuje Blck Alpaca suverénne, viacjazyčné RAG a KI-agentové stacky - od výberu modelu cez self-hosting až po integráciu rerankera. Ozvite sa nám, ak chcete nasadiť embedding setup v súlade s DSGVO pre nemecky hovoriaci obsah alebo optimalizovať existujúci systém na nemeckú kvalitu retrievalu.
Často kladené otázky
Ktorý embedding model je v roku 2026 najlepší pre nemčinu?
Čo znamenajú dimenzie a dĺžka kontextu pri embedding modeloch?
Môžem embedding modely hostovať sám?
Čo je Matryoshka pri embeddingoch a prečo šetrí náklady?
Sú embeddingy osobnými údajmi podľa DSGVO?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.