Preskočiť na obsah
4.3Pokročilý7 min

Porovnanie embedding modelov 2026: text-embedding-3, Cohere, BGE-M3, Voyage a Jina

Blck Alpaca·
Definition

Porovnanie embedding modelov hodnotí modely ako OpenAI text-embedding-3, Cohere Embed v4, BGE-M3, Voyage a Jina na základe dimenzií, dĺžky kontextu, benchmarkov MTEB/MMTEB, viacjazyčnosti, nákladov, self-hostingu a licencie. Pre nemecky hovoriace RAG systémy nerozhoduje anglické poradie v MTEB, ale doložená kvalita na MMTEB, MIRACL a MTEB-DE.

Key Takeaways

  • Anglické poradie v MTEB nie je nemecké poradie: na MMTEB, MIRACL-de a MTEB-DE strácajú modely optimalizované pre angličtinu často 5-15 bodov nDCG@10 pri kompozitách, odbornom jazyku a retrievale náročnom na dlhé slová.
  • Pre nemecky hovoriace RAG systémy sú lídrami roku 2026 Cohere Embed v4 (najlepšia proprietárna nemčina), BGE-M3 (najlepší open-source multilingválny, MIT) a Jina v3/v4 (Berlín, Apache 2.0).
  • Self-hosting rozhoduje o suverenite: BGE-M3, Jina v3/v4 a mxbai sú na stiahnutie, a teda v súlade s DSGVO/DACH; OpenAI a Voyage zostávajú výhradne API s jurisdikciou USA.
  • Matryoshka modely (text-embedding-3, Cohere v4, BGE, Voyage 4) umožňujú orezanie dimenzií: skrátenie z 3 072 na 512-1 024 dimenzií stojí len približne 1-3 % kvality retrievalu, ale šetrí 3-6x pamäť a latenciu.
  • Cross-encoder reranker je najúčinnejšie jednotlivé opatrenie: plus 5-15 bodov recall@5; embeddingy + BM25 + reranker znižujú podľa Anthropicu neúspešné retrievaly až o 67 %.
  • Embeddingy z osobných údajov sa považujú za osobné údaje - pre regulované DACH workloady sú prípustné iba suverénne hostovateľné modely (BGE-M3, Jina, mxbai, Cohere na STACKIT).

Embedding model premieňa text na číselné vektory, ktoré robia sémantickú podobnosť merateľnou - základ každého RAG systému. Fundované porovnanie embedding modelov hodnotí kandidátov podľa dimenzií, dĺžky kontextu, benchmarkov MTEB/MMTEB, viacjazyčnosti, nákladov, schopnosti self-hostingu a licencie. Pre DACH región platí: anglické poradie v MTEB nie je nemecké poradie. Smerodajné sú MMTEB, MIRACL a MTEB-DE.

  • Najlepšia nemčina (proprietárna): Cohere Embed v4 - multilingválny líder, suverénne hostovateľný na STACKIT (stav 2026).
  • Najlepší open-source multilingválny: BGE-M3 (MIT) - SOTA na MIRACL, kombinuje Dense, Sparse a Multi-Vector v jednom modeli.
  • DACH-natívny a multimodálny: Jina v3/v4 (Berlín, Apache 2.0) - na stiahnutie, v4 spracúva aj vizuálne dokumenty.

Prečo anglické poradie v MTEB zavádza

MTEB v1 dominujú anglické úlohy. Správne DACH referencie sú MMTEB (Massive Multilingual Text Embedding Benchmark s vyše 1 000 úlohami a 250+ jazykmi), MIRACL (18-jazyčný monolingválny retrieval) a nemecké subsety ako MTEB-DE, GermanQuAD-Retrieval a MIRACL-de. Tieto benchmarky pravidelne nanovo usporadúvajú leaderboard: modely, ktoré žiaria v angličtine, strácajú v nemčine často 5-15 bodov nDCG@10 - pri kompozitách, odbornom jazyku, právnej a medicínskej terminológii, ako aj pri retrievale dlhých slov náročnom na tokenizáciu.

Pre nemecké B2B korpusy navyše platí, že pomenované entity (named entities), produktové kódy, čísla paragrafov, ICD kódy, čísla materiálu SAP, IBAN a spisové značky sú práve tými tokenmi, pri ktorých čisto Dense retrieval modely zlyhávajú. Voľba modelu je preto vždy rozhodnutím o kvalite nemeckého jazyka - nie o globálnom leaderboarde.

Najdôležitejšie embedding modely 2026 v porovnaní

Nasledujúca tabuľka zhŕňa centrálne výberové kritériá. Všetky údaje pochádzajú z internej výskumnej základne, stav 2026.

Model

Dimenzie

Kontext

Licencia / Hosting

Signál nemčiny

Matryoshka

Multimodálny

Suverenita

OpenAI text-embedding-3-large

3 072 (orezateľné)

8 192

API + Azure OpenAI (regióny EU)

solídna EN, slabšia pri DE odborných úlohách

áno

nie

jurisdikcia USA, žiadny On-Prem

OpenAI text-embedding-3-small

1 536 (orezateľné)

8 192

ako vyššie

podobný vzorec

áno

nie

jurisdikcia USA

Cohere Embed v4

256-1 536

128k

API, Bedrock EU, Azure EU, STACKIT

nemčina Top-Tier, MTEB v2 ~65

áno

áno

suverénne na STACKIT

BGE-M3 (BAAI)

1 024 + sparse + multi-vec

8 192

MIT, self-host

multilingválny Top-Tier, SOTA MIRACL

nie

plne suverénny

Jina Embeddings v3 (Berlín)

1 024 (Task-LoRA)

8 192

Apache 2.0, self-host

silný, prekonáva OpenAI/Cohere na MTEB pri 570M Params

áno

nie

DACH-natívny

Jina Embeddings v4

do 2 048 / multi-vec

32k

Apache 2.0, self-host

MMTEB 66,49; ViDoRe 90,17

áno

áno

DACH-natívny

jina-embeddings-v2-base-de

768

8 192

Apache 2.0, self-host

bilingválny DE/EN, vhodný pre CPU (322 MB)

nie

nie

plne suverénny

Voyage-3.5 / voyage-4

variabilné

do 32k

iba API (MongoDB/Voyage)

zameraný na EN/Finance/Legal/Code

čiastočne

áno (multimodal-3/3.5)

jurisdikcia USA

mxbai-embed-large-v1 (Berlín)

1 024

512

Apache 2.0, self-host

vyvinutý v EU, orientovaný na EN

áno

nie

DACH-natívny

Qwen3-Embedding-8B

variabilné

32k

Apache 2.0, self-host

MTEB v2 ~70,58, veľmi silný

áno

nie

plne suverénny

multilingual-e5-large-instruct

1 024

514

MIT, self-host

solídny multilingválny

čiastočne

nie

plne suverénny

Proprietárne API: OpenAI, Cohere, Voyage

OpenAI text-embedding-3-large dodáva s 3 072 dimenziami a kontextom 8 192 tokenov solídne anglické hodnoty, ale pri nemeckých špeciálnych úlohách citeľne zaostáva za Cohere a BGE. Zostáva iba API (aj cez Azure OpenAI v regiónoch EU ako Sweden Central alebo Switzerland North), čím zostáva zachovaná jurisdikcia USA. Cohere Embed v4 je proprietárny multilingválny líder s najlepším signálom nemčiny, kontextom až 128k a Matryoshka orezaním od 256 do 1 536 dimenzií - a suverénne hostovateľný cez STACKIT. Voyage (od februára 2025 pod MongoDB) je špecializovaný na angličtinu, Finance, Legal a Code; pre nemecky hovoriaci retrieval nie je meradlom.

Open-source lídri: BGE-M3, Jina, Qwen3

BGE-M3 (BAAI, MIT) je open-source štandard pre DACH multilingválny RAG: 1 024 dimenzií, kontext 8 192 tokenov, SOTA na MIRACL a - jedinečne - Dense, Sparse a Multi-Vector embeddingy v jednom modeli. Jina v3 a v4 z Berlína (Apache 2.0) sú DACH-natívni favoriti; v4 spracúva s kontextom 32k navyše vizuálne bohaté dokumenty (tabuľky, grafy, diagramy) a dosahuje ViDoRe 90,17 v Multi-Vector režime. Pre stredostavovské stacky bez GPU je jina-embeddings-v2-base-de s 322 MB pragmatickou bilingválnou voľbou. Pozor pri licenciách: NV-Embed-v2 (NVIDIA) je CC-BY-NC, a teda vylúčený pre komerčné DACH nasadenia.

Praktický príklad: náklady na pamäť a Matryoshka

Konkrétny výpočtový príklad pre 10 mil. vektorov pri 1 024 dimenziách s indexom HNSW:

  • float32 (baseline): surové vektory 40 GB, plus 50-100 % réžia HNSW -> efektívny working set 60-80 GB.
  • halfvec (float16): približne 30-40 GB pri zanedbateľnej strate recall.
  • Scalar Quantization (SQ8): približne 10-20 GB pri strate recall len 1-3 %.
  • Binary + Rescore: približne 5-10 GB - ale len s Full-Vector rescore Top-N, inak strata recall 30-60 %.

K tomu sa pridáva Matryoshka: text-embedding-3-large s 3 072 dimenziami je pre väčšinu enterprise RAG prípadov predimenzovaný. Orezanie na 1 024 alebo 512 dimenzií stojí len približne 1-3 % kvality retrievalu, ale šetrí 3-6x pamäť a ANN latenciu - pri nulových nákladoch na tréning. To isté platí pre Cohere Embed v4, BGE, mxbai-2d a Voyage 4. Pre nové projekty znie odporúčanie: vybrať model schopný Matryoshka a ukladať pri 512-1 024 dimenziách.

Nezabudnúť na reranker

Voľba modelu je len polovica úspechu. Cross-encoder reranker po prvej fáze retrievalu je najúčinnejšie jednotlivé opatrenie v pipeline - zdvihne recall@5 typicky o 5-15 percentuálnych bodov. Štúdia Anthropicu o Contextual Retrieval dokladá: embeddingy plus BM25 znižujú neúspešné retrievaly približne o 49 %, s dodatočným rerankerom až o 67 %. Suverénne self-hostovateľné možnosti sú BGE Reranker M3 (MIT), Jina Reranker v2/v3 (Apache 2.0) a mxbai-rerank-large-v2; Cohere Rerank Multilingual je ako prémiový variant dostupný cez STACKIT.

Odporúčanie pre DACH a viacjazyčné use-cases

Konkrétne poradie pre nemecky hovoriaci enterprise RAG (stav 2026) znie: 1. Cohere Embed v4 (najlepšia nemčina, proprietárny, suverénny na STACKIT), 2. BGE-M3 (najlepší open-source multilingválny, MIT, plne suverénny), 3. Jina v3/v4 (DACH-natívny, multimodálny), 4. BGE-multilingual-gemma2 (ťažší, ale SOTA na viacerých splitoch), 5. Qwen3-Embedding-8B (Apache 2.0, MTEB v2 ~70,58). OpenAI text-embedding-3-large sa pri nemeckých úlohách umiestňuje výrazne pozadu.

Najsuverénnejší stack: BGE-M3 alebo Jina v4, self-hosted na jednej L4-/A10G-GPU, doplnený o BGE Reranker M3 - všetky modely na stiahnutie, všetky vrstvy prevádzkovateľné na DACH-suverénnych cloudoch (STACKIT, IONOS, OTC, Hetzner). Cohere Embed v4 na STACKIT sa pridáva tam, kde o niečo lepšia nemecká kvalita ospravedlňuje komerčný záväzok. Dôležité pre compliance: embeddingy z osobných údajov sa s vysokou pravdepodobnosťou samy považujú za osobné údaje (EDPB-Opinion 28/2024). Pre regulované workloady sú preto prípustné iba suverénne hostovateľné modely.

Pre agentúry a B2B rozhodovateľov

Voľba embedding modelu rozhoduje rovnakou mierou o kvalite retrievalu, nákladoch na pamäť a súlade s DSGVO vášho RAG systému. Kto stavia pre DACH trh, by nemal vyberať podľa anglického poradia v MTEB, ale podľa doloženej nemeckej kvality a suverenity. Ako viedenská agentúra koncipuje a implementuje Blck Alpaca suverénne, viacjazyčné RAG a KI-agentové stacky - od výberu modelu cez self-hosting až po integráciu rerankera. Ozvite sa nám, ak chcete nasadiť embedding setup v súlade s DSGVO pre nemecky hovoriaci obsah alebo optimalizovať existujúci systém na nemeckú kvalitu retrievalu.

Často kladené otázky

Ktorý embedding model je v roku 2026 najlepší pre nemčinu?
Pre nemecky hovoriaci enterprise RAG vedie podľa vyhodnotení MMTEB, MIRACL a MTEB-DE medzi proprietárnymi modelmi Cohere Embed v4, medzi open-source modelmi BGE-M3 (licencia MIT) a pri DACH-natívnych možnostiach Jina v3/v4 (Berlín, Apache 2.0). OpenAI text-embedding-3-large je pri nemeckých odborných úlohách materiálne pozadu.
Čo znamenajú dimenzie a dĺžka kontextu pri embedding modeloch?
Dimenzie sú dĺžka vektora na jeden textový úsek (napr. 1 024 alebo 3 072) a určujú náklady na pamäť a latenciu. Dĺžka kontextu je maximálny počet tokenov na jedno volanie embeddingu: BGE-M3 a Jina v3 dosahujú 8 192 tokenov, Jina v4 32 000, Cohere Embed v4 dokonca 128k - relevantné pre Late Chunking dlhých dokumentov.
Môžem embedding modely hostovať sám?
Áno, pri open-source modeloch. BGE-M3 (MIT), Jina v3/v4 (Apache 2.0), multilingual-e5, mxbai-embed-large a Qwen3-Embedding sú na stiahnutie a bežia na vlastnej infraštruktúre alebo na DACH-suverénnych cloudoch ako STACKIT, IONOS alebo OTC. OpenAI a Voyage sú dostupné výhradne ako API.
Čo je Matryoshka pri embeddingoch a prečo šetrí náklady?
Matryoshka embeddingy kódujú najdôležitejšiu informáciu do predných dimenzií vektora, takže vektor možno v čase dopytu skrátiť. Orezanie text-embedding-3-large z 3 072 na 1 024 alebo 512 dimenzií stojí približne 1-3 % kvality retrievalu, ale šetrí 3-6x pamäť a ANN latenciu - pri nulových nákladoch na tréning.
Sú embeddingy osobnými údajmi podľa DSGVO?
S vysokou pravdepodobnosťou áno, ak boli odvodené z osobných údajov - s potrebným posúdením rizika re-identifikácie podľa EDPB-Opinion 28/2024 a Guidelines 01/2025 (stav 2026). Inverzné útoky rekonštruujú až 92 % vstupov s 32 tokenmi. Embeddingy osobných údajov preto patria do suverénnej infraštruktúry.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.