10.6Pokročilý7 min

Evaluácia AI agentov: Ktoré metriky sú rozhodujúce

Blck Alpaca·9. júna 2026

Definition

Evaluácia AI agentov meria, či AI agent spoľahlivo rieši zamýšľanú úlohu. Kľúčovými metrikami sú task-success-rate, korektnosť trajektórie a tool-call, groundedness resp. miera halucinácií, latencia, náklady a miera HITL eskalácie. Meria sa offline voči eval datasetu a online v produkčnej prevádzke.

Key Takeaways

✓Jedno samostatné číslo ako task-success-rate nestačí: kvalita, korektnosť tool-call, groundedness, latencia, náklady a miera eskalácie sa musia posudzovať spoločne.
✓Spoľahlivosť (pass^k, konzistencia naprieč viacerými behmi) je často dôležitejšia než single-run presnosť. Agent s 90 % úspešnosťou, ktorý zlyháva nepredvídateľne, je horší než agent s 80 % a plánovateľným chybovým správaním.
✓Offline evaly voči uzamknutému golden-setu poskytujú predbežnú evidenciu, online monitoring zachytáva drift a reálne chyby. Oboje je povinnosť, nie alternatíva.
✓LLM-as-Judge škáluje hodnotenie, ale nie je náhradou za analýzu chýb. Binárne pass/fail s odôvodnením prekonáva 1-5 škály; judge modely sa musia kalibrovať voči ľudským anotátorom.
✓Agentové benchmarky ako SWE-bench alebo GAIA dokladujú capability, nie vhodnosť pre konkrétny use-case. Dôkazom pre produkčné nasadenie je vlastný, nemecky jazykový eval dataset.
✓Golden-set s 200-500 príkladmi na use-case je najvyššou pákou v celom eval programe a základom pre monitoring podľa čl. 72 EU AI Act.

Evaluácia AI agentov meria, či AI agent spoľahlivo rieši zamýšľanú úlohu. Kľúčovými metrikami sú task-success-rate, korektnosť trajektórie a tool-call, groundedness resp. miera halucinácií, latencia, náklady a miera HITL eskalácie. Meria sa offline voči eval datasetu a online v produkčnej prevádzke. Evaluácia je disciplína, ktorá rozhoduje o tom, či agent smie opustiť laboratórium, a od EU AI Act, ISO/IEC 42001 a očakávaní ohľadom modelového rizika zo strany BaFin a FINMA sa stala z výskumnej praxe compliance artefaktom.

Najdôležitejší poznatok na úvod: jedno samostatné číslo na leaderboarde už nie je dôkazom, že agent funguje. Princetonský tím za Holistic Agent Leaderboard (HAL) ukazuje, že 18 mesiacov pokroku v capability prinieslo len malé zlepšenia v spoľahlivosti, zatiaľ čo samotná presnosť stabilne rástla. Kto chce prevádzkovať agentov produkčne a v súlade s pravidlami, potrebuje viacrozmerný súbor metrík.

Rýchle odpovede:

Task-success-rate je najdôležitejšou jednotlivou metrikou, ale nikdy nie je dostatočná, kvalita, korektnosť tool-call, náklady a spoľahlivosť k nej patria.
Offline evaly (fixný dataset, LLM-as-Judge) poskytujú predbežnú evidenciu; online monitoring zachytáva drift a reálne chyby. Oboje je povinnosť.
Agentové benchmarky dokladujú capability, nie vhodnosť pre váš use-case, dôkazom je vlastný, nemecky jazykový eval dataset.

Šesť rodín metrík pre AI agentov

Úplný eval program produkuje na každý release minimálne jedno číslo z každej relevantnej kategórie a vykresľuje napäťový trojuholník z nákladov, kvality a bezpečnosti na Pareto-fronte, namiesto toho, aby ho skolaboval do jedného skóre.

Metrika	Čo ukazuje	Metóda
Task-success-rate (binárna)	Podiel správne vyriešených úloh voči skutočnému výsledku, kľúčové headline číslo	Outcome-scorer: exact match, kontrola vykonania alebo LLM-judge voči referencii
Korektnosť trajektórie/krokov	Či bol každý krok vo viacstupňovom priebehu správny, nielen konečný výsledok	Per-step scoring (PRM štýl), trajectory-matching voči kanonickej riešiacej ceste
Korektnosť tool-call	Či bol zavolaný správny tool so správnymi argumentmi v správnom poradí	AST-/JSON-schema match (BFCL prístup) alebo execution porovnanie; plus recovery-rate pri chybách tool
Groundedness / miera halucinácií	Podiel tvrdení, ktoré sú kryté získaným kontextom alebo svetovými znalosťami	Extrakcia claimov a per-claim verifikácia (RAGAS Faithfulness, MiniCheck, Vectara HHEM)
Latencia (P50/P95/P99)	Čas odpovede na úlohu, vrát. tail-latencie pre agentov na strane používateľa	Wall-clock meranie na task; tail-percentily namiesto priemeru
Náklady	Input-/output-/reasoning-tokeny a €-na-task resp. €-na-1.000-taskov	Počítanie tokenov na span; reasoning-tokeny zvlášť (môžu pri reasoning modeloch dominovať)
Miera HITL/eskalácie	Podiel úloh, pri ktorých agent odovzdáva človeku	Počítanie human-in-the-loop odovzdaní na task
Konzistencia / pass^k	Či N opakovaných behov pri rovnakom inpute poskytuje rovnaký výsledok	pass^k (všetkých k behov úspešných), smerodajná odchýlka naprieč 3-5 behmi

Dva body si zaslúžia zdôraznenie. Po prvé, miera eskalácie nie je čisto negatívnym signálom: dobre nastavená eskalácia na človeka je feature, nie defekt, rozhodujúce je, že agent odovzdáva tie správne prípady. Po druhé, spoľahlivosť je často dôležitejšia než presnosť. Agent, ktorý je úspešný na 90 %, ale vo zvyšných 10 % zlyháva nepredvídateľne, je v DACH produkčnej prevádzke často horší než agent s 80 % úspešnosťou a plánovateľným, recoverovateľným chybovým správaním. Sierra τ-bench ukazuje, že pass@k pri mnohých modeloch výrazne klesá až do k=8, teda ten istý agent, tá istá úloha, no materiálne odlišné výsledky naprieč behmi. Kto reportuje len single-seed beh, skrýva tento rozptyl. Minimálny štandard: priemer plus smerodajná chyba naprieč 3-5 behmi.

Offline evaly vs. online monitoring

Fundamentálnou dichotómiou disciplíny je offline versus online, a zrelé programy využívajú obe strany.

Offline evaluácia beží dávkovo voči fixnému, verzionovanému datasetu. Je deterministická, opakovateľná a poskytuje predbežnú evidenciu, ktorú EU AI Act čl. 15 vyžaduje pre vysokorizikové systémy: presnosť sa musí merať a deklarovať, nie aspiratívne tvrdiť. Offline evaly sú miestom pre LLM-as-Judge voči referenčným odpovediam a pre systematické prehrávanie známych edge-cases.

Online evaluácia hodnotí reálny produkčný traffic. Je mostom medzi „nasadili sme" a „vieme podľa čl. 72 doložiť, že systém naďalej pracuje v rámci tolerancií". Osvedčené deployment vzory:

Shadow Modenový systém beží paralelne s rovnakými inputmi, jeho outputy sa však neprehrávajú, ale logujú a porovnávajú. De-facto štandard pred každým vysokorizikovým rolloutom.
Canary Deployment1-5 % traffic-u na nový systém, ďalší rollout závislý od real-time metrík. Dôležité: gate metriky musia obsahovať eval skóre, nielen latenciu a chybovosť.
Eval Gatesautomatické prahové hodnoty, ktoré zastavujú rollout (napr. „zastaviť promotion, ak faithfulness v 4-hodinovom okne klesne pod 0,85").

Keďže LLM-judge modely na každom trace sú prohibitívne drahé, vzorkuje sa. Zmysluplná východisková konfigurácia pre stredné podniky: 1-5 % stratifikované náhodné vzorkovanie plus 100 % anomáliami riadené vzorkovanie (dlhé sessions, mnoho retries, explicitná negatívna spätná väzba). Lacné heuristiky (PII-check, kontrola formátu, rozpoznanie refusal) bežia synchrónne inline; drahé judge evaly asynchrónne na vzorke. Tento sync/async split je najdôležitejšou nákladovou pákou, pretože bez neho môže eval réžia prevýšiť inferenčné náklady 2- až 5-násobne.

Online by sa malo navyše ukotviť na reálnom správaní používateľov, nielen na judge skóre: copy-paste rate, edit-after-paste, retry-rate a miera abandonu sú pomalé, ale skutočne pravdivé signály. V DACH je miera kliknutí na palec-hore/dole kultúrne nižšia než v USA, čo tlmí výpovednú hodnotu explicitných spätnoväzbových signálov.

LLM-as-Judge: užitočné, ale nie je to samochod

Kanonická referencia (Zheng et al., 2023) ukazuje, že silné judge modely dosahujú viac než 80 % zhody s kontrolovanými ľudskými hodnoteniami, teda rovnakú úroveň ako zhoda medzi ľuďmi. To však platí pre úlohy založené na názore; pre fakticky kritický nemecky jazykový obsah (právo, medicína, financie) zostáva ľudské zlato štandardom.

Praktické usmernenia z praxe:

Binárne namiesto Likertovej škály. Pass/fail s vyformulovanou kritikou prekonáva 1-5 škály, pretože hranica 3-versus-4 je naprieč judge modelmi a behmi nestabilná.
Mitigovať známe skreslenia. Position-bias prehadzovaním a spriemerovaním oboch poradí; verbosity-bias kontrolou dĺžky; self-enhancement-bias judge modelmi z inej modelovej rodiny alebo judge ensemblom.
Kalibrovať. Zhodu judge-versus-človek reportovať ako Cohenovu kappu alebo Krippendorffovu alfu, predtým než sa judge produkčne dôverí.
Obmedziť náklady. Pravidlo: rozpočtovať 10-30 % inferenčných nákladov na evaluáciu; s reasoning judge modelmi to môže vystúpiť nad 50 %. Vzor: reasoning judge modely pre validačný set, lacné špecializované judge modely (napríklad MiniCheck-podobné modely) pre produkčné vzorkovanie.

Rozhodujúce: LLM-as-Judge nie je náhradou za analýzu chýb. Konsenzus praktikov znie, že 60-80 % eval réžie by malo naďalej smerovať do prezerania dát, hľadania chybových režimov a ich prekladu do pass/fail assertov.

Takto sa budujú eval dataset a eval loop

Spoľahlivý golden-set má zdokumentovaný pôvod, labeling rubric, inter-annotator agreement a explicitné pokrytie reálnych use-cases. Praktický recept:

Navzorkovať 200-500 reálnych používateľských traces; redigovať PII podľa DSGVO čl. 32.
Dvaja odborní experti olabelujú každý trace s outcome plus kritikou; vypočítať Cohenovu kappu, vyriešiť konflikty.
Doplniť 50-100 expertmi napísaných adversariálnych edge-cases na hraniciach policy.
Pridať 100-200 syntetických prípadov naprieč zdokumentovanými dimenziami (features × scenáre × persony).
Oddeliť 30 % ako uzamknutý test-set, ktorý sa nikdy nepoužíva na tuning; 70 % pre iteráciu.
Verzionovať, zdokumentovať dataset-card, štvrťročne obnovovať.

Pre DACH stredne podnikový pilot potrebuje 500-položkový golden-set iniciálne približne 3-6 týždňov expertného času a potom asi týždeň na štvrťrok. To je najvyššia páka v celom eval programe.

Kontinuálny eval loop spája oba svety: používateľská požiadavka → beh agenta → emisia trace-span (OpenTelemetry) → vzorkovacia vrstva → eval vrstva (LLM-judge modely plus heuristiky plus small-model judge modely) → eval store → dashboard → alert pri prelomení prahu → spätná väzba do golden-setu. Zrelé programy z toho robia CI/CD gate: každý pull request, ktorý mení prompt, voľbu modelu, retrieval konfiguráciu alebo definíciu tool, triggeruje eval suite; merge zlyhá, ak pass-rate klesne pod prah. Aj zmena verzie modelu zo strany poskytovateľa by mala spustiť automatický re-eval, predtým než smie nový model do produkčného routingu. Uzamknutý golden-set by sa mal voči live systému re-evaluovať minimálne týždenne, pri produkčne kritických agentoch denne, aby sa modelová/promptová regresia oddelila od čistého driftu prostredia.

Pre DSGVO konformnú dátovú rezidenciu sa hodia self-hostovateľné nástroje ako nemecky založený Langfuse (self-host cez ClickHouse a Postgres) alebo OTel-natívny Arize Phoenix; RAGAS je de-facto knižnicou pre RAG metriky (Faithfulness, Context Precision, Answer Relevancy), DeepEval a Inspect AI pokrývajú CI/CD-blízke a bezpečnostne relevantné evaly. (Stav 2026; trh s eval toolingom sa práve konsoliduje cez M&A ako Cisco/Galileo.)

Vymedzenie voči modelovým benchmarkom

Častou a nákladnou myšlienkovou chybou je zamieňať benchmarkové skóre s dôkazom vhodnosti. Model-card eval je marketingový resp. výskumný artefakt poskytovateľa: snímka capability naprieč verejnými benchmarkmi. Compliance eval je regulačný artefakt prevádzkovateľa: predbežné plus priebežné meranie voči skutočnému use-case, datasetu a rizikovému profilu, so zdokumentovanou metodikou, verzionovanými scorermi a audit-trailom. To sú odlišné artefakty s odlišnými adresátmi a väčšina regulátorov neakceptuje model-card ako náhradu.

Tri dôvody, prečo benchmarkové skóre poskytujú len kontext:

Kontaminácia. Každý benchmark, ktorého dataset existoval verejne pred rokom 2024, je pravdepodobne v tréningových dátach. Príklad: Claude Opus 4.5 dosahuje 80,9 % na SWE-bench Verified, ale len 45,9 % na kontaminácii odolnom SWE-bench Pro: ten istý model, tá istá rodina úloh, 35 bodov rozdielu (stav 2026).
Závislosť od scaffoldu. „Líder GAIA leaderboardu" je bez uvedenia scaffoldu bezvýznamný: medzi scaffolded (Princeton HAL s Claude Sonnet 4.5: 74,6 %) a bare skóre leží približne 30 percentuálnych bodov.
Reward-hacking. Práca UC-Berkeley-RDI (apríl 2026) ukázala, že automatizovaný scanning agent dokázal nahackovať všetkých osem veľkých agentových benchmarkov na takmer dokonalé skóre bez toho, aby vyriešil čo i len jednu úlohu.

Obhájiteľná pozícia pre DACH compliance dossier: citovať viacero benchmarkov naprieč rodinami, reportovať náklady a rozptyl, doplniť o zákaznícky privátne golden-sety a písomne uznať limity. Anglické agentové benchmarky (SWE-bench, GAIA, τ-bench, BFCL, OSWorld) sú vhodné na capability baselining; samotným dôkazom zostáva nemecky jazykový eval dataset, ideálne namapovaný na kritériové katalógy BSI.

Pre agentúry a B2B rozhodovateľov

Kto plánuje alebo prevádzkuje AI agentov pre DACH zákazníkov, mal by evaluáciu chápať nie ako následný test, ale ako priebežnú disciplínu: nemecky jazykový golden-set ako základ, offline gates pred go-live, online monitoring s detekciou driftu potom, a súbor metrík, ktorý berie spoľahlivosť a náklady rovnako vážne ako holú mieru úspešnosti. Práve tento eval základ je zároveň predpokladom pre spoľahlivý monitoring podľa čl. 72 EU AI Act. Blck Alpaca podporuje agentúry a B2B firmy z Viedne pri budovaní takéhoto eval programu, od golden-setu cez výber nástrojov až po audit-odolné compliance dossier. Ozvite sa nám, ak majú vaši agenti ísť do produkcie merateľne a v súlade s pravidlami.

Často kladené otázky

Ktorá metrika je najdôležitejšia pre evaluáciu AI agentov?

Task-success-rate, teda podiel správne vyriešených úloh meraný voči skutočnému výsledku, je najdôležitejšou jednotlivou metrikou. Nikdy však nie je dostatočná: bez korektnosti tool-call, groundedness, latencie, nákladov a spoľahlivosti (konzistencia naprieč viacerými behmi) vysoká miera úspešnosti často skrýva nepredvídateľné chybové správanie.

Aký je rozdiel medzi offline a online evaluáciou?

Offline evaluácia beží dávkovo voči fixnému, uzamknutému eval datasetu a poskytuje predbežnú evidenciu pred go-live (EU AI Act čl. 15). Online evaluácia hodnotí vzorkovo reálny produkčný traffic a rozpoznáva drift, ako aj reálne chyby v prevádzke (čl. 72). Zrelé programy využívajú oboje.

Stačia benchmarkové skóre ako SWE-bench alebo GAIA ako dôkaz kvality?

Nie. Agentové benchmarky dokladujú capability za laboratórnych podmienok, nie vhodnosť pre konkrétny use-case. Sú náchylné na kontamináciu a závislé od scaffoldu: GAIA vykazuje približne 30 percentuálnych bodov rozptylu medzi scaffolded a bare skóre. Spoľahlivým dôkazom pre produkčné nasadenie je vlastný, nemecky jazykový golden-set.

Aký spoľahlivý je LLM-as-Judge?

Silné judge modely dosahujú podľa Zheng et al. (2023) viac než 80 percent zhody s ľudskými hodnoteniami pri úlohách založených na názore, teda na úrovni zhody medzi ľuďmi. Majú však známe skreslenia (pozícia, dĺžka, self-enhancement) a musia sa kalibrovať voči ľudským anotátorom. Pre fakticky kritický obsah zostáva ľudské hodnotenie zlatým štandardom.

Ako sa buduje eval dataset pre AI agentov?

Praktický recept: navzorkovať 200-500 reálnych používateľských traces a redigovať PII, nechať ich olabelovať dvomi odbornými expertmi s outcome a kritikou, overiť Cohenovu kappu, doplniť 50-100 adversariálnych edge-cases a 100-200 syntetických prípadov, potom oddeliť 30 percent ako uzamknutý test-set, verzionovať a štvrťročne obnovovať.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky, alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.

Odoberať newsletter →Naše služby

Previous← Token-Economics: Ako naozaj vznikajú náklady na AI agentov