Lepšie meranie agentúrnych KPI pomocou AI Agents
Agentúrne KPI pre AI Agents sú ukazovatele, ktorými agentúra dokladá hodnotu a hospodárnosť agentových výkonov: na strane klienta výstup, kvalita, konverzia a Time-to-Value, interne vyťaženosť, marža, náklady na tokeny, ako aj chybovosť a HITL-rate. Rozhodujúce je oddelenie adopčných vanity-metrík od auditovateľných hodnotových metrík.
Key Takeaways
- ✓Adopcia je nevyhnutná, ale nie postačujúca: počet pilotných projektov, nasadených nástrojov a aktívnych používateľov nekoreluje s tvorbou hodnoty. Riaďte sa podľa outcome-metrík (cost-out, cycle-time, konverzia, marža).
- ✓Leading- aj lagging-indikátory reportujte oba, ale tím odmeňujte podľa lagging-KPI. Firmy, ktoré odmeňujú adopciu, dostanú vysokú adopciu a žiadnu hodnotu.
- ✓ROI počítajte konzervatívne: spoľahlivou referenčnou hodnotou je Brynjolfssonova štúdia so 14 percentami produktivity (34 percent u začiatočníkov), nie 10x. 55 percent GitHub-Copilota platí len pre izolované coding-tasky; end-to-end ukazuje Bain 10 až 15 percent.
- ✓Vlastné výpovede o úspore času sú nespoľahlivé: v teréннom pokuse METR boli skúsení vývojári fakticky o 19 percent pomalší, no verili v plus 20 percent. Telemetria a outcome-metriky prekonávajú self-reporty.
- ✓Najväčším skrytým nákladovým blokom je Human-in-the-Loop kontrola: často 30 až 60 percent hrubej úspory. Kto nemeria HITL-náklady, preceňuje maržu.
- ✓Koncentrácia prekonáva proliferáciu: lídri v AI sa podľa BCG zameriavajú na 3,5 use case oproti 6,1 u oneskorencov a očakávajú 2,1-násobný ROI. Tvrdé kill-gates pri 6 a 12 mesiacoch sú cennejšie ako mäkká governance.
Agentúrne KPI pre AI Agents sú ukazovatele, ktorými agentúra dokladá hodnotu a hospodárnosť svojich agentových výkonov: na strane klienta výstup, kvalita, konverzia a Time-to-Value, interne vyťaženosť, marža, náklady na tokeny, ako aj chybovosť a HITL-rate. Rozhodujúce je oddelenie rýchlo rastúcich adopčných čísel od tých niekoľkých auditovateľných hodnotových metrík, ktoré CFO dokáže pochopiť.
- Merajte stranu klienta, nielen používanie: úspešnosť, kvalita, konverzia/cost-out a Time-to-Value dokladajú hodnotu u klienta – samotná vyťaženosť licencií ju nedokladá.
- Interne sledujte maržu: náklady na tokeny na task, vyťaženosť a predovšetkým miera HITL-eskalácií rozhodujú, či je agentový projekt ziskový.
- Počítajte konzervatívne: spoľahlivou referenčnou hodnotou je nárast produktivity okolo 14 percent, nie často sľubovaný desaťnásobok.
Prečo väčšina agentúrnych dashboardov oslavuje nesprávne číslo
Najčastejšou KPI-chybou v DACH-projektoch 2026 je viazať úspech výlučne na adopciu. Program s plnou vyťaženosťou licencií, ktorý nikdy nepohol žiadnou P&L-pozíciou, je programom bez účinku. Empiricky je situácia jednoznačná: počet spustených pilotných projektov, počet identifikovaných use casov a počet nasadených AI-nástrojov nekorelujú s tvorbou hodnoty. BCG ukazuje v AI Radare najjasnejší protipríklad – lídri v AI sa zameriavajú v priemere na 3,5 use case, oneskorenci sa rozptyľujú na 6,1, a lídri pritom očakávajú 2,1-násobný ROI. Koncentrácia prekonáva proliferáciu. K tomu sa pridáva: približne 60 percent opýtaných firiem vôbec nedefinuje ani nesleduje žiadny finančný KPI pre svoju hodnotu z AI.
Pre agentúru to znamená: reporting musí čisto oddeliť dve vrstvy – adopčné metriky (nevyhnutné, nie postačujúce) a outcome-metriky (tie, na ktorých záleží).
KPI na strane klienta: výstup, kvalita, konverzia, Time-to-Value
U klienta sa počíta to, čo agent v procese spôsobí. Vedúce sú štyri dimenzie:
- Výstup / úspešnosť (success rate): podiel úloh, ktoré agent správne dovedie do konečného stavu – najdôležitejšie jednotlivé headline-číslo. Doplnkovo task-completion (dosiahne agent vôbec terminálny stav?), aby sa „vzdal sa" odlíšilo od „odpovedal nesprávne".
- Kvalita: faithfulness, resp. miera halucinácií (podiel výrokov, ktoré sú kryté získaným kontextom alebo svetovými znalosťami) a – obzvlášť pre právo, medicínu, financie – citation accuracy na úrovni výrokov. Patrí sem aj konzistencia naprieč opakovanými behmi: agent, ktorý rieši 90 percent prípadov, ale nepredvídateľne v 10 percentách zlyhá, je často horší ako ten s 80 percentami, ktorý zlyháva vypočítateľne a odstrániteľne.
- Konverzia / účinok: podľa procesu lead-to-quote-rate, deflection-rate v servise, CSAT/NPS, redukcia cycle-time (case-to-close), miera defektov, resp. chybovosť.
- Time-to-Value: ako rýchlo vznikne prvý merateľný ROI? Realistické DACH-očakávania ležia pri augmentácii servisu tier 1 na 3 až 6 mesiacoch, pri sales-/marketing-copilotoch zabudovaných do CRM na 6 až 9, pri interných znalostných/vyhľadávacích agentoch na 6 až 12 a pri dokumentačne náročných back-office procesoch na 9 až 15 mesiacoch. Sľuby na tri mesiace sú neserióznе.
Interné KPI: vyťaženosť, marža, náklady na tokeny, chybovosť/HITL-rate
Druhá rodina KPI chráni hospodárnosť samotnej agentúry:
- Vyťaženosť vzácnych rolí, predovšetkým AI Product Managerov, ktorí zodpovedajú za use casy a outcomes.
- Marža projektu ako lagging-ukazovateľ, validovaný financiami.
- Náklady na tokeny/inferenciu na task: input-tokeny, output-tokeny a – od roku 2025 rozhodujúce – reasoning-tokeny, ktoré pri reasoning-modeloch môžu dominovať nákladom. Reportovacie jednotky: euro na task a euro na 1 000 taskov, k tomu latencia P50/P95/P99.
- Chybovosť a HITL-rate: miera Human-in-the-Loop eskalácií je priamou pákou na maržu. Každá eskalácia viaže kontrolný čas, ktorý často znova spotrebuje 30 až 60 percent hrubej deflection-úspory – najväčší skrytý nákladový blok v servisných a dokumentačných agentoch. Dôležité pre interpretáciu: vysoká miera eskalácií nie je automaticky zlá; dobre kalibrovaná eskalácia v rizikových procesoch je feature. Smerodajný je trend nadol pri stabilnej kvalite.
Leading vs. lagging – a pravidlo odmeňovania
Včasné indikátory sa hýbu rýchlo a sú riaditeľné; oneskorené indikátory ukazujú obchodný výsledok s odstupom, ale spoľahlivo.
KPI | Definícia | Zdroj | Smerovanie |
|---|---|---|---|
Miera adopcie (WAU/MAU) | Aktívni používatelia na funkciu / licencie | Produktová telemetria | Leading – vysoko, ale len predpoklad |
Tasky na používateľa/deň | Využité agentové interakcie | Produktová telemetria | Leading – vysoko |
Eval-pass-rate | Splnené asserts/judge-checks na release | Eval-pipeline (CI/CD) | Leading – udržiavať vysoko |
Miera HITL-eskalácií | Podiel taskov s ľudskou kontrolou | Logy/tracing agentov | Leading – kontrolovane klesajúca |
Success rate | Podiel správne vyriešených úloh | Outcome-scorer | Outcome – vysoko |
Miera halucinácií | Podiel nekrytých výrokov | LLM-judge / MiniCheck | Outcome – nízko |
Redukcia cycle-time | Medián priebežného času vs. baseline | Procesné dáta | Lagging – klesajúca |
Cost-out / marža | Úspora, resp. KP, potvrdená financiami | Financie | Lagging – stúpajúca |
NPS/CSAT | Spokojnosť v procesoch blízkych klientovi | Prieskum | Lagging – stabilná/stúpajúca |
Náklady na tokeny/task | €-náklady na inferenciu na úkon | Observability/gateway | Efektívnosť – nízko |
Disciplína sa musí explicitne pomenovať: reportujte oboje, ale odmeňujte podľa lagging. Každá z použitých štúdií ukazuje rovnaký vzorec – tímy, ktoré sú odmeňované za adopciu, dodávajú vysokú adopciu a žiadnu hodnotu; tímy, ktoré sú odmeňované za outcomes, dodávajú merateľnú hodnotu.
ROI počítajte konzervatívne: 14 percent, nie 10x
Najspoľahlivejšia zdokumentovaná hodnota produktivity pre AI v podniku pochádza zo štúdie Brynjolfssona, Li a Raymonda (NBER WP 31161, 2023; QJE 2025): 14 percent viac vyriešených úkonov za hodinu v zákazníckom servise v priemere, 34 percent u začiatočníkov a menej kvalifikovaných pracovníkov, takmer žiadny efekt u skúsených profesionálov. To je horný okraj uveriteľného pre servis – a strategický náznak: AI rozdeľuje hodnotu smerom nadol po krivke zručností.
Dve korekcie patria do každej agentúrnej kalkulácie:
- GitHub-Copilot klasik „o 55 percent rýchlejšie" platí len pre úzko špecifikované, izolované coding-úlohy – nie pre end-to-end dodávku. Tam Bain (Technology Report 2025) nachádza typických 10 až 15 percent, často nie navrátených do hodnotnejšej práce, pretože review-, test- a deployment-úzke miesta zostávajú v nasledujúcich krokoch.
- Vlastné výpovede sú nespoľahlivé. V teréннom pokuse METR (arXiv 2507.09089, 2025) bolo 16 skúsených open-source vývojárov s AI o 19 percent pomalších, vopred však predpovedali plus 24 percent a následne verili v plus 20 percent; ML- a ekonomickí experti predpovedali dokonca 38 až 39 percent zrýchlenie. Boardroom-preklad: riaďte sa podľa telemetrie a outcome-metrík, nie podľa self-reportov.
Z toho vyplýva čistá bottom-up formula, ktorú CFO dokáže preveriť:
```
Hrubá úspora = úspora času% x ročný objem x plné náklady na úkon
Netto-ROI = hrubá úspora
- licencia/platforma
- deployment/integrácia
- observability/eval
- HITL-kontrola (30-60% hrubej úspory)
```
Úprimným treba zostať pri probléme „ROI-nie-je-merateľný": ak sú náklady na LLM malé voči celkovému OpEx, zisk sa prejaví ako rýchlejšia práca, nie ako merateľné zníženie nákladov na úrovni pozície. Pri širokých horizontálnych copilotoch často ROI nie je detegovateľný na úrovni line-item – to nie je zlyhanie, ak bola stávka vedome deklarovaná ako capability-investícia.
Vzorový dashboard: agent servisu tier 1 stredne veľkej firmy
Predpoklad: 120 000 servisných úkonov/rok, plné náklady 6 € na úkon, deflection 40 percent, náklady na inferenciu per-conversation 0,30 € (koridor podľa researchu: 0,10–1,00 €).
Ukazovateľ | Hodnota | Kategória/smerovanie |
|---|---|---|
Deflection-rate | 40 % | Outcome – stúpajúca |
Success rate (vyriešené) | 88 % | Outcome – vysoko |
Miera halucinácií | 1,8 % | Kvalita – nízko |
Miera HITL-eskalácií | 17 % → trend ↓ | Leading – klesajúca |
CSAT vs. baseline | +3 body | Lagging – stabilná/stúpajúca |
Náklady na tokeny/úkon | 0,30 € | Efektívnosť – nízko |
Latencia P95 | 4,1 s | UX – nízko |
Hrubá úspora/rok | 120 000 × 40 % × 6 € = 288 000 € | Výpočet |
– HITL-recapture (~45 %) | −130 000 € | Relevantné pre maržu |
– Licencia/prevádzka/eval | −90 000 € | Relevantné pre maržu |
Netto-hodnota rok 1 | ≈ 68 000 € | Lagging, validované financiami |
Dashboard zviditeľňuje dvoje: zdanlivo drahá pozícia (náklady na tokeny) nie je hnacím nákladov – sú ním HITL a prevádzka. A HITL-rate je nastavovacia skrutka, na ktorej sa rozhoduje netto-hodnota cez nasledujúce kvartály.
Forma OKR, ktorú CFO dokáže preveriť
Cieľ: vybudovať spoľahlivú agentovú schopnosť v jadrovej obratovej funkcii.
- KR1: 70 %+ aktívnej týždennej adopcie agenta vo funkcii do 9 mesiacov.
- KR2: 25 %+ redukcia mediánovej cycle-time cieľového procesu oproti baseline do 12 mesiacov.
- KR3: NPS/CSAT bez zhoršenia (alebo +5 %) cez dané obdobie.
- KR4: miera HITL-eskalácií <20 % do 12 mesiacov s merateľným zostupným trendom.
- KR5: netto-P&L-príspevok validovaný financiami do 18 mesiacov.
Táto forma núti k outcomes, ktoré sú auditovateľné – a ku kill-disciplíne. Tvrdé gates sú cennejšie ako mäkká governance: pri 6 mesiacoch bez jasnej ROI-cesty (adopcia plochá pod 30 percent, žiadne merateľné zlepšenie) a pri 12 mesiacoch bez kvantitatívneho ROI-signálu projekt ukončiť, rozpočet stiahnuť, žiadny zombie. Každý agentový program potrebuje explicitné kill-kritérium v zakladajúcej charte.
Pre agentúry a B2B-rozhodovateľov
Kto predáva agentové výkony, predáva v budúcnosti outcomes, nie prístup k nástroju. Agentúra, ktorá svojim klientom dodá dvojvrstvový KPI-model – leading-včasné indikátory na riadenie, lagging-hodnotové metriky na odmeňovanie – a ROI počíta konzervatívne s logikou 14 percent namiesto sľubov o 10x, získava dôveru v boardroome. Blck Alpaca buduje presne také meracie a eval-setupy: od outcome-dashboardu na strane klienta (success rate, kvalita, konverzia, Time-to-Value) až po internú kalkuláciu marže a HITL-nákladov. Ak chcete pre svoju agentúru alebo firmu nastaviť auditovateľnú KPI-konštrukciu pre AI-agent-projekty, ozvite sa nám – metriky definujeme ešte pred deploymentom, s baseline a schválením financiami.
Často kladené otázky
Ktoré KPI by mala agentúra pre výkony AI Agents merať minimálne?
Aký je rozdiel medzi leading- a lagging-KPI pri AI Agents?
Ako agentúra seriózne počíta ROI z AI Agents?
Aké sú typické vanity-metriky, ktorým sa treba vyhnúť?
Prečo je HITL-rate taký dôležitý ukazovateľ?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.