Preskočiť na obsah
10.14Pokročilý8 min

Lepšie meranie agentúrnych KPI pomocou AI Agents

Blck Alpaca·
Definition

Agentúrne KPI pre AI Agents sú ukazovatele, ktorými agentúra dokladá hodnotu a hospodárnosť agentových výkonov: na strane klienta výstup, kvalita, konverzia a Time-to-Value, interne vyťaženosť, marža, náklady na tokeny, ako aj chybovosť a HITL-rate. Rozhodujúce je oddelenie adopčných vanity-metrík od auditovateľných hodnotových metrík.

Key Takeaways

  • Adopcia je nevyhnutná, ale nie postačujúca: počet pilotných projektov, nasadených nástrojov a aktívnych používateľov nekoreluje s tvorbou hodnoty. Riaďte sa podľa outcome-metrík (cost-out, cycle-time, konverzia, marža).
  • Leading- aj lagging-indikátory reportujte oba, ale tím odmeňujte podľa lagging-KPI. Firmy, ktoré odmeňujú adopciu, dostanú vysokú adopciu a žiadnu hodnotu.
  • ROI počítajte konzervatívne: spoľahlivou referenčnou hodnotou je Brynjolfssonova štúdia so 14 percentami produktivity (34 percent u začiatočníkov), nie 10x. 55 percent GitHub-Copilota platí len pre izolované coding-tasky; end-to-end ukazuje Bain 10 až 15 percent.
  • Vlastné výpovede o úspore času sú nespoľahlivé: v teréннom pokuse METR boli skúsení vývojári fakticky o 19 percent pomalší, no verili v plus 20 percent. Telemetria a outcome-metriky prekonávajú self-reporty.
  • Najväčším skrytým nákladovým blokom je Human-in-the-Loop kontrola: často 30 až 60 percent hrubej úspory. Kto nemeria HITL-náklady, preceňuje maržu.
  • Koncentrácia prekonáva proliferáciu: lídri v AI sa podľa BCG zameriavajú na 3,5 use case oproti 6,1 u oneskorencov a očakávajú 2,1-násobný ROI. Tvrdé kill-gates pri 6 a 12 mesiacoch sú cennejšie ako mäkká governance.

Agentúrne KPI pre AI Agents sú ukazovatele, ktorými agentúra dokladá hodnotu a hospodárnosť svojich agentových výkonov: na strane klienta výstup, kvalita, konverzia a Time-to-Value, interne vyťaženosť, marža, náklady na tokeny, ako aj chybovosť a HITL-rate. Rozhodujúce je oddelenie rýchlo rastúcich adopčných čísel od tých niekoľkých auditovateľných hodnotových metrík, ktoré CFO dokáže pochopiť.

  • Merajte stranu klienta, nielen používanie: úspešnosť, kvalita, konverzia/cost-out a Time-to-Value dokladajú hodnotu u klienta – samotná vyťaženosť licencií ju nedokladá.
  • Interne sledujte maržu: náklady na tokeny na task, vyťaženosť a predovšetkým miera HITL-eskalácií rozhodujú, či je agentový projekt ziskový.
  • Počítajte konzervatívne: spoľahlivou referenčnou hodnotou je nárast produktivity okolo 14 percent, nie často sľubovaný desaťnásobok.

Prečo väčšina agentúrnych dashboardov oslavuje nesprávne číslo

Najčastejšou KPI-chybou v DACH-projektoch 2026 je viazať úspech výlučne na adopciu. Program s plnou vyťaženosťou licencií, ktorý nikdy nepohol žiadnou P&L-pozíciou, je programom bez účinku. Empiricky je situácia jednoznačná: počet spustených pilotných projektov, počet identifikovaných use casov a počet nasadených AI-nástrojov nekorelujú s tvorbou hodnoty. BCG ukazuje v AI Radare najjasnejší protipríklad – lídri v AI sa zameriavajú v priemere na 3,5 use case, oneskorenci sa rozptyľujú na 6,1, a lídri pritom očakávajú 2,1-násobný ROI. Koncentrácia prekonáva proliferáciu. K tomu sa pridáva: približne 60 percent opýtaných firiem vôbec nedefinuje ani nesleduje žiadny finančný KPI pre svoju hodnotu z AI.

Pre agentúru to znamená: reporting musí čisto oddeliť dve vrstvy – adopčné metriky (nevyhnutné, nie postačujúce) a outcome-metriky (tie, na ktorých záleží).

KPI na strane klienta: výstup, kvalita, konverzia, Time-to-Value

U klienta sa počíta to, čo agent v procese spôsobí. Vedúce sú štyri dimenzie:

  • Výstup / úspešnosť (success rate): podiel úloh, ktoré agent správne dovedie do konečného stavu – najdôležitejšie jednotlivé headline-číslo. Doplnkovo task-completion (dosiahne agent vôbec terminálny stav?), aby sa „vzdal sa" odlíšilo od „odpovedal nesprávne".
  • Kvalita: faithfulness, resp. miera halucinácií (podiel výrokov, ktoré sú kryté získaným kontextom alebo svetovými znalosťami) a – obzvlášť pre právo, medicínu, financie – citation accuracy na úrovni výrokov. Patrí sem aj konzistencia naprieč opakovanými behmi: agent, ktorý rieši 90 percent prípadov, ale nepredvídateľne v 10 percentách zlyhá, je často horší ako ten s 80 percentami, ktorý zlyháva vypočítateľne a odstrániteľne.
  • Konverzia / účinok: podľa procesu lead-to-quote-rate, deflection-rate v servise, CSAT/NPS, redukcia cycle-time (case-to-close), miera defektov, resp. chybovosť.
  • Time-to-Value: ako rýchlo vznikne prvý merateľný ROI? Realistické DACH-očakávania ležia pri augmentácii servisu tier 1 na 3 až 6 mesiacoch, pri sales-/marketing-copilotoch zabudovaných do CRM na 6 až 9, pri interných znalostných/vyhľadávacích agentoch na 6 až 12 a pri dokumentačne náročných back-office procesoch na 9 až 15 mesiacoch. Sľuby na tri mesiace sú neserióznе.

Interné KPI: vyťaženosť, marža, náklady na tokeny, chybovosť/HITL-rate

Druhá rodina KPI chráni hospodárnosť samotnej agentúry:

  • Vyťaženosť vzácnych rolí, predovšetkým AI Product Managerov, ktorí zodpovedajú za use casy a outcomes.
  • Marža projektu ako lagging-ukazovateľ, validovaný financiami.
  • Náklady na tokeny/inferenciu na task: input-tokeny, output-tokeny a – od roku 2025 rozhodujúce – reasoning-tokeny, ktoré pri reasoning-modeloch môžu dominovať nákladom. Reportovacie jednotky: euro na task a euro na 1 000 taskov, k tomu latencia P50/P95/P99.
  • Chybovosť a HITL-rate: miera Human-in-the-Loop eskalácií je priamou pákou na maržu. Každá eskalácia viaže kontrolný čas, ktorý často znova spotrebuje 30 až 60 percent hrubej deflection-úspory – najväčší skrytý nákladový blok v servisných a dokumentačných agentoch. Dôležité pre interpretáciu: vysoká miera eskalácií nie je automaticky zlá; dobre kalibrovaná eskalácia v rizikových procesoch je feature. Smerodajný je trend nadol pri stabilnej kvalite.

Leading vs. lagging – a pravidlo odmeňovania

Včasné indikátory sa hýbu rýchlo a sú riaditeľné; oneskorené indikátory ukazujú obchodný výsledok s odstupom, ale spoľahlivo.

KPI

Definícia

Zdroj

Smerovanie

Miera adopcie (WAU/MAU)

Aktívni používatelia na funkciu / licencie

Produktová telemetria

Leading – vysoko, ale len predpoklad

Tasky na používateľa/deň

Využité agentové interakcie

Produktová telemetria

Leading – vysoko

Eval-pass-rate

Splnené asserts/judge-checks na release

Eval-pipeline (CI/CD)

Leading – udržiavať vysoko

Miera HITL-eskalácií

Podiel taskov s ľudskou kontrolou

Logy/tracing agentov

Leading – kontrolovane klesajúca

Success rate

Podiel správne vyriešených úloh

Outcome-scorer

Outcome – vysoko

Miera halucinácií

Podiel nekrytých výrokov

LLM-judge / MiniCheck

Outcome – nízko

Redukcia cycle-time

Medián priebežného času vs. baseline

Procesné dáta

Lagging – klesajúca

Cost-out / marža

Úspora, resp. KP, potvrdená financiami

Financie

Lagging – stúpajúca

NPS/CSAT

Spokojnosť v procesoch blízkych klientovi

Prieskum

Lagging – stabilná/stúpajúca

Náklady na tokeny/task

€-náklady na inferenciu na úkon

Observability/gateway

Efektívnosť – nízko

Disciplína sa musí explicitne pomenovať: reportujte oboje, ale odmeňujte podľa lagging. Každá z použitých štúdií ukazuje rovnaký vzorec – tímy, ktoré sú odmeňované za adopciu, dodávajú vysokú adopciu a žiadnu hodnotu; tímy, ktoré sú odmeňované za outcomes, dodávajú merateľnú hodnotu.

ROI počítajte konzervatívne: 14 percent, nie 10x

Najspoľahlivejšia zdokumentovaná hodnota produktivity pre AI v podniku pochádza zo štúdie Brynjolfssona, Li a Raymonda (NBER WP 31161, 2023; QJE 2025): 14 percent viac vyriešených úkonov za hodinu v zákazníckom servise v priemere, 34 percent u začiatočníkov a menej kvalifikovaných pracovníkov, takmer žiadny efekt u skúsených profesionálov. To je horný okraj uveriteľného pre servis – a strategický náznak: AI rozdeľuje hodnotu smerom nadol po krivke zručností.

Dve korekcie patria do každej agentúrnej kalkulácie:

  • GitHub-Copilot klasik „o 55 percent rýchlejšie" platí len pre úzko špecifikované, izolované coding-úlohy – nie pre end-to-end dodávku. Tam Bain (Technology Report 2025) nachádza typických 10 až 15 percent, často nie navrátených do hodnotnejšej práce, pretože review-, test- a deployment-úzke miesta zostávajú v nasledujúcich krokoch.
  • Vlastné výpovede sú nespoľahlivé. V teréннom pokuse METR (arXiv 2507.09089, 2025) bolo 16 skúsených open-source vývojárov s AI o 19 percent pomalších, vopred však predpovedali plus 24 percent a následne verili v plus 20 percent; ML- a ekonomickí experti predpovedali dokonca 38 až 39 percent zrýchlenie. Boardroom-preklad: riaďte sa podľa telemetrie a outcome-metrík, nie podľa self-reportov.

Z toho vyplýva čistá bottom-up formula, ktorú CFO dokáže preveriť:

```
Hrubá úspora = úspora času% x ročný objem x plné náklady na úkon
Netto-ROI = hrubá úspora

        • licencia/platforma
        • deployment/integrácia
        • observability/eval
        • HITL-kontrola (30-60% hrubej úspory)
          ```

Úprimným treba zostať pri probléme „ROI-nie-je-merateľný": ak sú náklady na LLM malé voči celkovému OpEx, zisk sa prejaví ako rýchlejšia práca, nie ako merateľné zníženie nákladov na úrovni pozície. Pri širokých horizontálnych copilotoch často ROI nie je detegovateľný na úrovni line-item – to nie je zlyhanie, ak bola stávka vedome deklarovaná ako capability-investícia.

Vzorový dashboard: agent servisu tier 1 stredne veľkej firmy

Predpoklad: 120 000 servisných úkonov/rok, plné náklady 6 € na úkon, deflection 40 percent, náklady na inferenciu per-conversation 0,30 € (koridor podľa researchu: 0,10–1,00 €).

Ukazovateľ

Hodnota

Kategória/smerovanie

Deflection-rate

40 %

Outcome – stúpajúca

Success rate (vyriešené)

88 %

Outcome – vysoko

Miera halucinácií

1,8 %

Kvalita – nízko

Miera HITL-eskalácií

17 % → trend ↓

Leading – klesajúca

CSAT vs. baseline

+3 body

Lagging – stabilná/stúpajúca

Náklady na tokeny/úkon

0,30 €

Efektívnosť – nízko

Latencia P95

4,1 s

UX – nízko

Hrubá úspora/rok

120 000 × 40 % × 6 € = 288 000 €

Výpočet

– HITL-recapture (~45 %)

−130 000 €

Relevantné pre maržu

– Licencia/prevádzka/eval

−90 000 €

Relevantné pre maržu

Netto-hodnota rok 1

≈ 68 000 €

Lagging, validované financiami

Dashboard zviditeľňuje dvoje: zdanlivo drahá pozícia (náklady na tokeny) nie je hnacím nákladov – sú ním HITL a prevádzka. A HITL-rate je nastavovacia skrutka, na ktorej sa rozhoduje netto-hodnota cez nasledujúce kvartály.

Forma OKR, ktorú CFO dokáže preveriť

Cieľ: vybudovať spoľahlivú agentovú schopnosť v jadrovej obratovej funkcii.

  • KR1: 70 %+ aktívnej týždennej adopcie agenta vo funkcii do 9 mesiacov.
  • KR2: 25 %+ redukcia mediánovej cycle-time cieľového procesu oproti baseline do 12 mesiacov.
  • KR3: NPS/CSAT bez zhoršenia (alebo +5 %) cez dané obdobie.
  • KR4: miera HITL-eskalácií <20 % do 12 mesiacov s merateľným zostupným trendom.
  • KR5: netto-P&L-príspevok validovaný financiami do 18 mesiacov.

Táto forma núti k outcomes, ktoré sú auditovateľné – a ku kill-disciplíne. Tvrdé gates sú cennejšie ako mäkká governance: pri 6 mesiacoch bez jasnej ROI-cesty (adopcia plochá pod 30 percent, žiadne merateľné zlepšenie) a pri 12 mesiacoch bez kvantitatívneho ROI-signálu projekt ukončiť, rozpočet stiahnuť, žiadny zombie. Každý agentový program potrebuje explicitné kill-kritérium v zakladajúcej charte.

Pre agentúry a B2B-rozhodovateľov

Kto predáva agentové výkony, predáva v budúcnosti outcomes, nie prístup k nástroju. Agentúra, ktorá svojim klientom dodá dvojvrstvový KPI-model – leading-včasné indikátory na riadenie, lagging-hodnotové metriky na odmeňovanie – a ROI počíta konzervatívne s logikou 14 percent namiesto sľubov o 10x, získava dôveru v boardroome. Blck Alpaca buduje presne také meracie a eval-setupy: od outcome-dashboardu na strane klienta (success rate, kvalita, konverzia, Time-to-Value) až po internú kalkuláciu marže a HITL-nákladov. Ak chcete pre svoju agentúru alebo firmu nastaviť auditovateľnú KPI-konštrukciu pre AI-agent-projekty, ozvite sa nám – metriky definujeme ešte pred deploymentom, s baseline a schválením financiami.

Často kladené otázky

Ktoré KPI by mala agentúra pre výkony AI Agents merať minimálne?
Na strane klienta: mieru vyriešenia, resp. úspešnosti (success rate), kvalitu (faithfulness/mieru halucinácií, citation accuracy), konverziu, resp. cost-out alebo cycle-time a Time-to-Value. Interne: vyťaženosť AI Product Managerov, maržu projektu, náklady na tokeny/inferenciu na task, latenciu (P50/P95/P99), ako aj chybovosť a mieru HITL-eskalácií. Minimálne jeden ukazovateľ z kategórií task, kvalita, náklady a spoľahlivosť na každý release.
Aký je rozdiel medzi leading- a lagging-KPI pri AI Agents?
Leading-indikátory sú včasné indikátory, ktoré sa hýbu rýchlo a sú riaditeľné: miera adopcie, tasky na používateľa, eval-pass-rate, kvóta AI-gramotnosti, miera HITL-eskalácií. Lagging-indikátory merajú obchodný výsledok oneskorene: rast obratu, cost-out, NPS/CSAT, retenciu, maržu. Pravidlo palca: reportujte oba, ale cieľové dohody a bonusy naviažte na lagging-KPI, aby sa neodmeňovala adopcia bez hodnoty.
Ako agentúra seriózne počíta ROI z AI Agents?
Bottom-up na každý use case: úspora času v percentách krát objem krát jednotkové náklady na báze plných nákladov dáva hrubú úsporu; od nej odpočítajte licenčné, deployment-, observability- a predovšetkým HITL-náklady (často 30 až 60 percent úspory). Ako predpoklad produktivity použite doložený koridor okolo 14 percent (Brynjolfsson, Li, Raymond), nie sľuby o 10x. Pri širokých horizontálnych copilotoch otvorene komunikujte, že ROI na úrovni pozície často nie je merateľný.
Aké sú typické vanity-metriky, ktorým sa treba vyhnúť?
Počet spustených pilotných projektov, počet identifikovaných use casov a počet nasadených AI-nástrojov. Žiadne z týchto čísel podľa BCG nekoreluje s tvorbou hodnoty; lídri sa zameriavajú na 3,5 use case namiesto 6,1 a očakávajú 2,1-násobný ROI. Aj čisté vlastné výpovede o úspore času sú rizikové, pretože používatelia svoj zisk systematicky preceňujú (METR: domnelých plus 20 percent oproti faktickým mínus 19 percent).
Prečo je HITL-rate taký dôležitý ukazovateľ?
Miera Human-in-the-Loop eskalácií priamo riadi maržu. Každá eskalácia viaže ľudský kontrolný čas, ktorý často znova spotrebuje 30 až 60 percent hrubej úspory. Klesajúca HITL-rate pri stabilnej kvalite je preto centrálnym hodnotovým signálom. Dôležité: vysoká miera eskalácií nie je sama osebe zlá; dobre kalibrovaná eskalácia v rizikových alebo klientovi blízkych procesoch je feature, nie defekt.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.