Preskočiť na obsah
10.4Pokročilý8 min

Observability pre AI agentov: tracing, metriky, logy a evals

Blck Alpaca·
Definition

AI Agent Observability zviditeľňuje vnútorné fungovanie autonómneho agenta: prostredníctvom tracingu (spany cez reasoning- a tool-cally), metrík (latencia, tokeny, náklady, miera úspešnosti), štruktúrovaných logov a kontinuálnych evals. Odpovedá na otázku, prečo sa agent takto rozhodol – a je predpokladom toho, aby sa multi-step agenti v produkcii vôbec dali debugovať, zabezpečiť a auditovať.

Key Takeaways

  • Observability pre agentov stojí na štyroch pilieroch: tracing, metriky, logy a evals. Bez tracingu cez reasoning- a tool-call-spany sú multi-step agenti fakticky nedebugovateľní.
  • Trace agenta je hierarchický: jeden root-span na požiadavku, pod ním vnorené spany pre každé volanie LLM, tool-call, retrieval-krok a guardrail – s promptom, odpoveďou, počtom tokenov, latenciou a nákladmi na každý span.
  • Krajina nástrojov (stav 2026): LangSmith (blízky k LangChain/LangGraph), Langfuse (open source, self-hostovateľný v EU), Arize Phoenix, ako aj výrobcovsky neutrálna cesta cez OpenTelemetry-GenAI-konvencie a OpenInference.
  • Pre DACH-B2B je dátová rezidencia observability-backendu samostatnou compliance-témou: Langfuse self-hosted v EU, Datadog EU alebo Honeycomb EU udržiavajú prompty a odpovede v priestore EU.
  • Evals patria do observability: miera úspešnosti, korektnosť tool-callov a kvalita odpovedí sa taguje voči fixovaným verziám modelov a promptov – povinnosť pre vysokorizikové audity relevantné z hľadiska AI Act.
  • Tracing je aj bezpečnostný signál: poskytuje audit-log pre vysoký blast radius agenta a dopĺňa egress-kontrolu a hygienu service-accountov z bezpečnostného piliera.

AI Agent Observability zviditeľňuje vnútorné fungovanie autonómneho agenta: prostredníctvom tracingu (spany cez reasoning- a tool-cally), metrík (latencia, tokeny, náklady, miera úspešnosti), štruktúrovaných logov a kontinuálnych evals. Odpovedá na otázku, prečo sa agent takto rozhodol – a je predpokladom toho, aby sa multi-step agenti v produkcii vôbec dali debugovať, zabezpečiť a auditovať.

Na rozdiel od klasickej webovej služby agent nerobí jedno rozhodnutie typu požiadavka-odpoveď, ale na každú úlohu prechádza viacerými reasoning-kolami s medzitým vsunutými volaniami nástrojov. Práve táto viacstupňovosť robí bežný monitoring slepým: HTTP-200 nehovorí nič o tom, či bol zavolaný správny tool so správnymi argumentmi alebo či model na polceste odbočil nesprávne.

Tri kľúčové body vopred:

  • Observability pre agentov pozostáva zo štyroch pilierov – tracing, metriky, logy a evals. Vzájomne do seba zapadajú: trace dodáva cestu, metriky dodávajú agregáciu, logy dodávajú kontext, evals dodávajú kvalitatívny posudok.
  • Bez tracingu sú agenti nedebugovateľní. Len hierarchický trace cez všetky reasoning- a tool-call-spany ukáže, na ktorom kroku sa viacstupňový reťazec prelomil.
  • Dátová rezidencia je povinné kritérium. Keďže trace obsahuje prompty a odpovede – teda potenciálne zákaznícke dáta – je observability-backend pre DACH-B2B sám compliance-objektom (Langfuse self-hosted v EU, Datadog EU, Honeycomb EU).

Prečo sú agenti bez tracingu nedebugovateľní

Agent je nedeterministický. Tá istá požiadavka môže viesť k odlišným volaniam nástrojov, odlišnému počtu reasoning-kôl a odlišným výsledkom. Keď beh zlyhá alebo vyprodukuje vecne nesprávnu odpoveď, bez tracingu neexistuje spoľahlivá možnosť izolovať príčinu. Možné zdroje chýb v jedinej požiadavke:

  • LLM reasonoval nesprávne a vybral nevhodný tool.
  • Tool bol zavolaný s chybnými argumentmi.
  • Retrieval-krok (RAG) vytiahol nesprávne dokumenty.
  • Guardrail- alebo PII-filter zasiahol a zmenil kontext.
  • Verzia modelu sa zmenila na strane servera (managed API aktualizujú modely podľa harmonogramu poskytovateľa).

Plochý output-log tieto prípady nerozlišuje. Tracing zviditeľňuje každý z týchto krokov ako vlastný, časovo a kauzálne zaradený span. Tým sa debugovanie posúva od „hádania na základe konečného výsledku" k „nájdeniu konkrétneho spanu, ktorý sa prelomil". Research-dosier túto perspektívu ukotvuje aj architektonicky: service-meshe dodávajú observability na sieťovej úrovni a agentí-stacky z mnohých microservíc (orchestrátor, tool-server, memory-store, vector-DB, retrieval-service, guardrail-service) sú zvládnuteľné len s priebežnou observability-vrstvou.

Štyri piliere observability agentov

Tracing – spany cez reasoning a tool-cally

Trace zobrazuje kompletnú požiadavku agenta ako strom. Root-span zahŕňa celú požiadavku; pod ním visia vnorené spany pre každé volanie LLM, každý tool-call, každý retrieval-krok a každú guardrail-kontrolu. Každý span nesie vstupy a výstupy, ako aj atribúty ako názov modelu, prompt- a completion-tokeny, latenciu a – odvodene – náklady. Táto hierarchická štruktúra je rozhodujúcim rozdielom oproti klasickému, plochému request-logu.

Metriky – latencia, tokeny, náklady, miera úspešnosti

Metriky agregujú naprieč mnohými trace. Jadro tvoria štyri signály:

  • Latencia, end-to-end a na každé tool-call-kolo. Relevantná preto, lebo podľa dosiera agent vo Frankfurte, ktorý volá US-East-API, na každú smeru pridáva približne 80–130 ms navyše – pri viacerých tool-kolách sa to násobí.
  • Tokeny (prompt a completion) na každý span ako základ atribúcie nákladov.
  • Náklady na požiadavku, na tím a na use-case.
  • Miera úspešnosti – podiel korektne dokončených úloh.

Logy – štruktúrovaný kontext

Štruktúrované logy dopĺňajú spany o detailný kontext: surové odpovede toolov, retry-pokusy, spustenia guardrailov, oseknuté kontexty. Dôležitá je korelácia: každý log-záznam by mal byť cez trace-ID priraditeľný konkrétnemu spanu, inak opäť vzniká slepé miesto.

Evals – kvalita ako súčasť observability

Evals sú signál, ktorý čistý tracing neposkytuje: systematické hodnotenie kvality výstupu. Hodnotí sa typicky miera úspešnosti, korektnosť tool-callov (bol zavolaný správny tool so správnymi argumentmi?) a kvalita odpovede – heuristikou, referenčným dátovým súborom alebo „LLM-as-a-Judge". Rozhodujúce pre regulované kontexty: evals a prompt-verzie sa tagujú voči fixovaným verziám modelov. Dosier tento vzor menuje explicitne – prompt-verzie a evals sa v gateway- resp. observability-stacku označujú voči konkrétnym verziám modelov, okrem iného na prípravu na vysokorizikové AI-Act-audity.

Matica signál-k-nástroju

Nasledujúca tabuľka priraďuje každý observability-signál jeho meranej veličine a typickému nástroju (uvedenia nástrojov z research-dosiera; stav 2026).

Signál

Čo merať

Nástroj (príklady)

Tracing

Span-strom cez reasoning- a tool-call-kroky; prompt/odpoveď, vnorenie, trvanie na každý span

LangSmith, Langfuse, Arize Phoenix; výrobcovsky neutrálne cez OpenTelemetry-GenAI-konvencie / OpenInference

Latencia

End-to-end a na každé tool-call-kolo; tail-latencia

Langfuse, LangSmith, Datadog EU / Honeycomb EU

Tokeny

Prompt- a completion-tokeny na každý span

Langfuse, LangSmith (atribúcia nákladov na úrovni tokenov)

Náklady

Náklady na požiadavku, tím, use-case

Langfuse, LangSmith; agregácia často v AI-Gateway (LiteLLM, Portkey)

Miera úspešnosti / kvalita

Eval-skóre, korektnosť tool-callov, kvalita odpovede voči fixovanej verzii modelu

Eval-harness v Langfuse / Arize Phoenix / LangSmith

Logy

Surové odpovede toolov, retries, zásahy guardrailov, oseknuté kontexty

Štruktúrované logy, korelované cez trace-ID

Guardraily / PII

spustené filtre, redaction-eventy

AI-Gateway (Portkey, LiteLLM) plus trace-anotácia

LLM-observability-stack: prehľad nástrojov

Research-dosier pomenúva pre observability-layer jasný výber (stav 2026):

  • LangSmith – tracing- a eval-platforma z prostredia LangChain/LangGraph, ako managed-service. Silná, keď agent aj tak stavia na tomto frameworku; ako managed-možnosť je v dosieri uvedená v jednom rade s Datadog a Honeycomb.
  • Langfuse – open source a tým self-hostovateľný v EU (vlastné dátové centrum alebo EU-región). V dosieri uvedený jednak pre regulovanú sovereign-architektúru (zákazníkom kontrolovaná observability), jednak pre lean-cloud-startup-vzor („Langfuse self-hosted") ako GDPR-konformná cesta.
  • Arize Phoenix – open-source observability a evaluácia, v dosieri uvedená ako self-hostovateľná alternatíva popri Langfuse.
  • OpenTelemetry pre LLM / OpenInference – výrobcovsky neutrálny trace-štandard. Inštrumentovaný cez GenAI-sémantické konvencie, backend zostáva vymeniteľný – dôležitý argument proti lock-inu. Napríklad TGI od Hugging Face už exportoval OpenTelemetry a Prometheus, ešte predtým ako v decembri 2025 prešiel do maintenance-módu.
  • Datadog EU / Honeycomb EU – etablované APM-backendy s možnosťou EU-dátovej rezidencie, v dosieri uvedené ako managed-cesty pre DACH-rezidenciu.

Dôležitý architektonický bod: AI-Gateway (LiteLLM, Portkey, Kong) je často už nositeľom časti observability. Gateways podľa dosiera preberajú multi-provider-failover, virtuálny key-management, tímové rozpočty, observability, guardraily a PII-redaction. V praxi gateway atribuuje tokeny a náklady, zatiaľ čo tracing-platforma drží reasoning-cestu a evals – oboje spolu dáva úplný obraz.

Príklad-trace: jeden beh agenta, rozpísaný

Nasledujúci pseudo-príklad ukazuje, ako jeden beh support-agenta vyzerá ako span-strom. Čísla sú ilustratívne; rád veľkosti latencie pre transatlantické volania (80–130 ms/smer) pochádza z dosiera.

```
TRACE id=ag-7f3c "Kundenanfrage: Rechnung stornieren" gesamt: 4.210 ms | 3.320 Tokens | 0,041 USD
├─ SPAN llm.reason model=gpt-4.x 620 ms | in 540 / out 80 Tok "Plan: Kunde+Rechnung nachschlagen"
├─ SPAN tool.crm_lookup mTLS, in-VPC 180 ms | status=200 args={kunde_id:8842}
├─ SPAN retrieval.vector qdrant-eu 95 ms | 4 Treffer query="Stornorichtlinie B2B"
├─ SPAN llm.reason model=gpt-4.x 710 ms | in 1.980 / out 130 Tok "Storno zulässig, Tool aufrufen"
├─ SPAN tool.invoice_void in-VPC 240 ms | status=200 args={rechnung:RE-2026-0317}
├─ SPAN guardrail.pii redaction 40 ms | 0 Treffer
└─ SPAN llm.compose model=gpt-4.x 2.325 ms| in 380 / out 210 Tok Antworttext an Kunde
EVAL tool_call_correct=PASS | answer_quality=0,92 | getaggt: model=gpt-4.x, prompt=v7
```

Čo tento trace dokáže, čo output-log nedokáže: keby stornovanie zlyhalo, strom okamžite ukáže, či tool.invoice_void dodal chybový status, či retrieval.vector vytiahol nesprávnu smernicu alebo či druhý llm.reason-span rozhodol nesprávne. Najväčšia latenčná položka (llm.compose, 2.325 ms) je bezprostredne rozpoznateľná ako kandidát na optimalizáciu. A eval-riadok viaže kvalitatívny posudok na verziu modelu a promptu – základ pre rollback a audit.

Vzťah k monitoringu v bezpečnostnom pilieri

Tracing nie je len debugovací, ale aj bezpečnostný signál. Agenti majú nezvyčajne vysoký „blast radius": kompromitovaný agent môže volať mnoho nástrojov. Priebežný trace dodáva presne ten audit-log, ktorý túto plochu útoku robí dohľadateľnou – ktorý agent kedy volal ktorý nástroj s akou identitou. To dopĺňa kontroly z bezpečnostného a identitného kontextu: deny-by-default-egress s allowlistom a logovaním na gatewayi, jeden service-account na pár agent-tool namiesto zdieľaných accountov, ako aj naviazanie každého volania na identitu používateľa cez token-exchange-reťazec. Observability na sieťovej úrovni cez service-mesh (mTLS, workload-identity, traffic-shaping) uzatvára kruh. Detailné meracie a kontrolné vzory k egressu, identite a monitoringu rieši bezpečnostný pilier; observability-vrstva preň dodáva telemetrický základ. Konkrétna token-ekonómia a modelovanie nákladov sú zase predmetom FinOps-piliera.

Pre agentúry a B2B-rozhodovateľov

Pre marketingové agentúry, ktoré budujú agentí-workflowy pre zákazníkov, je observability ten dodávaný objekt, ktorý oddeľuje pilot od auditovateľného produkčného systému: až trace, eval a EU-konformný backend robia agenta prevádzkovateľným, zúčtovateľným a obhájiteľným voči ochrane zákazníckych dát. Pre DACH-B2B-rozhodovateľov platí: vyberte observability-backend rovnako uvedomelo ako cloud-región – self-hosted Langfuse, Datadog EU alebo Honeycomb EU udržiavajú prompty a odpovede v priestore EU a výrobcovsky neutrálny OpenTelemetry-tracing chráni pred lock-inom. Blck Alpaca z Viedne koncipuje a prevádzkuje agentí-infraštruktúru s touto observability-vrstvou od začiatku – vrátane tracingu, eval-harnessu a GDPR-konformného backendu. Ozvite sa nám, ak chcete agenta z pilotného statusu previesť do auditovateľnej produkčnej prevádzky.

Často kladené otázky

Aký je rozdiel medzi observability pre AI agentov a klasickým APM?
Klasický Application Performance Monitoring meria requesty, miery chýb a latenciu na úrovni služby. AI Agent Observability ide hlbšie: na každú požiadavku zaznamenáva celú reasoning-cestu ako trace – každé volanie LLM, každý tool-call, každý retrieval-krok – vrátane promptu, odpovede, spotreby tokenov a nákladov na každý span. Navyše prostredníctvom evals hodnotí kvalitu výstupu, nie len jeho technickú dostupnosť. Agent môže technicky bežať bezchybne (HTTP 200) a napriek tomu urobiť nesprávne rozhodnutie – presne túto medzeru observability agentov uzatvára.
Prečo sú AI agenti bez tracingu nedebugovateľní?
Agent je nedeterministický a viacstupňový: po jednej požiadavke často nasleduje viacero reasoning-kôl s medzitým vsunutými tool-callmi. Ak konečný výsledok zlyhá, samotný output-log nepovie, či LLM reasonoval nesprávne, či tool dodal chybnú odpoveď, či retrieval-krok vytiahol nesprávne dokumenty alebo či zasiahol guardrail. Tracing zviditeľňuje každý z týchto stupňov ako vlastný span so vstupmi a výstupmi. Až tým sa dá izolovať konkrétny krok, na ktorom sa reťazec prelomil.
Ktoré observability-nástroje sú vhodné pre DACH-podniky s požiadavkami na dátovú rezidenciu?
Podľa research-dosiera prichádzajú pre GDPR-konformné setupy do úvahy predovšetkým Langfuse self-hosted (open source, prevádzkovateľný v EU-regióne alebo vo vlastnom dátovom centre), Datadog EU a Honeycomb EU. Managed-možnosti ako LangSmith alebo Datadog sú komfortnejšie, musia sa však preveriť voči dátovej rezidencii promptov a odpovedí, keďže trace môže obsahovať zákaznícke dáta. Výrobcovsky neutrálne sa dá inštrumentovať cez OpenTelemetry-GenAI-konvencie, takže backend zostáva vymeniteľný (stav 2026).
Patria evaluácie (evals) do observability alebo sú to oddelené disciplíny?
V kontexte agentov sa obe zlievajú. Evals – teda systematické hodnotenie miery úspešnosti, korektnosti tool-callov a kvality odpovedí – sú kvalitatívny signál, ktorý čistý tracing neposkytuje. V praxi sa evals pripájajú priamo k tracovaným behom a tagujú sa voči fixovaným verziám modelov a promptov. Research-dosier menuje presne tento vzor: prompt-verzie a evals sa v gateway- resp. observability-stacku označujú voči konkrétnym verziám modelov – okrem iného ako príprava na vysokorizikové AI-Act-audity.
Ktoré metriky by sa mali pre produkčného agenta zachytávať minimálne?
Štyri kľúčové signály: latencia (end-to-end a na každé tool-call-kolo, keďže transatlantické API-volania podľa dosiera pridávajú 80–130 ms na smer), spotreba tokenov (prompt- a completion-tokeny na každý span ako základ atribúcie nákladov), náklady (na požiadavku, na tím, na use-case) a miera úspešnosti (podiel korektne dokončených úloh). Doplnkovo: miera chýb tool-callov, počet reasoning-kôl na požiadavku a spustenia guardrailov. Detailnú token-ekonómiu a modelovanie nákladov rieši FinOps-pilier samostatne.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.