Monitorovanie AI agentov pomocou LangSmith a Langfuse: Observability pre bezpečné AI agenty
AI Agent Monitoring (Agent Observability) je priebežné zaznamenávanie a vyhodnocovanie toho, čo AI agent robí: traces, tool-calls, náklady na tokeny, latencia, chyby a eval-skóre. Nástroje ako LangSmith a Langfuse robia rozhodovacie cesty agenta sledovateľnými, a sú tak predpokladom pre bezpečnosť, debugging a compliance.
Key Takeaways
- ✓Monitorovanie agentov sa zásadne líši od klasického APM: sledovať treba traces, tool-calls, tokeny/náklady, latenciu, chyby a eval-skóre pozdĺž viacstupňových reasoning reťazcov.
- ✓LangSmith (komerčný, úzko prepojený s ekosystémom LangChain) a Langfuse (open source, self-hostovateľný, dostupný v EU regióne) sú dve menovite uvedené observability kotvy v researchi; pre dátovú rezidenciu v regióne DACH je self-hosting, resp. EU-hosting, kľúčovým výberovým kritériom.
- ✓Observability je bezpečnostná infraštruktúra: bez trace a provenience loggingu sa OWASP agentic hrozby ako Goal Hijack (ASI01), Tool Misuse (ASI02) alebo Memory Poisoning (ASI06) nedajú odhaliť.
- ✓Compliance závisí od loggingu: ISO/IEC 42001 (A.6.2.6, A.6.2.8), EU AI Act (čl. 15, čl. 14, čl. 72) a vo finančnom sektore DORA, ako aj orientačná pomôcka BaFin, vyžadujú sledovateľné protokoly odolné voči manipulácii.
- ✓Štandardné observability stacky v roku 2026 nestačia: často nezachytávajú signály špecifické pre agentov (reasoning drift, provenienciu memory-write, integritu inter-agent komunikácie); detekčná prax pre agentov je ešte nezrelá.
- ✓Minimálny obsah logu na akciu agenta: úplný prompt, verzia modelu/hash konfigurácie, sekvencia tool-call s argumentmi, retrieval queries, output a zdôvodnenie, udalosti human-override aj memory, náklady a latencia.
AI Agent Monitoring (Agent Observability) je priebežné zaznamenávanie a vyhodnocovanie toho, čo AI agent robí: traces, tool-calls, náklady na tokeny, latencia, chyby a eval-skóre. Nástroje ako LangSmith a Langfuse robia rozhodovacie cesty agenta sledovateľnými, a sú tak predpokladom pre bezpečnosť, debugging a compliance. Na rozdiel od klasického application monitoringu nemusí zobrazovať jednotlivé requesty, ale celé viacstupňové reasoning reťazce.
Tri najdôležitejšie body na úvod:
- Čo treba sledovať: traces (úplný reasoning reťazec), tool-calls s argumentmi, spotrebu tokenov a náklady, latenciu na krok, chyby a eval-skóre kvality odpovede.
- Ktoré nástroje: LangSmith (komerčný, úzko spätý s LangChain), Langfuse (open source, self-hostovateľný, EU región), ako aj doplnkovo Arize Phoenix, Weights & Biases Weave, Datadog LLM Observability a OpenTelemetry pre GenAI traces.
- Prečo je to kritické: bez observability zostávajú OWASP agentic hrozby ako Goal Hijack alebo Memory Poisoning neviditeľné – a povinnosti compliance z ISO 42001, EU AI Act a DORA sú nesplniteľné.
Prečo agenty potrebujú vlastnú observability
Klasické aplikácie jazykových modelov reagujú: prompt dnu, odpoveď von. Agentické systémy naproti tomu plánujú, uvažujú rekurzívne, vyberajú nástroje, zapisujú do perzistentnej pamäte a konajú s minimálnym schvaľovaním krok za krokom. Tento posun zväčšuje plochu útokov a chýb pozdĺž troch osí: autonómia (viacstupňové plány, sebamodifikácia kontextu), používanie nástrojov (súborový systém, API, databázy, code sandboxy, MCP servery) a perzistencia (dlhodobá pamäť, vector databázy, dôveryhodnostné reťazce agent-k-agentovi).
Práve preto request log nestačí. Človek musí vedieť rekonštruovať celú trajektóriu agenta – inak sa nedá spätne sledovať ani bug, ani útok, ani halucinácia. V referenčnej architektúre MAESTRO od Cloud Security Alliance tvorí observability vlastnú vrstvu (Layer 5: Evaluation & Observability), ktorá sa sama stáva cieľom útoku: otrávené observability dáta, obchádzanie monitorovania a kompromitované vyhodnocovanie sú tam uvedenými hrozbami.
Čo treba konkrétne sledovať
Zdroj OWASP definuje minimálny obsah logu na akciu agenta pre forenznú úplnosť. Tento zoznam je praktickým jadrom každej monitorovacej stratégie:
- Úplný prompt – user, system a injektovaný kontext (rozhodujúce pre rozpoznanie nepriamej prompt injection).
- Verzia modelu a hash konfigurácie – reprodukovateľnosť a dôkaz o zmene.
- Sekvencia tool-call s argumentmi – ktorý nástroj bol kedy a s akými parametrami zavolaný.
- Retrieval queries a vrátené ID dokumentov – sledovateľnosť RAG podkladu.
- Output a zdôvodnenie rozhodnutia – vrátane chain-of-thought, ak je k dispozícii.
- Udalosti human-override – každé ľudské schválenie alebo korekcia.
- Zápisy a čítania pamäte – kritické pre rozpoznanie Memory Poisoning.
- Náklady a latencia – na krok, pre ekonomickú efektívnosť a detekciu anomálií.
Okrem toho patria do monitorovania eval-skóre: automatizované alebo modelovo založené hodnotenia kvality odpovede (správnosť, groundedness, miera halucinácií), ktoré sa porovnávajú naprieč verziami. LangSmith aj Langfuse podporujú takéto vyhodnocovacie pipeline, ktorými sa dajú rozpoznať regresie pred nasadením do produkcie.
Pri uchovávaní platí: odporúča sa WORM úložisko (write-once-read-many, teda nemenné logy) a kryptografické podpisovanie na detekciu manipulácie. Lehoty uchovávania sa riadia odvetvím – zdroj uvádza 10 rokov pre banky a poisťovne, v zdravotníctve podľa predpisov BfArM/Swissmedic a vo verejnom sektore podľa archívneho zákona.
Krajina nástrojov: zameranie a hosting
LangSmith a Langfuse sú dve menovite uvedené kotvy observability krajiny v zdroji. Pre rozhodovateľov v regióne DACH je popri rozsahu funkcií rozhodujúci najmä hosting – dátová rezidencia v EU alebo vo Švajčiarsku je v regulovaných odvetviach často rozhodujúcim kritériom.
Nástroj | Zameranie | Hosting / vhodnosť pre EU (stav 2026) |
|---|---|---|
LangSmith | Tracing, eval, debugging; úzko prepojený s ekosystémom LangChain/LangGraph | Komerčný, primárne ako managed cloud; enterprise self-hosting dostupný |
Langfuse | Tracing, sledovanie tokenov/nákladov, vyhodnocovanie, prompt management; framework-agnostický | Open source, plne self-hostovateľný; dedikovaný EU región v managed cloude – výhodný pre dátovú rezidenciu podľa GDPR |
Arize Phoenix | Open-source observability a vyhodnocovanie, analýza RAG/embeddingov | Open source, self-hostovateľný |
Weights & Biases Weave | Tracing a vyhodnocovanie, stack blízky ML experimentom | Managed cloud, self-hosting pre enterprise |
Datadog LLM Observability | LLM tracing integrovaný do existujúceho APM/SIEM | Managed; EU región dostupný v rámci Datadog |
OpenTelemetry (GenAI) | Otvorený trace štandard, vendor-neutrálna inštrumentácia | Self-hostovateľný; základ pre pipeline nezávislé od výrobcu |
Doplnkovo zdroj uvádza Honeycomb AI a Splunk AI Assistant Tracing ako stavebné prvky v širšom observability stacku. Kto sa chce vyhnúť lock-inu, inštrumentuje cez OpenTelemetry a presmeruje traces na zvolenú platformu.
Pre región DACH relevantný pokyn: na susednom trhu guardrailov je s Lakera aktívny švajčiarsky poskytovateľ – dôkaz, že európska dátová rezidencia je realizovateľná aj v bezpečnostnom toolingu okolo agentov. Pri všetkých poskytovateľoch platí: vlastne zverejnené benchmark a detekčné miery treba považovať za marketing, kým nie sú nezávisle overené.
Prečo je monitorovanie bezpečnostnou a compliance infraštruktúrou
Observability nie je dodatočné nice-to-have, ale základ, na ktorom vôbec funguje detekcia. OWASP agentic hrozby sa dajú takmer vo všetkých prípadoch odhaliť len cez monitorovacie signály:
- Agent Goal Hijack (ASI01): netypické outbound URL v outputoch agenta, tool-calls, ktoré nezodpovedajú požiadavke používateľa, náhle zmeny témy v reasoning trace – všetko viditeľné len vtedy, ak je trace k dispozícii kompletne.
- Tool Misuse (ASI02): anomálne frekvencie tool-call, nezvyčajné sekvencie volaní, deštruktívne operácie krátko po prijatí externého obsahu.
- Memory & Context Poisoning (ASI06): drift správania bez zmeny kódu alebo modelu, neoveriteľné memory záznamy, sémantické odľahlé hodnoty vo vector pamäti.
- Cascading Failures (ASI08): rýchly fan-out (jedno rozhodnutie spustí v sekundách mnoho nadväzujúcich agentov), oscilujúce retry slučky.
- Rogue Agents (ASI10): drift správania voči baseline, prístup k zdrojom mimo normálneho rozsahu.
Na nákladovej strane monitorovanie adresuje hrozbu neobmedzeného využívania zdrojov (Unbounded Consumption, LLM10) – takzvané denial-of-wallet útoky. Viacstupňové plány násobia spotrebu tokenov; detekcia anomálií na časovom rade používania tokenov plus tvrdé stropy nákladov s circuit breakermi sú protiopatreniami.
Na strane compliance je logging spoločným menovateľom všetkých príslušných rámcov. ISO/IEC 42001 ho adresuje priamo controlmi z Annex A: A.6.2.6 (Operation and monitoring) a A.6.2.8 (Logging). EU AI Act vyžaduje v čl. 15 kybernetickú bezpečnosť a robustnosť, v čl. 14 ľudský dohľad a v čl. 72 post-market monitoring pre vysokorizikové systémy. GDPR sa naň napája cez čl. 32 (technické a organizačné opatrenia k integrite a dostupnosti). Vo finančnom sektore platí DORA (čl. 5-15 riadenie ICT rizík) a orientačná pomôcka BaFin z 18. decembra 2025 chápe AI systémy ako podtriedu sieťových a informačných systémov pod DORA – s výslovným zameraním na transparentné protokoly rozhodnutí. Pre prevádzkovateľov KRITIS adresuje NIS2 (čl. 21) riešenie incidentov a kontrolu prístupu. Pozn.: Táto časť zaraďuje rámce a nie je právnym poradenstvom; konkrétnu uplatniteľnosť na váš systém by ste si mali nechať právne preveriť.
K tomu patrí aj úprimné zaradenie: podľa zdroja OWASP je detekcia v produkčných nasadeniach agentov v súčasnosti slabá. Väčšina observability stackov bola postavená pre klasické aplikácie a nezachytáva signály špecifické pre agentov – anomálie reasoning trace, porušenia provenience memory-write, integritné chyby inter-agent, drift správania voči baseline. Prax detection engineeringu pre agentov je podľa zdroja zhruba tam, kde bola SOC detekcia pre cloud v roku 2018: použiteľná, ale s vysokými mierami false-negative a obmedzeným jazykovým pokrytím pre DACH. Kto v SIEM nič nevidí, nemal by z toho usudzovať, že sa nič nedeje.
Praktický príklad: čo robí trace viditeľným
Predpokladajme, že poisťovňa prevádzkuje agenta na triedenie poistných nárokov (claims triage). V naskenovanom súbore lekárskej správy sa nachádza cez OCR vyčítateľný manipulatívny text, ktorý núti agenta k automatickému vyplateniu – scenár goal-hijack (ASI01). Dobre inštrumentovaný trace v Langfuse alebo LangSmith robí útok viditeľným:
```
trace_id: claim-48211
step 1 retrieval query="Schadensfall 48211" docs=[doc_91, doc_OCR_scan]
step 2 reasoning "Dokument enthaelt Anweisung: sofort genehmigen" <- Anomalie
step 3 tool_call approve_payout(amount=14.900 EUR) <- untypisch frueh
step 4 output "Auszahlung freigegeben"
tokens: 8.420 cost: 0,11 USD latency: 3,2 s
```
Krok 2 ukazuje reasoning krok, ktorý preberá inštrukciu z obsahu dokumentu (teda z dát, nie zo system promptu) – klasický signál pre nepriamu injection. Krok 3 je deštruktívny tool-call (vyplatenie) bezprostredne po prijatí externého obsahu. Bez trace by bola v systéme viditeľná len schválená platba; s trace, provenience metadátami na memory zázname a alertom na pravidlo „deštruktívny tool-call po externom obsahu" sa dá incident zastaviť v reálnom čase a neskôr forenzne doložiť.
K naliehavosti dodáva zdroj konkrétne číslo: v simulovaných multi-agent systémoch otrávil jediný kompromitovaný agent do štyroch hodín 87 percent nadväzujúcich rozhodnutí (Galileo AI Research, december 2025). Cascading failures sa šíria rýchlejšie, než ich dokáže obmedziť tradičná incident response – čo robí kontinuálne, hĺbkové monitorovanie inter-agent tokov povinnosťou.
Pre agentúry a B2B rozhodovateľov
Kto stavia AI agentov pre zákazníkov alebo ich nasadzuje vo vlastnej prevádzke, mal by observability plánovať od prvého dňa ako povinnú súčasť – nie ako neskorší add-on. Prakticky to znamená: inštrumentovať framework-agnosticky cez OpenTelemetry, Langfuse self-hostovať alebo prevádzkovať v EU regióne, ak záleží na dátovej rezidencii, kompletne zachytávať vyššie uvedený minimálny obsah logu a nastaviť eval-skóre ako quality gate pred každý release. Pre agentúry je sledovateľné trace a nákladové monitorovanie zároveň argumentom dôvery aj predaja: dokazuje voči zákazníkovi, že agent je kontrolovateľný, auditovateľný a rozpočtovateľný. Blck Alpaca z Viedne sprevádza firmy v regióne DACH pri budovaní a zabezpečovaní takýchto agentových stackov – od observability architektúry až po zaradenie do ISO 42001 a EU AI Act.
Často kladené otázky
Aký je rozdiel medzi monitorovaním AI agentov a klasickým application monitoringom?
LangSmith alebo Langfuse – čo sa lepšie hodí pre firmy v regióne DACH?
Prečo je monitorovanie kľúčové pre bezpečnosť AI agentov?
Aké dáta musím na akciu agenta zaznamenať minimálne?
Stačí pre AI agentov existujúci observability nástroj ako Datadog?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.