16.8Expert6 min

Red-Teaming pre AI Agents: systematické odhaľovanie zraniteľností

Blck Alpaca·9. júna 2026

Definition

Red-Teaming pre AI Agents označuje systematické, simulované útočenie na AI agentov s cieľom odhaliť zraniteľnosti ako prompt injection, jailbreaky, zneužitie nástrojov a únik dát skôr, než ich zneužijú skutoční útočníci. Kombinuje automatizované útočné nástroje s manuálnou, viacstupňovou útočnou kreativitou a poskytuje merateľné zistenia ako attack-success-rates namiesto binárnych zoznamov zraniteľností.

Key Takeaways

✓AI Red Teaming nie je to isté ako klasický penetračný test: iné zručnosti (ML-literacy, prompt-engineering, viacstupňová útočná plynulosť), iné nástroje (Garak, PyRIT, DeepTeam namiesto Burp/Metasploit) a iné formáty zistení (pravdepodobnostné attack-success-rates namiesto binárnych CVE-findings).
✓Automatizované skenovanie (Garak, PyRIT, DeepTeam, Promptfoo) pokrýva široké, známe triedy útokov lacno; manuálny red-teaming nachádza viacstupňové, kontextovo špecifické útoky (boiling-frog-drift, A2A Session Smuggling, delayed tool invocation), ktoré skenery prehliadnu.
✓Praktické pravidlo pre frekvenciu: štvrťročná baseline plus riadená spúšťačmi, pred každou novou integráciou nástroja s deštruktívnymi právami, po každej podstatnej zmene promptu/systémovej správy, po každom upgrade modelu a ad-hoc pri CVE alebo PoC, ktoré sa týka vlastného stacku.
✓Reporting by mal byť merateľný a mapovaný na frameworky: Attack-Success-Rate, Detection-Rate, Time-to-Detection a Blast-Radius, namapované na OWASP Agentic Top 10 (ASI01–ASI10), MITRE ATLAS a nastupujúce AIVSS (stav k roku 2026), ako aj AVID-kompatibilné záznamy.
✓Každý zverejnený guardrail bol kompetentnými výskumníkmi obídený v priebehu mesiacov (EchoLeak proti Microsoftovmu XPIA-klasifikátoru, CamoLeak proti filtrom na strane GitHubu); red-teaming je preto povinný dôkaz, nie marketingový argument, 'OWASP-compliant' nie je spoľahlivé tvrdenie, pretože OWASP necertifikuje.
✓Pre DACH-finančných poskytovateľov služieb je red-teaming fakticky regulovaný: DORA vyžaduje Threat-Led Penetration Testing (čl. 24–27), orientačná pomôcka BaFin (18.12.2025) explicitne odporúča Adversarial Penetration Tests.

Tento článok je súčasťou hubu „Bezpečnosť AI agentov podľa OWASP" a konkretizuje, ako ofenzívne preverujete riziká katalogizované v OWASP Agentic Top 10 (ASI01–ASI10).

Tri rýchle odpovede

Na čo sa útočí? Na útočnú plochu špecifickú pre agentov, nielen na model, ale na volania nástrojov, perzistentnú pamäť, komunikáciu medzi agentmi a human-in-the-loop. Cieľom je odhalenie goal hijack, zneužitia nástrojov, memory-poisoningu a úniku dát.
Čím? Open-source skenery (Garak, PyRIT, DeepTeam, Promptfoo) pre šírku, manuálny red-teaming pre viacstupňové útoky, plus bug-bounty pre dlhodobé pokrytie.
Ako často? Štvrťročná baseline plus riadená spúšťačmi (nové nástroje, zmeny promptov, upgrade modelov, akútne CVE).

Prečo AI Red Teaming nie je klasický pentest

Najdôležitejšie vymedzenie hneď na úvod: AI Red Teaming nie je synonymom tradičného penetračného testu. DACH-procurement tímy si oba pravidelne zamieňajú, s nákladnými následkami, keď je pentest s Burp Suite akceptovaný ako „dôkaz AI-bezpečnosti".

Rozdiely sú zásadné:

Dimenzia	Klasický pentest	AI Red Teaming
Potrebné zručnosti	znalosti sieťovej/AppSec	ML-literacy, prompt-engineering kreativita, viacstupňová adversariálna plynulosť
Typické nástroje	Burp, Metasploit, Cobalt Strike	Garak, PyRIT, DeepTeam, Promptfoo
Formát zistení	binárne, CVE-podobné findings	pravdepodobnostné attack-success-rates
Model útoku	väčšinou single-shot exploit	viacstupňové, multi-turn kampane
Cieľ	chyby kódu/konfigurácie	manipulácia správania a kontextu

AI agent sa často vôbec „nezlomí" v klasickom zmysle, nasleduje inštrukcie, o ktorých bol oklamaný, že sú legitímne. Keďže agenti a model, ktorý je v základe, nedokážu spoľahlivo odlíšiť inštrukcie od dát, každý text, ktorý agent prečíta, je súčasťou útočnej plochy. To si vyžaduje inú disciplínu preverovania.

Aké zraniteľnosti red-team cielene hľadá

Red-teaming postupne prechádza triedy hrozieb špecifické pre agentov z OWASP Agentic Top 10. Prakticky to znamená cielene konštruovať nasledujúce útoky:

Prompt Injection / Goal Hijack (ASI01). Priama a nepriama injection, skryté inštrukcie v dokumentoch, RAG-korpuse, e-mailoch, kalendárových pozvánkach, opisoch PR alebo výstupoch nástrojov. Obzvlášť zákerný: „boiling-frog" multi-turn drift, pri ktorom každý jednotlivý krok pôsobí dôveryhodne, ale kumulatívna trajektória je zlovoľná.
Jailbreaky. Obídenie bezpečnostných mantinelov s cieľom spustiť zakázané akcie alebo obsah.
Zneužitie nástrojov (ASI02). Legitímna funkcia (napr. send_email) je zneužitá na iný účel; využívajú sa auto-approve resp. „YOLO" módy, ktoré deaktivujú potvrdzovacie dotazy.
Memory- a Context-Poisoning (ASI06). Raz vložený obsah trvalo otrávi perzistentnú pamäť; „delayed tool invocation" sa spustí až o týždne neskôr pri spúšťacom slove.
Únik dát. Exfiltrácia cez manipulované markdown obrázky, reťazce redirectov alebo zneužité proxy.
Útoky medzi agentmi (ASI07) a Human-Agent-Trust-Exploitation (ASI09). Falšované správy medzi agentmi, ako aj cielené obchádzanie ľudskej schvaľovacej vrstvy prostredníctvom suverénne formulovaných, ale manipulovaných odporúčaní.

Že sú tieto útoky reálne, dokladajú zdokumentované incidenty: EchoLeak (CVE-2025-32711, CVSS 9.3) bola prvá reálna zero-click prompt injection v produkčnom LLM-systéme a obišla Microsoftov XPIA-klasifikátor (Cross-Prompt Injection Attempt). CamoLeak (CVSS 9.6) cez vlastný Camo-Image-Proxy GitHubu znak po znaku exfiltroval súkromné repository-secrets a zdrojový kód. Oba prípady ukazujú: každý zverejnený guardrail bol kompetentnými výskumníkmi obídený v priebehu mesiacov.

Postup: automatizovane vs. manuálne

Vyspelý red-teaming kombinuje dva módy, ktoré sa dopĺňajú.

Automatizovane znamená škálovanie a opakovateľnosť. Skenery hrajú široké knižnice probe proti agentovi a merajú, aký podiel prejde. Sú vhodné na kontinuálnu integráciu do CI/CD a na regresné testy po každej zmene. Slabina: nachádzajú prevažne známe vzory útokov.

Manuálne znamená kreativitu a kontext. Skúsení analytici konštruujú viacstupňové kampane prispôsobené konkrétnemu agentovi, presne tie útoky, ktoré skenery prehliadnu. Príklady z výskumu: „Agent Session Smuggling" proti Google A2A-protokolu (Palo Alto Unit 42, november 2025) nie je single-shot injection, ale pretrvávajúca social-engineering kampaň agent-proti-agentovi. Útok na pamäť Google Gemini (Johann Rehberger, február 2025) využil „delayed tool invocation" na časovo posunuté otrávenie pamäte.

Nástroje a frameworky (k roku 2026)

Nasledujúce nástroje sú v praxi etablované stavebné kamene. Verziové a trhové údaje k roku 2026.

Nástroj	Pôvod	Zaradenie
Garak	NVIDIA (pôv. Leon Derczynski)	LLM-vulnerability-skener so širokou knižnicou probe
PyRIT	Microsoft AI Red Team	Python Risk Identification Tool, rozšíriteľný
DeepEval / DeepTeam	Confident AI	podporuje framework OWASP_ASI_2026 ako plug-in
Promptfoo Red Team	Promptfoo	uvedený OWASP ako GenAI-security riešenie
Spikee	Community	Spike-testing pre LLM-aplikácie
MAESTRO Threat Analyzer	Cloud Security Alliance	AI-podporované threat-modelling (nie čisto red-team nástroj)

Komerčné: Lakera Red (švajčiarsky poskytovateľ, relevantný pre DACH), HiddenLayer AIDR, Robust Intelligence (Cisco), Trustwise a Cranium.

Bug-bounty s AI-scope: HackerOne (GitHub použil HackerOne pri CamoLeak-disclosure), Bugcrowd a v EU sídliace, DACH-priateľské Intigriti.

Reporting: merateľný a mapovaný na frameworky

Hodnota red-teamingu stojí a padá s reportom. Keďže zistenia sú pravdepodobnostné, musia byť kvantifikované. Zmysluplné metriky:

Attack-Success-Rate Podiel úspešných útokov na triedu.
Detection-Rate Koľko útokov rozpoznal monitoring.
Time-to-Detection Ako dlho trvalo do rozpoznania.
Blast-Radius Koľko následných agentov/systémov by bolo zasiahnutých.

Každé zistenie by malo byť namapované na etablované frameworky: OWASP Agentic Top 10 (ASI01–ASI10) ako register rizík, MITRE ATLAS ako adversary-playbook (s úprimným obmedzením, že ATLAS zaostáva za agentickým frontierom o 6–12 mesiacov, najmä pri ASI07, ASI08 a ASI10) a nastupujúce (k roku 2026) AIVSS (verzia 0.8, marec 2026) pre kvantitatívne skórovanie. Zistenia sa dajú navyše štruktúrovať AVID-kompatibilne, čo ich robí použiteľnými ako reprodukovateľné audit-evidence pre ISO 42001 A.5 a EU AI Act čl. 9. Dôležité pre procurement: „OWASP-compliant" nie je spoľahlivé tvrdenie. OWASP necertifikuje.

Ako často a kto

Frekvencia (praktické pravidlo): štvrťročná baseline plus riadená spúšťačmi, pred každou novou integráciou nástroja s deštruktívnymi právami, po každej podstatnej zmene promptu/systémovej správy, po každom upgrade verzie modelu a ad-hoc, akonáhle sa CVE alebo PoC týka vlastného stacku.

Kto: koncerny s vlastným agent-stackom nad citlivými dátami si držia dedikovaný AI-Red-Team (in-house alebo na zmluvu externe), ktorý pracuje s Garak, PyRIT a DeepTeam proti frameworku OWASP_ASI_2026, plus bug-bounty program. Stredne veľkí deployeri managed-API agentov red-teaming outsourcujú špecializovaným poskytovateľom, pretože interne chýbajú ML-špecifické zručnosti.

Pre DACH-finančných poskytovateľov služieb je to fakticky regulované: DORA (čl. 24–27) vyžaduje Threat-Led Penetration Testing a orientačná pomôcka BaFin z 18.12.2025 explicitne odporúča Adversarial Penetration Tests, ako aj simuláciu útokov (data poisoning, evasion). Oba sú formálne nezáväzné, ale v auditoch prakticky obracajú dôkazné bremeno.

Praktický príklad s číslami

Poisťovňa prevádzkuje multi-agentový workflow na spracovanie škôd. Interný red-team konštruuje nepriamu injection: v naskenovanej kópii lekárskej správy je cez OCR-rekonštruovateľný text skrytá inštrukcia automaticky schvaľovať prípady určitých kategórií. Agent „Risk-Scoring" preberá manipulované hodnotenie a posúva ho agentom „Pricing" a „Compliance".

Namerané metriky: attack-success-rate injection 1 z 1 (úspešná), Time-to-Detection > 4 hodiny, Blast-Radius 3 následní agenti. Pre porovnanie: výskum Galileo AI (december 2025) ukázal v simulovaných multi-agentových systémoch, že jediný kompromitovaný agent otrávil 87 % následného rozhodovania v priebehu 4 hodín. Zdokumentovaný incident z manufacturing-procurement (2025): agent bol počas troch týždňov postupne presvedčený, že jeho schvaľovací limit je 500 000 USD, útočník následne umiestnil 5 mil. USD falošných objednávok cez 10 transakcií. Takéto zistenia prekladajú abstraktné riziká do čísel vhodných pre predstavenstvo.

Praktický checklist

Definovať scope: ktoré nástroje, pamäte, inter-agent cesty a HITL-gates sú v scope?
Odvodiť scenáre informované threat-modelom z OWASP ASI01–ASI10.
Ukotviť automatizovaný baseline-scan (Garak/PyRIT/DeepTeam) v CI/CD.
Doplniť manuálne, viacstupňové kampane (boiling-frog, A2A, delayed invocation).
Zbierať metriky: Attack-Success-Rate, Detection-Rate, Time-to-Detection, Blast-Radius.
Namapovať zistenia na OWASP/MITRE ATLAS/AIVSS, dokumentovať AVID-kompatibilne.
„Test-Injections" na preverenie, či human-in-the-loop skutočne zaberá.
Stanoviť kadenciu: štvrťročne plus riadenú spúšťačmi.

Pre agentúry a B2B rozhodovateľov

Kto stavia agentov pre zákazníkov alebo ich nasadzuje vo vlastnom marketingovom a predajnom stacku, mal by red-teaming chápať ako pevnú súčasť dodávateľského a prevádzkového procesu, nie ako jednorazový akceptačný test. Pre agentúry je to zároveň diferenciačný znak: preukázateľné attack-success-rates a OWASP-mapovaný reporting vytvárajú u DACH-zákazníkov dôveru, ktorú „používame guardraily" nedosiahne. Blck Alpaca vám pomôže vybudovať red-teaming-setup zodpovedajúci vyspelosti a regulácii vášho podniku, od výberu nástrojov cez vývoj scenárov až po audit-spôsobilý report. Ozvite sa nám skôr, než váš agent pôjde do produkcie.

Často kladené otázky

Aký je rozdiel medzi AI Red Teaming a klasickým penetračným testom?

Klasický pentest hľadá binárne zraniteľnosti (otvorený port, SQL-injection) pomocou nástrojov ako Burp, Metasploit alebo Cobalt Strike. AI Red Teaming si vyžaduje ML-literacy, prompt-engineering kreativitu a viacstupňovú adversariálnu plynulosť, používa nástroje ako Garak, PyRIT a DeepTeam a poskytuje pravdepodobnostné zistenia (attack-success-rates) namiesto binárnych CVE-findings. DACH-procurement tímy si oba pravidelne zamieňajú, navzájom sa dopĺňajú, ale nenahrádzajú.

Ako často by sa mal AI agent podrobiť red-teamingu?

Ako praktické pravidlo platí: štvrťročná baseline plus behy riadené spúšťačmi. Spúšťačmi sú nová integrácia nástroja s deštruktívnymi právami, podstatná zmena promptu alebo systémovej správy, upgrade verzie modelu, ako aj ad-hoc, akonáhle sa CVE alebo proof-of-concept týka vlastného stacku. Pre finančné spoločnosti podliehajúce DORA pribúdajú formálne cykly Threat-Led-Penetration-Testing.

Ktoré nástroje sú vhodné na red-teaming AI agentov?

Open Source: Garak (NVIDIA, široká knižnica probe), PyRIT (Microsoft AI Red Team), DeepEval/DeepTeam (Confident AI, podporuje framework OWASP_ASI_2026 ako plug-in), Promptfoo Red Team a Spikee. Komerčné: Lakera Red, HiddenLayer AIDR, Robust Intelligence (Cisco), Trustwise a Cranium. Bug-bounty platformy s AI-scope sú HackerOne, Bugcrowd a v EU sídliace Intigriti. Všetky verziové a trhové údaje k roku 2026.

Stačí automatizovaný red-teaming?

Nie. Automatizované skenery pokrývajú široké, známe triedy útokov rýchlo a lacno a sú vhodné na kontinuálnu CI/CD integráciu. Najzávažnejšie útoky na agentov sú však viacstupňové a kontextovo špecifické, napríklad boiling-frog-drift cieľa, A2A Session Smuggling alebo oneskorená tool-invocation, ktorá sa spustí až o týždne neskôr. Tieto nachádza len manuálny red-teaming skúsenými analytikmi. Best practice je kombinácia oboch prístupov.

Kto by mal red-teaming vykonávať, interne alebo externe?

Oboje je legitímne a závisí od vyspelosti a rozpočtu. Koncerny s vlastným agent-stackom nad citlivými dátami si typicky držia dedikovaný AI-Red-Team (in-house alebo na zmluvu externe), štvrťročne plus spúšťané zmenami, doplnené o bug-bounty program s explicitným AI-scope. Stredne veľkí deployeri managed-API agentov red-teaming väčšinou outsourcujú špecializovaným poskytovateľom, keďže interne chýbajú ML-špecifické zručnosti.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky, alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.

Odoberať newsletter →Naše služby

Previous← Správny dizajn Human-in-the-Loop (HITL): Schvaľovacie vzory pre AI agentov NextMonitorovanie AI agentov pomocou LangSmith a Langfuse: Observability pre bezpečné AI agenty →