Preskočiť na obsah
16.6Expert7 min

Zabránenie Memory Poisoning: zabezpečenie dlhodobej a vektorovej pamäte AI agentov

Blck Alpaca·
Definition

Memory Poisoning označuje cielené vkladanie manipulovaného obsahu do dlhodobej alebo vektorovej pamäte AI agenta. Na rozdiel od jednorazových prompt injection ostáva škodlivý obsah perzistentne uložený a pri každom neskoršom načítaní kompromituje správanie agenta – jediný úspešný zápis pôsobí neobmedzene ďalej.

Key Takeaways

  • Memory Poisoning je v OWASP Top 10 for Agentic Applications 2026 uvedený ako ASI06 (Memory & Context Poisoning) a priradený k technike MITRE ATLAS AML.T0085 (Memory Poisoning) (stav 2026).
  • Hlavným rizikom je perzistencia: po injekcii beží payload neobmedzene ďalej a každá budúca session zdedí kompromitáciu – drift vzniká bez zmeny kódu alebo modelu.
  • Zdokumentované útoky ako Gemini Memory Attack (feb. 2025) a Gemini Calendar Invite Poisoning preukazujú Delayed Tool Invocation a cross-session perzistentnú manipuláciu v produkčných systémoch.
  • Účinná obrana vyžaduje provenance metadáta pre každý záznam v pamäti, validáciu pri zápise, oddelenie dôveryhodných zdrojov, prísnu izoláciu mandantov a pravidelné audity pamäte.
  • Compliance kotvy v regióne DACH: GDPR čl. 5(1)(d), čl. 17 a čl. 32, EU AI Act čl. 10 a čl. 15, ako aj ISO/IEC 42001 A.7.

Memory Poisoning označuje cielené vkladanie manipulovaného obsahu do dlhodobej alebo vektorovej pamäte AI agenta. Na rozdiel od jednorazovej prompt injection, ktorá pôsobí len v rámci jednej odpovede, ostáva škodlivý obsah perzistentne uložený. Pri každom neskoršom načítaní kompromituje správanie agenta. V OWASP Top 10 for Agentic Applications 2026 je táto hrozba uvedená ako ASI06 (Memory & Context Poisoning).

Rozhodujúci rozdiel oproti čisto chatbotom: zatiaľ čo tie medzi sessions zabúdajú, agentické systémy udržiavajú perzistentnú pamäť – históriu konverzácií, preferencie používateľov, naučený kontext a RAG story. Práve to vytvára trvalú útočnú plochu. Útočník injektuje raz, payload beží neobmedzene ďalej a každá budúca session zdedí kompromitáciu.

  • Perzistencia je hlavné riziko: Jediný úspešný zápis dokáže pamäť trvalo otráviť – manipulácia prežije týždne bežnej prevádzky.
  • Načítanie, nie vstup, je kritický moment: Škoda nevzniká pri zápise, ale keď je otrávený záznam neskôr načítaný a spracovaný ako dôveryhodný kontext.
  • Validácia pri zápise plus provenance plus audity pamäte sú tri nosné piliere obrany – žiadne jednotlivé opatrenie nestačí.

Útočné vektory: ako sa obsah dostáva do pamäte

Memory Poisoning využíva viacero, sčasti kombinovateľných vstupných brán. Agent nedokáže spoľahlivo rozlíšiť medzi inštrukciou a dátami – každý text, ktorý prečíta a uloží, je súčasťou útočnej plochy.

  • Priama injekcia do pamäte: Agent uloží nepriateľský obsah s vysokou konfidenciou ako naučený fakt.
  • Poisoning RAG storu: Manipulovaný obsah sa vloží do referencovanej znalostnej databázy.
  • Manipulácia embeddings: Adversariálne vstupy v priestore embeddings posúvajú sémantickú reprezentáciu.
  • Delayed Tool Invocation: Spúšťacie frázy aktivujú payload až týždne neskôr – spáč v pamäti.
  • Vector-store insertion: Útoky proti embeddings zdieľaným naprieč mandantmi prenášajú otravu cez hranice tenantov.

Riziko perzistencie: prečo je pamäť nebezpečnejšia ako vstup

Záludnosťou Memory Poisoningu je časové oddelenie útoku a účinku. Otrávená pamäť vedie k behavioral driftu, ktorý nastáva bez zmeny kódu alebo modelu – a tým uniká klasickým kontrolám change managementu. Lakera AI v novembri 2025 zdokumentovala takzvané správanie typu sleeper agent: kompromitovaní agenti si vytvorili perzistentné nepravdivé presvedčenia o bezpečnostných politikách a vzťahoch s dodávateľmi a dokonca ich obhajovali, keď ich ľudia spochybňovali.

Pre scenáre DACH B2B sú obzvlášť relevantné tri vzory:

  • Poisťovňa s agentom na triáž škôd: Agent sa z jediného otráveného príkladu naučí, že „poistníci z PSČ X sa schvaľujú prednostne". Toto sleeper skreslenie prežije týždne bežnej prevádzky.
  • Prevádzkovateľ KRITIS s agentom na prediktívnu údržbu: Z otrávenej telemetrie sa agent naučí, že prahová hodnota vibrácií je „normálna" – spáč, ktorý môže prispieť k výpadku.
  • Compliance agent banky: Chápanie „podozrivej aktivity" sa graduálne posúva v dôsledku dlhotrvajúceho poisoningu session pamäte.

Protiopatrenia: štyri obranné úrovne

Účinná obrana proti Memory Poisoningu sleduje princíp defense-in-depth naprieč designom, buildom, runtimom a prevádzkou. Žiadna jednotlivá vrstva nestačí – rozhoduje kombinácia.

Úroveň

Opatrenie

Účel

Design

Zápisy do pamäte považovať za bezpečnostne kritické; provenance metadáta pre každý záznam (zdroj, časová pečiatka, ingestion cesta, konfidencia); source-confidence-weighting pri načítaní

Validácia pri zápise, dohľadateľnosť každého záznamu

Design

Per-session pamäť štandardne efemérna; perzistentná pamäť len cez explicitný, auditovaný zápis

Redukcia perzistentnej útočnej plochy

Build

Similarity-thresholding pri načítaní; validácia obsahu pred embeddingom; trust-tier-tagging záznamov

Oddelenie dôveryhodných od nedôveryhodných zdrojov

Runtime

Izolácia mandantov (separátne vektorové indexy pre tenant, izolácia namespace); obrana proti embedding inversion (Differential Privacy, detekcia anomálií v priestore embeddings); memory-expiration-policies

Zabraňuje cross-tenant kontaminácii a inverzii

Prevádzka

Pravidelné audity pamäte s verifikáciou provenance; postupy mazania podľa GDPR čl. 17

Detekcia otrávených záznamov, právny súlad

Validácia a provenance ako jadro

Najúčinnejšia páka spočíva v samotnom zápise. Každý záznam v pamäti by mal niesť provenance metadáta: zdroj, časovú pečiatku, ingestion cestu a hodnotu konfidencie. Pri načítaní source-confidence-score váži záznamy podľa dôveryhodnosti. Záznamy, ktoré nemožno priradiť žiadnemu overiteľnému zdroju, sa nesmú spracovávať ako zaistené poznanie. Obsah by mal byť pred embeddingom validovaný a otagovaný podľa trust-tier – napríklad „interne overené", „externe nepotvrdené", „generované používateľom".

Oddelenie dôveryhodných zdrojov a izolácia mandantov

Vektorové story potrebujú access-controls na úrovni row alebo namespace. Embedding story sa nikdy nesmú zdieľať cez hranice mandantov – každý tenant dostane separátny vektorový index. Pamäť sa šifruje at rest, ideálne s kľúčmi spravovanými zákazníkom. Proti embedding inversion pomáhajú frekvenčné limity dotazov, Differential Privacy na embeddings a detekcia anomálií v priestore embeddings.

Audity pamäte a detekčné signály

Audity pamäte kontrolujú obsah vzorkovo a overujú jeho provenance. Nasledujúce signály naznačujú poisoning:

  • Drift v baseline správaní agenta bez zmeny kódu alebo modelu.
  • Neoveriteľné záznamy v pamäti bez provenance recordu.
  • Sémantické odľahlé hodnoty vo vektorovom store.
  • Agent tvrdí, že si „pamätá" inštrukcie, pre ktoré neexistuje žiadny provenance record.

Úplný audit-logging pre každú akciu agenta (stav 2026) by mal zahŕňať aspoň memory-write a read eventy, retrieval dotazy s vrátenými ID dokumentov, ako aj odôvodnenie rozhodnutia – ideálne ako WORM logy (write-once-read-many) s kryptografickým podpisom na detekciu manipulácie.

Konkrétny príklad: Delayed Tool Invocation

Google Gemini Memory Attack (február 2025, zdokumentovaný Johannom Rehbergerom) ukazuje mechanizmus názorne. Nahratý dokument obsahoval skryté prompty, ktoré inštruovali Gemini, aby uložil nepravdivé informácie až vtedy, keď sa v budúcej konverzácii objavia spúšťacie slová ako „yes", „no" alebo „sure". Výsledok: Gemini si „spomenul" na výskumníka ako na 102-ročného plochozemca, ktorý žije v Matrixe. Google vyhodnotil dopad ako nízky, ale zraniteľnosť potvrdil.

V pseudokóde možno útok načrtnúť takto:

```

Fáza 1 – Injekcia (jednorazovo, cez manipulovaný dokument)

AK vstup_pouzivatela OBSAHUJE spustacie_slovo ("yes" | "no" | "sure"):
memory.zapis(zaznam="Pouzivatel ma 102 rokov", konfidencia=vysoka)
# ziadny provenance record, ziadna validacia pri zapise

Fáza 2 – Aktivácia (o týždne neskôr, ľubovoľná session)

pri nacitani: memory.citaj("Profil-pouzivatela")
-> vracia otraveny zaznam ako zaisteny fakt
```

Obrana s validáciou pri zápise by záznam vo fáze 1 odmietla: žiadny dohľadateľný provenance record, externý a neoverený zdroj, nízky trust-tier. Pri načítaní vo fáze 2 by source-confidence-weighting záznam zaradil nižšie. Pri Calendar Invite Poisoning (Targeted Promptware Attacks, 2025) manipulované pozvánky v kalendári implantovali perzistentné inštrukcie do Geminiho „Saved Info" – 73 percent zo 14 testovaných scenárov bolo vyhodnotených ako High až Critical, od spamu až po otváranie smart-home zariadení.

Ukotvenie compliance v regióne DACH

Memory Poisoning nie je len technickou, ale aj regulačnou témou. ASI06 je priradený k technike MITRE ATLAS AML.T0085 (Memory Poisoning), ktorá pribudla v rámci kolaborácie so Zenity z októbra 2025. Úzko príbuzná je už predtým existujúca technika AML.T0020 (Poison Training Data), ktorá ako tréningový náprotivok predchádza ASI06. Pre nemecky hovoriacich deployerov sú relevantné nasledujúce kotvy (stav 2026):

  • GDPR: čl. 5(1)(d) (správnosť), čl. 17 (právo na vymazanie), čl. 32 (technicko-organizačné opatrenia).
  • EU AI Act: čl. 10 (governance dát) a čl. 15 (kybernetická bezpečnosť). Embedding inversion útoky zatiaľ nie sú v štandardoch samostatne kodifikované – medzeru zaceľuje deployer.
  • ISO/IEC 42001: A.7 (dáta pre AI systémy), A.7.4 (kvalita dát), A.6.2.8 (logging).

Postupy mazania pamäte musia byť zladené s GDPR čl. 17 – právo na zabudnutie sa výslovne vzťahuje aj na perzistentné úložiská agentov a embedding story.

Pre agentúry a B2B rozhodovateľov

Kto nasadzuje agentickú AI pre zákazníkov alebo vo vlastnej prevádzke, nemal by bezpečnosť pamäte vnímať ako podradný detail. Pred každým rolloutom si ujasnite tri otázky: Ktoré zdroje vôbec smú zapisovať do perzistentnej pamäte? Nesie každý záznam provenance metadáta? Sú indexy mandantov čisto oddelené? Pre marketingové a digitálne agentúry, ktoré prevádzkujú agentické systémy pre viacerých zákazníkov, je izolácia vektorového storu naprieč mandantmi najdôležitejšou jednotlivou pákou – cross-tenant kontaminácia pamäte je zároveň rizikom dôvery aj zodpovednosti. Blck Alpaca podporuje spoločnosti v regióne DACH pri nastavovaní validácie pamäte, konceptov provenance a pravidelných auditov pamäte v súlade s OWASP ASI06, EU AI Act a GDPR – pragmaticky a auditovateľne.

Často kladené otázky

Čím sa Memory Poisoning líši od bežnej prompt injection?
Klasická prompt injection pôsobí len v rámci jednej odpovede alebo session. Memory Poisoning zapisuje škodlivý obsah trvalo do dlhodobej alebo vektorovej pamäte agenta. Útočník injektuje raz, payload ostáva perzistentne uložený a ovplyvňuje každé budúce načítanie – aj v nezávislých sessions o týždne neskôr.
Ako sa manipulovaný obsah vôbec dostane do pamäte agenta?
Cez viacero vektorov: priama injekcia do pamäte (agent uloží nepriateľský obsah s vysokou konfidenciou), poisoning RAG storu, respektíve znalostnej databázy, manipulácia embeddings, vector-store insertion útoky proti embeddings zdieľaným naprieč mandantmi, ako aj Delayed Tool Invocation, pri ktorom spúšťacie slovo aktivuje payload až neskôr.
Čo je audit pamäte a ako často by sa mal vykonávať?
Audit pamäte kontroluje vzorkovo uložený obsah pamäte a overuje jeho provenance – teda zdroj, časovú pečiatku a ingestion cestu. Ak sa nájde záznam bez dohľadateľného provenance recordu, je to silný signál poisoningu. Audity by mali bežať pravidelne a zahŕňať postupy mazania podľa GDPR čl. 17.
Ktoré reálne incidenty preukazujú Memory Poisoning?
Google Gemini Memory Attack (feb. 2025, Johann Rehberger) demonštroval Delayed Tool Invocation s perzistentnými nepravdivými informáciami. Gemini Calendar Invite Poisoning implantoval cez manipulované pozvánky v kalendári trvalé inštrukcie; 73 percent zo 14 testovaných scenárov bolo vyhodnotených ako High až Critical. Lakera AI v novembri 2025 zdokumentovala správanie typu sleeper agent.
Ktoré compliance požiadavky sa Memory Poisoning týkajú v regióne DACH?
Memory Poisoning sa dotýka GDPR čl. 5(1)(d) (správnosť), čl. 17 (vymazanie) a čl. 32 (technicko-organizačné opatrenia), EU AI Act čl. 10 (governance dát) a čl. 15 (kybernetická bezpečnosť), ako aj ISO/IEC 42001 A.7 (dáta pre AI systémy), A.7.4 (kvalita dát) a A.6.2.8 (logging). Embedding inversion útoky zatiaľ regulačne nie sú samostatne kodifikované (stav 2026).

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.