Pillar 10

Prompt Engineering pre AI Agentov

Prompt engineering pre agentov: techniky pre systémové prompty, tool-use a spoľahlivé správanie autonómnych AI Agentov.

Pre: Vývojári, prompt inžinieri, automatizačné tímy

Definition

Prompt Engineering pre agentov je inžinierska disciplína, ktorej cieľom je navrhnúť celé kontextové okno AI Agenta naprieč viacerými inference turn-mi tak, aby System-Prompt, popisy Toolov, načítané dáta a história spoľahlivo vytvárali požadované správanie. Presahuje rámec napísania jediného Promptu a zahŕňa architektúru System-Promptu, dizajn Toolov, plánovacie loopy ako ReAct, manažment kontextového okna a iteráciu riadenú Evalmi. Od roku 2025 sa toto rozšírené chápanie bežne v odvetví označuje ako Context Engineering, ktorý Prompt Engineering subsumuje, ale nenahrádza.

Na prvý pohľad

✓Prompt Engineering pre agentov sa zmenil z jediného inštrukčného stringu na architektúrovanie celého kontextového okna naprieč viacerými turn-mi; podľa practitioner reportov (Anthropic, Cognition 2026) táto Context-Engineering disciplína rozhoduje približne zo 60 až 80 percent o tom, či agent v produkcii beží spoľahlivo.
✓Popisy Toolov sú súčasťou Prompt-budgetu a najčastejším zdrojom chýb: s Anthropic tool_search a defer_loading vzrástla Tool-Selection-Accuracy na Opus 4 zo 49 na 74 percent, na Opus 4.5 zo 79,5 na 88,1 percenta (Anthropic, november 2025); produkčný pattern znie 3 až 7 vždy načítaných Toolov plus dynamická discovery.
✓Reasoning modely otáčajú klasickú Prompt-prax: OpenAI pre o-sériu explicitne odrádza od Chain-of-Thought promptov; zadáva sa cieľ, constraints a output contract bez preskribovania každého medzikroku (OpenAI Reasoning Best Practices, GPT-5-Prompt-Guidance 2026).
✓ReAct (Yao et al. 2022, Reason-Act-Observe) zostáva default loopom pre Tool-Use; na reasoning modeloch ho čoraz viac nahrádza Interleaved Thinking, ktoré kolabuje viacero klasických ReAct iterácií do jediného API callu.
✓Efektívna kontextová kapacita neškáluje lineárne s nominálnou: Chroma štúdia Context Rot (júl 2025, 18 frontier modelov) ukazuje degradáciu s rastúcou dĺžkou; ako heuristika leží využiteľná kapacita na 30 až 50 percentách pri reasoning-náročných a na 60 až 80 percentách pri retrieval-náročných taskoch.
✓Prompt Caching je dominantná nákladová páka: Anthropic cache reads stoja približne 10 percent štandardnej input rate (asi 90 percent discount), OpenAI ponúka približne 50 percent; arXiv štúdia (február 2026) meria o 41 až 80 percent nižšie API náklady a o 13 až 31 percent kratší Time-to-First-Token vďaka strategickému Cache-Control.
✓Structured-Output-Enforcement dosahuje v roku 2026 produktívne 100 percent schema adherence (OpenAI Structured Outputs od augusta 2024, Anthropic Tool-Use s JSON-Schema) a nahrádza skoršie „parsuj JSON a dúfaj“.
✓Iterácia riadená Evalmi je nevyjednateľná: zmeny System-Promptu, Toolov alebo Retrievalu sa validujú voči Eval-setu, nie intuitívne; mnohé populárne Prompt-tipy nevykazujú v rigoróznych Evaloch žiadny merateľný efekt (Husain/Shankar, „Look at your data“).
✓Pre DACH-priestor platia tri tvrdé constraints: nemecká tokenizácia spôsobuje o 30 až 50 percent vyššie Token-náklady (a zodpovedajúco vyšší Caching-ROI), GDPR vyžaduje PII-disciplínu v kontextovom okne a EU-AI-Act-logging podľa čl. 12 sa pre vysokorizikové systémy stane plne aplikovateľným od 2. augusta 2026 (informačné, nie právne poradenstvo).

Čo je Prompt Engineering pre agentov?

Prompt Engineering pre agentov označuje inžiniersku disciplínu, pomocou ktorej AI Agent naprieč viacerými inference turn-mi konzistentne vykazuje požadované správanie. Zatiaľ čo klasický Prompt Engineering (2022–2023) znamenal napísanie jediného, chytrého inštrukčného stringu, pri agentovi už kontextové okno nie je statickým textom, ale dynamicky komponovaným stavom systému: System-Prompt, definície Toolov, výsledky Toolov, priebeh konverzácie, načítané RAG-chunky, scratchpad-poznámky a štruktúrovaný state.

Andrej Karpathy opísal tento posun 25. júna 2025 ako „the delicate art and science of filling the context window with just the right information for the next step“, deň po tom, čo Shopify-CEO Tobi Lütke zaviedol ten istý pojem. Anthropic ho 29. septembra 2025 formalizoval v „Effective context engineering for AI agents“ ako „prirodzený ďalší vývoj Prompt Engineeringu“. Dôležité pre zaradenie: Context Engineering Prompt Engineering subsumuje, nenahrádza ho. Dobrý System-Prompt zostáva nutnou podmienkou; len už nie je postačujúci.

Táto hub-stránka poskytuje prehľad piatich centrálnych stavebných blokov: System-Prompty, popisy Toolov, plánovacie loopy (ReAct), manažment kontextového okna a evaluáciu.

Architektúra System-Promptu

System-Prompt je jediný kus kontextu, ktorý agent vidí v každom turne, je to kód: verziovaný, reviewovateľný, diffovateľný. Produkčné System-Prompty sa v roku 2026 konzistentne štruktúrujú do štyroch vrstiev:

Layer	Obsah	Typická dĺžka
Identity	Rola, doména, boundaries („Si X, zodpovedný za Y“)	50–200 Tokenov
Capability	Dostupné Tooly, čo robia, kedy ich použiť	800–2.000 Tokenov (vrát. Tool-Schém)
Behavioral	Output-formát, štýl, „Nikdy X“, príklady	200–600 Tokenov
Context	Dynamicky: dnešný dátum, aktuálny User, Workflow	100–400 Tokenov

Anthropic odporúča oddeliť tieto sekcie cez XML-tagy alebo Markdown-headre, model parsuje štruktúrované Prompty spoľahlivejšie. Správnu dĺžku nazýva Anthropic „the right altitude“: practitioner reporty konvergujú na 500–3.000 Tokenov pre jadro (bez Tool-Schém). Oba extrémy škodia: príliš dlhé Prompty so 47 očíslovanými pravidlami vedú k tomu, že model neskoré pravidlá aplikuje zriedkavejšie (Lost-in-the-Middle vo vlastnom System-Prompte); príliš vágne Prompty („Si nápomocný asistent“) prenechávajú príliš veľa inferencii modelu.

Centrálny posun sa týka absolútnych pravidiel: OpenAI GPT-5-Guidance (2026) explicitne varuje, aby sa ALWAYS/NEVER používalo len pre skutočné invarianty, „for judgment calls, such as when to search, ask for clarification, use a tool, or keep iterating, prefer decision rules instead“. Pre DACH-tímy platí navyše: jazyk odpovede vždy nastaviť explicitne (frontier modely inak defaultujú na angličtinu pri technickom obsahu) a formu zdvorilosti (vykanie/tykanie) explicitne pinnúť, aby sa predišlo Style-Driftu v loope.

Popisy Toolov: kde agenti skutočne zlyhávajú

Keď produkčný agent koná chybne, leží príčina podľa vlastnej inžinierskej skúsenosti Anthropic „vo väčšine prípadov“ nie pri modeli, ale pri definícii Toolu. Vodiaca otázka znie: „If a human engineer can't definitively say which tool should be used in a given situation, an AI agent can't be expected to do better.“

Rozhodujúce je, že popisy Toolov sú súčasťou Prompt-budgetu. Každý Tool pridáva 100–300 Tokenov „always-on“; katalóg 10 Toolov stojí 1.000–3.000 Tokenov na call. Najúčinnejším, najčastejšie zabúdaným komponentom je When-not-to-use-klauzula: ak existujú search_web a query_internal_db paralelne, rozhoduje táto klauzula o selekcii Toolu. Tool-Overlap, dva Tooly, ktoré plauzibilne odpovedajú na tú istú query, je jediný problém, ktorý nevyrieši ani akokoľvek dobrý Prompt.

Empirická evidencia je jasná. S Anthropic tool_search-Toolom a defer_loading: true pre zriedkavo používané Tooly vzrástla Tool-Selection-Accuracy v interných MCP-Evaloch na Opus 4 zo 49 % na 74 %, na Opus 4.5 zo 79,5 % na 88,1 % (Anthropic, november 2025), pri približne 85 % úspore Tokenov. Od približne 10 aktívnych Toolov začína merateľná degradácia. Produkčný pattern preto znie 3–7 always-loaded Toolov plus Tool-Search pre zvyšok.

Ďalšie spoľahlivé konvencie: Verb-Noun-názvy (get_user, send_email), Field-Level-Descriptions so sémantikou, dokumentované Return-formáty a Failure-Modes, search-fokusované namiesto list-all-Toolov, ako aj tvrdé Response-Token-limity (Anthropic-orientačná hodnota ~25.000 Tokenov na Tool-Return). DACH-prax: Tool-názvy a parametre anglicky (interoperabilita), Descriptions v runtime-jazyku agenta.

Plánovacie loopy: ReAct a jeho nástupcovia

Plánovanie je štruktúra rozhodovacej slučky agenta. Štyri patterny dominujú v roku 2026, s jasnými trade-offmi:

Pattern	Idea	Production-Use 2026
ReAct (Yao et al. 2022)	Reason → Act → Observe → …	Štandardný default pre Tool-Use-agentov
Plan-and-Execute	Najprv generovať plán, potom vykonať	Multi-Step-Workflowy, nízka latencia
Reflexion (Shinn et al. 2023)	Generovať → kritizovať → revidovať	Quality-sensitive tasky (2–3× Token-náklady)
Tree of Thoughts (Yao et al. 2023)	Viacero branchov paralelne, merge	Hard-Reasoning, veľmi drahé, zriedka štandard

ReAct prekladá reasoning a konanie (Thought → Action → Observation) a je robustný default pre non-reasoning modely. Pri reasoning modeloch sa obraz posúva: Interleaved Thinking (Anthropic Claude s Extended Thinking, OpenAI o-séria/GPT-5) necháva model preplánovať medzi Tool-Callmi a kolabuje tým mnohé klasické „ReAct-in-a-Loop“ implementácie do jediného API callu. V praxi produkčné agenti využívajú hybridy: ReAct-slučku s explicitným Planning-Stepom na začiatku a verifikáciou pred ireverzibilnými akciami.

Disciplinovaná terminácia je najdôležitejšia poistka, infinite loopy boli najčastejšou triedou produkčných bugov 2025–2026. Robustné loopy kombinujú Max-Iterations (Hard-Cap, typicky 10–30 general, 50–100 pre Coding), Success-Criterion (napr. submit_final_answer-Tool), Cost-Caps, Repeated-State-Detection proti Tool-Thrashingu a Human-Escalation-cestu.

Manažment kontextového okna

Dlhé kontextové okná sú v roku 2026 dostupné (Claude Opus 1M, Gemini 2M Tokenov), ale nie sú uniformne využiteľné. Chroma štúdia „Context Rot“ (júl 2025, 18 frontier modelov) dokladá: všetky modely degradujú s rastúcou dĺžkou inputu. Tri mechanizmy sa zosilňujú: Lost-in-the-Middle (Liu et al., Stanford/TACL 2024, modely attendujú na začiatok a koniec, slabo v strede), Attention-Dilution a Distractor-Interference. Ako heuristika leží efektívna kapacita na 30–50 % nominálnej pri reasoning-heavy a 60–80 % pri retrieval-heavy taskoch, kto kompletne naplní 1M-Window, prevádzkuje plytvanie s Quality-Penalty.

Lance Martin (LangChain) k tomu zaviedol kanonickú Four-Pillar-taxonómiu, ktorú prevzali Anthropic a Manus:

Write, perzistovať informácie mimo okna (scratchpady, todo.md, Memory-Store)
Select, načítať správne Tokeny na step (RAG, Tool-Filtering, Sub-Agent-Dispatch)
Compress, ponechať len task-relevantné Tokeny (sumarizácia, Anthropic Context-Editing)
Isolate, rozdeliť kontext cez Sub-Agentov a Schema-Polia

Tri páky dominujú ekonomike. Prompt Caching je najdôležitejšia: Anthropic cache reads stoja približne 10 % štandardnej input rate (≈90 % discount), OpenAI ponúka približne 50 %. arXiv štúdia (február 2026, „Don't Break the Cache“) meria naprieč agentic-workloadmi o 41–80 % nižšie API-náklady a o 13–31 % kratší Time-to-First-Token vďaka strategickému Cache-Block-Control. Pruning odstraňuje staré turny a stale Tool-Results. Compaction komprimuje pri 70–85 % kapacity, v Claude Code cez /compact, ktorý podľa Anthropic zachováva „architectural decisions, unresolved bugs, and implementation details“ a zahadzuje redundantné Tool-Outputy. Sub-Agent-Dispatch pôsobí ako Compaction-primitív: Sub-Agent exploruje vo vlastnom okne a vracia len 1.000–2.000-Token-zhrnutie.

Evaluácia: ak nemeriaš, neurobil si nič

Najbrutálnejšie poznanie pre Tech Leads znie: Context-Engineering-zmeny sa validujú cez Evaly, nie intuíciou. Najcitovanejšia rada Hamela Husaina, „Look at your data“, znamená konkrétne: prečítať 50–100 reálnych produkčných tracov, voľne olabelovať failures, naklastrovať ich do taxonómie, na každý častý modus napísať Code-Eval alebo LLM-as-Judge-Eval a tieto integrovať do CI/Monitoringu.

Husain pritom varuje pred čistým Eval-first-Developmentom: „Write evaluators for errors you discover, not errors you imagine.“ Praktická stredná cesta štartuje malým End-to-End-Evalom (10–50 reprezentatívnych taskov), iteruje a buduje špecifické Sub-Evaly pre reálne Failure-Modes. Triezviace, empiricky doložené poznanie: mnohé populárne Prompt-tipy („Si expert“, „Think step by step“, „I'll tip you $200“) vykazujú v rigoróznych Evaloch minimálne alebo žiadne zlepšenie, na reasoning modeloch je „think step by step“ už default-správanie a manuálne často kontraproduktívne.

Produkčná zrelosť znamená: Evaly bežia automaticky pri každej zmene Kontextu, Toolov alebo Retrievalu, PR-Eval (20–50 taskov) blokuje merge, Pre-Deploy-Eval (200–2.000 taskov) blokuje deploy, Post-Deploy-Eval na produkčných tracoch prevádzkuje Drift-Detection. Structured-Output-Enforcement uzatvára kruh: OpenAI Structured Outputs (GA od augusta 2024) a Anthropic Tool-Use s JSON-Schema dodávajú 100 % schema adherence a nahrádzajú skoršie „parsuj JSON a dúfaj“.

DACH-súvis a Compliance

Pre DACH-tímy (Nemecko, Rakúsko, Švajčiarsko) pribúdajú tri tvrdé inžinierske constraints. Po prvé nemecká tokenizácia: Compound-Nouns a flexia generujú o 30–50 % viac Tokenov na ekvivalentný obsah ako angličtina. 200K-Window tak pojme len ~130–150K Tokenov nemeckého obsahu, vyššie náklady, ale aj vyšší Caching-ROI, pretože 90 %-discount sa premieta na väčší počet Tokenov.

Po druhé GDPR-disciplína v kontextovom okne: osobné údaje doň nepatria nefiltrované. Patterny sú pseudonymizácia pred Context-Injection (jasné mená rozriešiť až v Tool-Layeri), PII-Redaction-Layer pred RAG-Injectom a auditovateľný Session-State-Reset. Po tretie EU-AI-Act-logging podľa čl. 12, ktorý sa pre vysokorizikové systémy stane plne aplikovateľným od 2. augusta 2026 (provizórna, resp. stupňovitá aplikovateľnosť, toto zaradenie je informačné a nie právne poradenstvo). Z inžinierskeho hľadiska to znamená: verzia System-Promptu, verzia Tool-Catalogu, retrieved dokumenty (alebo ID + Hashe), User-Input, Tool-Calls, Tool-Results a finálny Output musia byť perzistované audit-schopne a zároveň GDPR-zmazateľne, odporúčané na každý Tool-Call s Run-Correlation-ID.

Výhľad a praktická poznámka

Prompt Engineering pre agentov nie je v roku 2026 folklór ani len premenovanie, ale odpoveď na posun od One-Shot-Callov k viacstupňovým agentic loopom. Kto buduje produkčného agenta, túto disciplínu prevádzkuje, otázkou je len, či vedome a reprodukovateľne, alebo nevedome a krehko. Viacero polí zostáva v pohybe a malo by sa čítať ako „aktuálny snapshot“: konvencie reasoning modelov, heuristika Multi-Agent-vs.-Single-Agent (read-heavy paralelne funguje, write-heavy nie), ako aj Prompt-optimalizačné frameworky ako DSPy, ktoré sa hodia pre úzko vymedzené Sub-Tasky, ale pre kompletné Agent-Loopy ešte netvoria produkčný štandard.

Praktický vstup je nedramatický a dobre zdokumentovaný: System-Prompt vytiahnuť z vendor-playgroundu a verziovať v Gite, Schema-Validation na každý output, Prompt Caching aktivovať na stabilné časti, nastaviť tvrdé Cost-Caps a týždenne čítať 20 reálnych tracov. Vodiaca veta Anthropic zhŕňa celý cieľ presnejšie než akákoľvek tooling-diskusia: „Find the smallest set of high-signal tokens that maximize the likelihood of your desired outcome.“ To je engineering, a potom: look at your data.

Všetky články v tejto téme

6 Články

3.12

Systémové prompty pre agentov: 12 design patternov pre produkčne pripravený dizajn systémového promptu

System Prompt Design označuje štruktúrovanú konštrukciu systémového promptu AI-agenta z opätovne použiteľných stavebných blokov: rola, cieľ, constraints, inštrukcie pre nástroje, výstupný formát, príklady, spracovanie chýb, reflexia, memory, eskalácia, kritériá zastavenia a bezpečnosť. Dobrý systémový prompt agenta je modulárny, auditovateľný a eval-riadený namiesto prozaickej textovej steny.

Pokročilý·7 min

3.13

Few-Shot Prompting pre robustné výstupy agentov

Few-Shot Prompting označuje techniku, pri ktorej AI agentovi v prompte poskytnete niekoľko málo príkladov (typicky 2 až 5) správnych vstupov a výstupov, aby si formát, štýl a logiku úlohy osvojil prostredníctvom In-Context Learning bez dotrénovania modelu. Tým sa výstupný formát a tool-calls stávajú výrazne spoľahlivejšími.

Pokročilý·8 min

3.14

Verziovanie prompt-šablón: Git-workflow pre prompty

Verziovanie promptov znamená zaobchádzať s prompt-šablónami ako s kódom: parametrizované, oddelené od aplikačnej logiky, verziované v Gite, kontrolované cez review, testované evalmi proti regresii a v prípade potreby vratné rollbackom. Zmeny promptov sú tak dohľadateľné, reprodukovateľné a auditovateľné namiesto náhodne roztrúsené v kóde.

Pokročilý·7 min

3.15

Meta-prompting: Keď si agenti píšu vlastné prompty

Meta-prompting označuje techniky, pri ktorých LLM generuje, hodnotí alebo zlepšuje vlastné prompty namiesto ich manuálnej formulácie. Namiesto pokusov a omylov optimalizuje eval-riadený proces inštrukcie, príklady a výstupné formáty programaticky voči testovacej sade. Frameworky ako DSPy to automatizujú tým, že s promptmi zaobchádzajú ako s kompilovateľným kódom.

Expert·7 min

3.16

Prompt Evaluation: Promptfoo, LangSmith, Langfuse v porovnaní (stav 2026)

Prompt Evaluation je systematické, merateľné testovanie promptov a výstupov LLM oproti fixnej eval-sade. Metódy sú pravidlové assertions, LLM-as-Judge, regresné testy a Human-Eval. Nástroje ako Promptfoo, LangSmith, Langfuse a DeepEval automatizujú hodnotenie a začleňujú ho do CI/CD pipeline, takže zmeny promptov sa validujú dátovo namiesto intuície.

Expert·7 min

3.17

Obrana proti prompt injection: 9 techník pre produkčných agentov

Obrana proti prompt injection označuje viacvrstvové zabezpečenie AI agentov proti manipulovaným vstupom, ktoré podsúvajú inštrukcie. Keďže jazykové modely nedokážu spoľahlivo oddeliť pokyn a dáta, účinná obrana kombinuje oddelenie inštrukcií a dát, least-privilege nástroje, output filtre, human-in-the-loop a monitoring, namiesto spoliehania sa na jediný guardrail.

Expert·7 min