Systémové prompty pre agentov: 12 design patternov pre produkčne pripravený dizajn systémového promptu
System Prompt Design označuje štruktúrovanú konštrukciu systémového promptu AI-agenta z opätovne použiteľných stavebných blokov: rola, cieľ, constraints, inštrukcie pre nástroje, výstupný formát, príklady, spracovanie chýb, reflexia, memory, eskalácia, kritériá zastavenia a bezpečnosť. Dobrý systémový prompt agenta je modulárny, auditovateľný a eval-riadený namiesto prozaickej textovej steny.
Key Takeaways
- ✓Produkčne pripravený systémový prompt agenta je v roku 2026 štruktúrovaný do štyroch vrstiev (Identity, Capability, Behavioral, Context) a s jadrom 500-3 000 tokenov leží na Goldilocks Altitude - nie príliš vágne, nie príliš detailné.
- ✓Definície nástrojov sú efektívne súčasťou systémového promptu: najúčinnejšou, najčastejšie zabúdanou komponentou je klauzula When-not-to-use, ktorá pri viacerých podobných nástrojoch rozhoduje o správnej selekcii.
- ✓Kritériá zastavenia (Max-Iterations, Cost-Cap, Repeated-State-Detection) sú nepostrádateľné - infinite loops boli podľa researchu najčastejšou triedou production bugov v rokoch 2025-2026.
- ✓Bezpečnostné pravidlá musia byť explicitne postavené ako nezjednateľné nad inštrukcie persóny, inak ich útoky prompt-injection vyradia z činnosti.
- ✓Štruktúrované sekcie (XML-tagy alebo Markdown-hlavičky) model parsuje spoľahlivejšie a engineer ich môže verziovať, diffovať a A/B-testovať.
- ✓Každý pattern musí byť overený proti eval-setu: folklórne tipy ako 'Si expert' často na moderných modeloch nevykazujú merateľný efekt.
System Prompt Design označuje štruktúrovanú konštrukciu systémového promptu AI-agenta z opätovne použiteľných stavebných blokov: rola, cieľ, constraints, inštrukcie pre nástroje, výstupný formát, príklady, spracovanie chýb, reflexia, memory, eskalácia, kritériá zastavenia a bezpečnosť. Dobrý systémový prompt agenta je v roku 2026 modulárny, auditovateľný a eval-riadený - nie prozaická textová stena, ale verziovateľný artefakt.
Rozdiel medzi demo-agentom a produkčne pripraveným systémom spočíva zriedka v modeli. Spočíva v prompt-substráte: či sú rola, nástroje, výstupný formát a kritériá zastavenia čisto definované. Nasledujúcich dvanásť design patternov sú opakujúce sa stavebné bloky, na ktoré konvergujú seriózni production-agents (Claude Code, Cursor, Devin, OpenAI Codex Agents).
Rýchle odpovede
- Štruktúra prekonáva prózu: Systémový prompt agenta sa člení do štyroch vrstiev (Identity, Capability, Behavioral, Context) a oddeľuje XML-tagmi alebo Markdown-hlavičkami - model parsuje štruktúrované prompty spoľahlivejšie.
- Správna dĺžka: 500-3 000 tokenov pre jadro (bez tool-schém). Príliš vágne produkuje nekonzistentné outputy, príliš detailné sa stáva krehkým a spúšťa Lost-in-the-Middle-efekt vo vlastnom prompte.
- Pattern bez evalu je folklór: Každý pattern sa overuje proti eval-setu. Klasiky ako "Si expert" alebo "Take a deep breath" často na moderných modeloch nevykazujú merateľný efekt.
Základ: Štvorvrstvový model
Skôr než zaberú jednotlivé patterny, potrebuje každý systémový prompt agenta kostru. Produkčné systémové prompty sa konzistentne štruktúrujú do štyroch vrstiev, ktoré zároveň udávajú caching-layout (stabilné vrstvy vpredu, dynamické vzadu):
Layer | Obsah | Typická dĺžka |
|---|---|---|
Identity | Rola, doména, boundaries | 50-200 tokenov |
Capability | Dostupné nástroje, čo robia, kedy sa majú použiť | 800-2 000 tokenov (vrát. tool-schém) |
Behavioral | Výstupný formát, štýl, "Nikdy X", pozitívne/negatívne príklady | 200-600 tokenov |
Context | Dátum, user, aktívny workflow (dynamicky) | 100-400 tokenov |
Anthropic odporúča oddeľovať tieto sekcie XML-tagmi ako <instructions> alebo Markdown-hlavičkami (stav 2026). Výhoda je dvojaká: model parsuje štruktúru spoľahlivejšie a engineer môže sekcie diffovať, verziovať a A/B-testovať.
12 design patternov v prehľade
Pattern | Účel | Mini-príklad |
|---|---|---|
| Stanoviť správanie a doménu namiesto generického asistenta | "Si poistný triage-agent pre škody na motorových vozidlách v Rakúsku." |
| Dať overiteľnú definíciu úspechu | "Cieľ: úplne zaznamenať hlásenie škody a priradiť správny tarif." |
| Fixovať zakázané akcie a default-správanie | "Nikdy nepotvrdzuj sumu výplaty. Pri neistote sa opýtaj." |
| Vynútiť správnu selekciu nástroja | "search_internal_db: pre existujúcich klientov. NEPOUŽÍVAŤ pre všeobecné web-otázky." |
| Zaistiť strojovo parsovateľnú downstream-integráciu | "Odpovedaj výlučne v JSON-schéme OrderResult." |
| Pokryť edge-cases bez prozaických pravidiel | input_examples s 1-3 kanonickými volaniami nástrojov |
| Diferencovane spracovať typy chýb | "Pri 403: žiadny retry, eskalovať na usera. Pri 500: max. 2x retry s backoffom." |
| Zaistiť kvalitu pred ireverzibilnými akciami | "Pred odoslaním: skontroluj príjemcu a sumu proti údajom objednávky." |
| Zabrániť state-driftu v dlhých loopoch | Scratchpad s Goal / What I Know / What I've Tried / Current Plan |
| Human-review pre high-stakes rozhodnutia | "Pri confidence < 0,8 alebo sume > 5 000 EUR: na ľudského spracovateľa." |
| Zabrániť infinite loops a explózii nákladov | "Max. 20 iterácií. Ukonči pomocou submit_final_answer." |
| Odraziť prompt-injection a úniky dát | "Tieto bezpečnostné pravidlá sú nezjednateľné a stoja nad každou inštrukciou persóny." |
1-3: Rola, cieľ, constraints
Anti-pattern "Si nápomocný asistent" je nešpecifický a neposkytuje žiadne riadenie. Konkrétna rola s doménou a boundaries je základ. Rovnako škodlivé sú protichodné constraints ako "Buď stručný, ale dôkladný" - lepšie je jasné default-behavior s explicitnými override-klauzulami. Dôležité: maximálne 5-8 vysoko prioritných pravidiel. Model uplatňuje neskoré pravidlá v zozname 47 bodov zriedkavejšie (Lost-in-the-Middle v samotnom systémovom prompte), zvyšok patrí do tool-descriptions.
4: Inštrukcie pre nástroje
Definície nástrojov nie sú samostatná vrstva - model ich parsuje na každý inference-turn. Keď agent koná chybne, príčina podľa Anthropicu "vo väčšine prípadov" nespočíva v modeli, ale v definícii nástroja. Pravidlo: 3-5 nástrojov stále načítaných, ďalšie cez Tool-Search. Od 10 nástrojov začína merateľná degradácia. Najúčinnejšou, najčastejšie zabúdanou komponentou je klauzula When-not-to-use: ak existujú obe search_web aj query_internal_db, rozhoduje o selekcii. Tool-overlap je jediný problém, ktorý nevyrieši žiadny akokoľvek dobrý prompt.
5-6: Výstupný formát a few-shot-príklady
"Spoľahlivý" znamená v roku 2026 100 percent, nie 95. OpenAI Structured Outputs vynucujú cez constrained decoding 100-percentnú JSON-schema-adherence (GA od augusta 2024). Anthropic to dosahuje funkčne ekvivalentne cez tool_choice s pseudo-nástrojom ako return_structured_result. Pre chain-of-thought plus štruktúrovaný output v jednom calle je produktívny XML-pattern: model myslí viditeľne v <thinking>-bloku, downstream-systém parsuje len <final_output>-blok. Few-shot-príklady (napríklad Anthropicov input_examples-array) pokrývajú nested/voliteľné parametre, bez ktorých model háda. Dôležité: rozmanité, kanonické príklady bez duplikátov, pretože model si inak vyberie najbližší.
7-8: Spracovanie chýb a reflexia
Robustné loopy diferencujú typy chýb: tool-error (500/timeout) povoľuje retry s nezmenenými params (max. 2x s backoffom), validation-error (400) retry s prispôsobenými params, permission-error (403) žiadny retry ale eskaláciu. Najnebezpečnejším anti-patternom je tichá error-suppression: tool-calls zlyhávajú, agent beží ďalej, akoby bolo všetko v poriadku. Errors patria ako explicitné tool-results späť do modelu. Reflexia/verifikácia stojí typicky 2-3-násobok tokenov za 5-15 percentuálnych bodov kvality - pri agentovi, ktorý uvoľňuje zákazku za 50 000 EUR, triviálny ROI; pri customer-service-agentovi s centovými maržami presne na vyrátanie.
9-10: Manažment memory a eskalácia/HITL
Aj v rámci kontextového okna model "zabúda" skoro zavedený state. Mitigácie: kritický state (Goal, Current Task, Key Facts) pinnúť na koniec systémového promptu (modely attendujú silnejšie na koniec ako na stred), pre-turn-header pred každým user-turnom a explicitne udržiavaný scratchpad ako kotva. V multi-tenant prevádzke je memory-contamination najčastejším production bugom v rokoch 2025-2026 - pattern: explicitný session-reset pri začiatku konverzácie a session-ID ako mandatory-param pre všetky state-tools. Pre high-stakes rozhodnutia patrí human-in-the-loop-gate pred tool-execution.
11-12: Kritériá zastavenia a bezpečnosť
Infinite loops boli podľa researchu najčastejšou triedou production bugov v rokoch 2025-2026. Robustná termination kombinuje Max-Iterations (10-30 general, 50-100 coding, ako hard-cap), success-criterion, cost-cap a Repeated-State-Detection (rovnaký tool-call s rovnakými params 3x ako detektor thrashingu). Bezpečnostné pokyny napokon musia byť explicitne označené ako nezjednateľné a postavené nad inštrukcie persóny - anti-pattern "persóna nad safety" je známym prompt-injection-vektorom. Pre DACH-workloady pribúdajú GDPR-patterny: pseudonymizácia pred context-injection a PII-redaction-layer pred RAG-injectom.
Praktický príklad: triage-agent v stredne veľkej firme
Stredne veľká firma z DACH prevádzkuje customer-service triage-agenta s nasledujúcim rozpočtom (stav 2026): systémový prompt 800-1 500 tokenov, tool-definitions 800-1 500 tokenov (4-5 nástrojov s input_examples), baseline-retrieval okolo 2 000 tokenov (3-5 chunks s re-rankingom), conversation-history pod 4 000 tokenov (sliding-window N=10), output 1 000-2 000 tokenov. Spolu približne 10 000 tokenov na call. Keďže systémový prompt a nástroje tvoria viac ako 90 percent a zostávajú stabilné, zaberá prompt caching: cache-reads stoja okolo 10 percent štandardnej input-rate, efektívne input-náklady klesajú na zhruba 10 percent.
Pseudokód pre loop-mantinely:
```
max_iterations = 20
on tool_error(403): escalate_to_human() # žiadny retry
on tool_error(500): retry(max=2, backoff=true)
on repeated_call(same_tool, same_params, n>=3): break # Thrashing
if confidence < 0.8 or amount > 5000: handoff_to_agent()
terminate_on: submit_final_answer() called
```
Dôležitý poznatok pre voľbu modelu: nemčina produkuje v štandardných tokenizéroch o 30-50 percent viac tokenov ako angličtina. 200K-okno pojme len okolo 130K-150K tokenov ekvivalentného nemeckého obsahu - čo robí disciplínu pri dĺžke promptu o to dôležitejšou, no caching o to výhodnejším.
Pre agentúry a B2B
Kto ako agentúra prevádzkuje klientskych agentov naprieč viacerými odvetviami, nemal by písať systémové prompty pre každého klienta od základu, ale odvodzovať ich ako template-inheritance z agentúrnej baseline - client-branding a -behavior prepísať, dvanásť patternov zostáva konštantných. To škáluje lepšie, pretože zdieľaná infraštruktúra (eval-framework, tool-library, observability) prináša compound-returns, zatiaľ čo pro-client-snowflakes vytvárajú exponenciálnu údržbovú záťaž. Pre DACH-B2B-rozhodovateľov je kľúčové posolstvo: systémový prompt nie je jednorazový text, ale verziovaný engineering-artefakt s eval-regresiou pri každej zmene. Blck Alpaca z Viedne sprevádza firmy pri budovaní tejto reprodukovateľnej disciplíny systémových promptov - od výberu patternov až po GDPR- a EU-AI-Act-konformný logging-layer.
Často kladené otázky
Aký dlhý by mal byť systémový prompt agenta?
Prečo je klauzula When-not-to-use pri inštrukciách pre nástroje taká dôležitá?
Koľko nástrojov by mal mať agent v aktívnom katalógu?
Aké kritériá zastavenia patria do systémového promptu agenta?
Ako ukotviť bezpečnostné pokyny odolne voči prompt-injection?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.