Preskočiť na obsah
3.12Pokročilý7 min

Systémové prompty pre agentov: 12 design patternov pre produkčne pripravený dizajn systémového promptu

Blck Alpaca·
Definition

System Prompt Design označuje štruktúrovanú konštrukciu systémového promptu AI-agenta z opätovne použiteľných stavebných blokov: rola, cieľ, constraints, inštrukcie pre nástroje, výstupný formát, príklady, spracovanie chýb, reflexia, memory, eskalácia, kritériá zastavenia a bezpečnosť. Dobrý systémový prompt agenta je modulárny, auditovateľný a eval-riadený namiesto prozaickej textovej steny.

Key Takeaways

  • Produkčne pripravený systémový prompt agenta je v roku 2026 štruktúrovaný do štyroch vrstiev (Identity, Capability, Behavioral, Context) a s jadrom 500-3 000 tokenov leží na Goldilocks Altitude - nie príliš vágne, nie príliš detailné.
  • Definície nástrojov sú efektívne súčasťou systémového promptu: najúčinnejšou, najčastejšie zabúdanou komponentou je klauzula When-not-to-use, ktorá pri viacerých podobných nástrojoch rozhoduje o správnej selekcii.
  • Kritériá zastavenia (Max-Iterations, Cost-Cap, Repeated-State-Detection) sú nepostrádateľné - infinite loops boli podľa researchu najčastejšou triedou production bugov v rokoch 2025-2026.
  • Bezpečnostné pravidlá musia byť explicitne postavené ako nezjednateľné nad inštrukcie persóny, inak ich útoky prompt-injection vyradia z činnosti.
  • Štruktúrované sekcie (XML-tagy alebo Markdown-hlavičky) model parsuje spoľahlivejšie a engineer ich môže verziovať, diffovať a A/B-testovať.
  • Každý pattern musí byť overený proti eval-setu: folklórne tipy ako 'Si expert' často na moderných modeloch nevykazujú merateľný efekt.

System Prompt Design označuje štruktúrovanú konštrukciu systémového promptu AI-agenta z opätovne použiteľných stavebných blokov: rola, cieľ, constraints, inštrukcie pre nástroje, výstupný formát, príklady, spracovanie chýb, reflexia, memory, eskalácia, kritériá zastavenia a bezpečnosť. Dobrý systémový prompt agenta je v roku 2026 modulárny, auditovateľný a eval-riadený - nie prozaická textová stena, ale verziovateľný artefakt.

Rozdiel medzi demo-agentom a produkčne pripraveným systémom spočíva zriedka v modeli. Spočíva v prompt-substráte: či sú rola, nástroje, výstupný formát a kritériá zastavenia čisto definované. Nasledujúcich dvanásť design patternov sú opakujúce sa stavebné bloky, na ktoré konvergujú seriózni production-agents (Claude Code, Cursor, Devin, OpenAI Codex Agents).

Rýchle odpovede

  • Štruktúra prekonáva prózu: Systémový prompt agenta sa člení do štyroch vrstiev (Identity, Capability, Behavioral, Context) a oddeľuje XML-tagmi alebo Markdown-hlavičkami - model parsuje štruktúrované prompty spoľahlivejšie.
  • Správna dĺžka: 500-3 000 tokenov pre jadro (bez tool-schém). Príliš vágne produkuje nekonzistentné outputy, príliš detailné sa stáva krehkým a spúšťa Lost-in-the-Middle-efekt vo vlastnom prompte.
  • Pattern bez evalu je folklór: Každý pattern sa overuje proti eval-setu. Klasiky ako "Si expert" alebo "Take a deep breath" často na moderných modeloch nevykazujú merateľný efekt.

Základ: Štvorvrstvový model

Skôr než zaberú jednotlivé patterny, potrebuje každý systémový prompt agenta kostru. Produkčné systémové prompty sa konzistentne štruktúrujú do štyroch vrstiev, ktoré zároveň udávajú caching-layout (stabilné vrstvy vpredu, dynamické vzadu):

Layer

Obsah

Typická dĺžka

Identity

Rola, doména, boundaries

50-200 tokenov

Capability

Dostupné nástroje, čo robia, kedy sa majú použiť

800-2 000 tokenov (vrát. tool-schém)

Behavioral

Výstupný formát, štýl, "Nikdy X", pozitívne/negatívne príklady

200-600 tokenov

Context

Dátum, user, aktívny workflow (dynamicky)

100-400 tokenov

Anthropic odporúča oddeľovať tieto sekcie XML-tagmi ako <instructions> alebo Markdown-hlavičkami (stav 2026). Výhoda je dvojaká: model parsuje štruktúru spoľahlivejšie a engineer môže sekcie diffovať, verziovať a A/B-testovať.

12 design patternov v prehľade

Pattern

Účel

Mini-príklad

  1. Rola/persóna

Stanoviť správanie a doménu namiesto generického asistenta

"Si poistný triage-agent pre škody na motorových vozidlách v Rakúsku."

  1. Jasný cieľ

Dať overiteľnú definíciu úspechu

"Cieľ: úplne zaznamenať hlásenie škody a priradiť správny tarif."

  1. Constraints/mantinely

Fixovať zakázané akcie a default-správanie

"Nikdy nepotvrdzuj sumu výplaty. Pri neistote sa opýtaj."

  1. Inštrukcie pre nástroje

Vynútiť správnu selekciu nástroja

"search_internal_db: pre existujúcich klientov. NEPOUŽÍVAŤ pre všeobecné web-otázky."

  1. Výstupný formát

Zaistiť strojovo parsovateľnú downstream-integráciu

"Odpovedaj výlučne v JSON-schéme OrderResult."

  1. Few-shot-príklady

Pokryť edge-cases bez prozaických pravidiel

input_examples s 1-3 kanonickými volaniami nástrojov

  1. Spracovanie chýb

Diferencovane spracovať typy chýb

"Pri 403: žiadny retry, eskalovať na usera. Pri 500: max. 2x retry s backoffom."

  1. Reflexia

Zaistiť kvalitu pred ireverzibilnými akciami

"Pred odoslaním: skontroluj príjemcu a sumu proti údajom objednávky."

  1. Manažment kontextu/memory

Zabrániť state-driftu v dlhých loopoch

Scratchpad s Goal / What I Know / What I've Tried / Current Plan

  1. Eskalácia/HITL

Human-review pre high-stakes rozhodnutia

"Pri confidence < 0,8 alebo sume > 5 000 EUR: na ľudského spracovateľa."

  1. Kritériá zastavenia

Zabrániť infinite loops a explózii nákladov

"Max. 20 iterácií. Ukonči pomocou submit_final_answer."

  1. Bezpečnostné pokyny

Odraziť prompt-injection a úniky dát

"Tieto bezpečnostné pravidlá sú nezjednateľné a stoja nad každou inštrukciou persóny."

1-3: Rola, cieľ, constraints

Anti-pattern "Si nápomocný asistent" je nešpecifický a neposkytuje žiadne riadenie. Konkrétna rola s doménou a boundaries je základ. Rovnako škodlivé sú protichodné constraints ako "Buď stručný, ale dôkladný" - lepšie je jasné default-behavior s explicitnými override-klauzulami. Dôležité: maximálne 5-8 vysoko prioritných pravidiel. Model uplatňuje neskoré pravidlá v zozname 47 bodov zriedkavejšie (Lost-in-the-Middle v samotnom systémovom prompte), zvyšok patrí do tool-descriptions.

4: Inštrukcie pre nástroje

Definície nástrojov nie sú samostatná vrstva - model ich parsuje na každý inference-turn. Keď agent koná chybne, príčina podľa Anthropicu "vo väčšine prípadov" nespočíva v modeli, ale v definícii nástroja. Pravidlo: 3-5 nástrojov stále načítaných, ďalšie cez Tool-Search. Od 10 nástrojov začína merateľná degradácia. Najúčinnejšou, najčastejšie zabúdanou komponentou je klauzula When-not-to-use: ak existujú obe search_web aj query_internal_db, rozhoduje o selekcii. Tool-overlap je jediný problém, ktorý nevyrieši žiadny akokoľvek dobrý prompt.

5-6: Výstupný formát a few-shot-príklady

"Spoľahlivý" znamená v roku 2026 100 percent, nie 95. OpenAI Structured Outputs vynucujú cez constrained decoding 100-percentnú JSON-schema-adherence (GA od augusta 2024). Anthropic to dosahuje funkčne ekvivalentne cez tool_choice s pseudo-nástrojom ako return_structured_result. Pre chain-of-thought plus štruktúrovaný output v jednom calle je produktívny XML-pattern: model myslí viditeľne v <thinking>-bloku, downstream-systém parsuje len <final_output>-blok. Few-shot-príklady (napríklad Anthropicov input_examples-array) pokrývajú nested/voliteľné parametre, bez ktorých model háda. Dôležité: rozmanité, kanonické príklady bez duplikátov, pretože model si inak vyberie najbližší.

7-8: Spracovanie chýb a reflexia

Robustné loopy diferencujú typy chýb: tool-error (500/timeout) povoľuje retry s nezmenenými params (max. 2x s backoffom), validation-error (400) retry s prispôsobenými params, permission-error (403) žiadny retry ale eskaláciu. Najnebezpečnejším anti-patternom je tichá error-suppression: tool-calls zlyhávajú, agent beží ďalej, akoby bolo všetko v poriadku. Errors patria ako explicitné tool-results späť do modelu. Reflexia/verifikácia stojí typicky 2-3-násobok tokenov za 5-15 percentuálnych bodov kvality - pri agentovi, ktorý uvoľňuje zákazku za 50 000 EUR, triviálny ROI; pri customer-service-agentovi s centovými maržami presne na vyrátanie.

9-10: Manažment memory a eskalácia/HITL

Aj v rámci kontextového okna model "zabúda" skoro zavedený state. Mitigácie: kritický state (Goal, Current Task, Key Facts) pinnúť na koniec systémového promptu (modely attendujú silnejšie na koniec ako na stred), pre-turn-header pred každým user-turnom a explicitne udržiavaný scratchpad ako kotva. V multi-tenant prevádzke je memory-contamination najčastejším production bugom v rokoch 2025-2026 - pattern: explicitný session-reset pri začiatku konverzácie a session-ID ako mandatory-param pre všetky state-tools. Pre high-stakes rozhodnutia patrí human-in-the-loop-gate pred tool-execution.

11-12: Kritériá zastavenia a bezpečnosť

Infinite loops boli podľa researchu najčastejšou triedou production bugov v rokoch 2025-2026. Robustná termination kombinuje Max-Iterations (10-30 general, 50-100 coding, ako hard-cap), success-criterion, cost-cap a Repeated-State-Detection (rovnaký tool-call s rovnakými params 3x ako detektor thrashingu). Bezpečnostné pokyny napokon musia byť explicitne označené ako nezjednateľné a postavené nad inštrukcie persóny - anti-pattern "persóna nad safety" je známym prompt-injection-vektorom. Pre DACH-workloady pribúdajú GDPR-patterny: pseudonymizácia pred context-injection a PII-redaction-layer pred RAG-injectom.

Praktický príklad: triage-agent v stredne veľkej firme

Stredne veľká firma z DACH prevádzkuje customer-service triage-agenta s nasledujúcim rozpočtom (stav 2026): systémový prompt 800-1 500 tokenov, tool-definitions 800-1 500 tokenov (4-5 nástrojov s input_examples), baseline-retrieval okolo 2 000 tokenov (3-5 chunks s re-rankingom), conversation-history pod 4 000 tokenov (sliding-window N=10), output 1 000-2 000 tokenov. Spolu približne 10 000 tokenov na call. Keďže systémový prompt a nástroje tvoria viac ako 90 percent a zostávajú stabilné, zaberá prompt caching: cache-reads stoja okolo 10 percent štandardnej input-rate, efektívne input-náklady klesajú na zhruba 10 percent.

Pseudokód pre loop-mantinely:

```
max_iterations = 20
on tool_error(403): escalate_to_human() # žiadny retry
on tool_error(500): retry(max=2, backoff=true)
on repeated_call(same_tool, same_params, n>=3): break # Thrashing
if confidence < 0.8 or amount > 5000: handoff_to_agent()
terminate_on: submit_final_answer() called
```

Dôležitý poznatok pre voľbu modelu: nemčina produkuje v štandardných tokenizéroch o 30-50 percent viac tokenov ako angličtina. 200K-okno pojme len okolo 130K-150K tokenov ekvivalentného nemeckého obsahu - čo robí disciplínu pri dĺžke promptu o to dôležitejšou, no caching o to výhodnejším.

Pre agentúry a B2B

Kto ako agentúra prevádzkuje klientskych agentov naprieč viacerými odvetviami, nemal by písať systémové prompty pre každého klienta od základu, ale odvodzovať ich ako template-inheritance z agentúrnej baseline - client-branding a -behavior prepísať, dvanásť patternov zostáva konštantných. To škáluje lepšie, pretože zdieľaná infraštruktúra (eval-framework, tool-library, observability) prináša compound-returns, zatiaľ čo pro-client-snowflakes vytvárajú exponenciálnu údržbovú záťaž. Pre DACH-B2B-rozhodovateľov je kľúčové posolstvo: systémový prompt nie je jednorazový text, ale verziovaný engineering-artefakt s eval-regresiou pri každej zmene. Blck Alpaca z Viedne sprevádza firmy pri budovaní tejto reprodukovateľnej disciplíny systémových promptov - od výberu patternov až po GDPR- a EU-AI-Act-konformný logging-layer.

Často kladené otázky

Aký dlhý by mal byť systémový prompt agenta?
Reporty od praktikov konvergujú na 500-3 000 tokenov pre jadro systémového promptu (bez tool-schém). Anthropic to nazýva správnou Goldilocks Altitude medzi príliš vágnym (nekonzistentné outputy) a príliš detailným (krehké, Lost-in-the-Middle vo vlastnom prompte). GPT-5.5 reaguje skôr na kratšie, behaviorálne prompty (400-1 500 tokenov), Gemini 3.1 Pro vďaka 2M-kontextu znesie dlhšie prompty. Stav 2026.
Prečo je klauzula When-not-to-use pri inštrukciách pre nástroje taká dôležitá?
Ak môžu dva nástroje hodnoverne odpovedať na tú istú query (napr. search_documents a search_knowledge_base), model bez jasného vymedzenia háda. To je podľa researchu jediný problém, ktorý nevyrieši žiadny akokoľvek dobrý prompt. Klauzula When-not-to-use v každej tool-description rozhoduje pri nejednoznačných požiadavkách o správnej selekcii nástroja a zabraňuje tool-thrashingu.
Koľko nástrojov by mal mať agent v aktívnom katalógu?
Anthropic odporúča 3-5 stále načítaných nástrojov, ďalšie cez Tool-Search. Od 10 nástrojov začína merateľná degradácia selection-accuracy, od 15 je závažná. S mechanizmom tool_search stúpla tool-selection-accuracy v interných MCP-evaloch Anthropicu na Opus 4.5 zo 79,5 na 88,1 percenta (stav 2026).
Aké kritériá zastavenia patria do systémového promptu agenta?
Minimálne hard-cap na Max-Iterations (10-30 general, 50-100 coding), success-criterion (napríklad definovaný submit_final_answer-call), cost- resp. token-cap a Repeated-State-Detection (rovnaký tool-call s rovnakými params 3x ako detektor thrashingu). Infinite loops boli podľa researchu najčastejšou triedou production bugov v rokoch 2025-2026.
Ako ukotviť bezpečnostné pokyny odolne voči prompt-injection?
Safety-pravidlá musia byť explicitne označené ako nezjednateľné a postavené nad inštrukcie persóny. Anti-pattern inštrukcie persóny nad safety je známym vektorom útoku prompt-injection. Navyše platí: explicitná verifikácia pred ireverzibilnými akciami (DB-write, externé API-calls, file-delete) a reset session-state pri začiatku konverzácie proti kontaminácii memory v multi-tenant prevádzke.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.