Few-Shot Prompting pre robustné výstupy agentov
Few-Shot Prompting označuje techniku, pri ktorej AI agentovi v prompte poskytnete niekoľko málo príkladov (typicky 2 až 5) správnych vstupov a výstupov, aby si formát, štýl a logiku úlohy osvojil prostredníctvom In-Context Learning bez dotrénovania modelu. Tým sa výstupný formát a tool-calls stávajú výrazne spoľahlivejšími.
Key Takeaways
- ✓Few-Shot Prompting riadi agentov pomocou 2 až 5 kanonických príkladov v kontexte, nie cez trénovanie modelu. Je to stavebný prvok Context Engineering, nie samostatný postup vedľa Prompt Engineering.
- ✓Reprezentatívnosť a diverzita prevyšujú kvantitu: protirečivé alebo duplikované príklady zvádzajú model, aby skopíroval najbližší príklad. Cieľom sú rôznorodé, kanonické prípady.
- ✓Pre tool-calling existujú dedikované mechanizmy: Anthropic umožňuje pole input_examples (1 až 3 volania) na jednu definíciu nástroja. To stabilizuje najmä vnorené alebo voliteľné parametre.
- ✓Tam, kde je záväzná 100-percentná vernosť formátu, nahrádza schema-constrained decoding (OpenAI Structured Outputs, GA od augusta 2024) few-shot heuristiku pre čistú štruktúru. Few-shot zostáva relevantný pre štýl a logiku.
- ✓Zero-Shot pre jednoduché úlohy, Few-Shot pre spoľahlivosť formátu a nástrojov, Fine-Tuning až pri veľmi vysokom objeme alebo tlaku na latenciu. V kontexte DACH zvyšuje nemčina náklady na tokeny príkladov o 30 až 50 percent.
- ✓Príklady nie sú zadarmo: stoja tokeny na každé volanie a sú náchylné na overfitting. Stabilné bloky príkladov patria do cachovateľného prefixu promptu (cache-reads cca 10 percent štandardnej ceny, stav 2026).
Few-Shot Prompting označuje techniku, pri ktorej AI agentovi v prompte poskytnete niekoľko málo príkladov správnych vstupov a výstupov, aby si formát, štýl a logiku úlohy osvojil prostredníctvom In-Context Learning bez dotrénovania modelu. Namiesto opisovania správania v prozaickej forme ho ukážete: dva až päť reprezentatívnych prípadov, podľa ktorých sa model nasmeruje pre nasledujúci inferenčný turn. Pre produkčne pripravených agentov nie je Few-Shot hračka, ale jedna z najúčinnejších pák pre spoľahlivé výstupné formáty a korektný tool-calling.
- Koľko: Dva až päť príkladov pre všeobecný výstup, jeden až tri kanonické volania na jeden nástroj. Viac len zriedka pomáha lineárne.
- Ktoré: Rôznorodé, reprezentatívne prípady bez duplikátov a bez protirečení. Kvalita a pokrytie prevyšujú kvantitu.
- Kedy nie: Pri jednoduchých Zero-Shot úlohách alebo keď sa vyžaduje 100-percentná vernosť formátu, tu je schema-constrained decoding nadradený.
Few-Shot v kontexte: stavebný prvok Context Engineering
Few-Shot Prompting nie je samostatný postup vedľa Prompt Engineering, ale subdisciplína v rámci Context Engineering. Andrej Karpathy uvádza "few-shot examples" explicitne ako jeden z vedeckých stavebných prvkov, ktorými sa kontextové okno napĺňa pre nasledujúci krok, popri opisoch úloh, RAG, nástrojoch a state. Mentálny model pre agentov teda znie: príklady sú súčasťou tokenového substrátu, ktorý model vidí na každý turn, nie jednorazová inštrukcia.
Toto zaradenie má praktické dôsledky. Príklady súťažia so všetkým ostatným o rozpočet pozornosti a miesto pre tokeny. Kto nasadzuje Few-Shot, musí to posudzovať v rámci kontextového rozpočtu, nie izolovane.
Zero-Shot, Few-Shot, One-Shot
- Zero-Shot: Iba opis úlohy, žiadne príklady. Rýchle, lacné, ideálne pre jednoduché alebo očividné úlohy.
- One-Shot: Presne jeden príklad. Užitočné na ukotvenie jednoznačného formátu bez veľkej tokenovej záťaže.
- Few-Shot: Viacero príkladov, ktoré pokrývajú varianty a edge-cases. Štandard pre formátovo a logicky kritické výstupy agentov.
Výber a reprezentatívnosť: skutočný engineering
Najčastejšou chybou nie je nesprávny počet, ale nesprávny výber. Výskumný zdroj uvádza medzi anti-patternmi systémového promptu explicitne: viacero protirečivých príkladov vedie k tomu, že model vyberie najbližší. Náprava znie použiť rôznorodé, kanonické príklady bez duplikátov.
Konkrétne reprezentatívny výber znamená:
- Pokryť varianty, nie ten istý prípad trikrát v miernej obmene. Ak agent spracúva faktúry, dobropisy a storná, patrí dnu po jednom príklade z každého, nie tri faktúry.
- Vedome ukázať edge-cases, napríklad prípad s chýbajúcimi povinnými poľami a správnu reakciu naň. Príklady učia aj správanie pri nejednoznačnosti.
- Konzistentný formát naprieč všetkými príkladmi. Format-drift medzi príkladmi je jed, model replikuje nekonzistentnosť.
- Žiadne protirečivé signály. Ak príklad A jedno pole vynechá a príklad B ho vyplní bez toho, aby bol rozdiel vysvetliteľný, model háda.
Vplyv na tool-calling a spoľahlivosť výstupu
Tu sa Few-Shot vypláca najsilnejšie. Pri definícii nástroja odporúča zdroj pole input_examples s jedným až tromi kanonickými volaniami. Bez príkladov model háda pri vnorených alebo voliteľných parametroch, s príkladmi tento zdroj chýb výrazne klesá. Spojenie so spoľahlivosťou tool-selection je úzke: Anthropic uvádza, že disciplinované katalógy nástrojov plus tool-search zvyšujú presnosť tool-selection na Opus 4 zo 49 na 74 percent a na Opus 4.5 zo 79,5 na 88,1 percent (interné MCP-evals, stav 2026). Dobré príklady v tool-description sú súčasťou tej istej disciplíny.
Pre finálny výstup platí dôležité vymedzenie. Tam, kde sa záväzne vyžadujú strojovo parsovateľné štruktúry, samotný Few-Shot nestačí. OpenAI Structured Outputs (GA od augusta 2024, pre GPT-4o-2024-08-06 a nasledovníkov) vynucuje cez constrained decoding na úrovni tokenov dokumentovanú 100-percentnú schema-adherenciu. Anthropic dosahuje funkčne ekvivalentné cez vynútené tool-use s pseudo-nástrojom ako return_structured_result. Čisté rozdelenie práce 2026: schema-enforcement garantuje štruktúru, Few-Shot formuje štýl, voľbu slov, logiku a zaobchádzanie s hraničnými prípadmi, ktoré žiadna schema nezachytí.
Metóda | Účel | Vernosť formátu | Náročnosť / náklady |
|---|---|---|---|
Zero-Shot | Jednoduché úlohy, očividný formát | Variabilná | Minimálna |
Few-Shot (2-5 príkladov) | Stabilizovať štýl, logiku, volania nástrojov | Vysoká, negarantovaná | Tokeny na volanie, iterovateľné |
Structured Outputs / vynútené tool-use | Záväzná JSON štruktúra | 100 percent (schema) | Údržba schémy, nízka latencia |
Veľmi vysoký objem, tlak na latenciu | Vysoká, závislá od modelu | Tréningový cyklus, dátová náročnosť |
Kedy Few-Shot, kedy Zero-Shot, kedy Fine-Tuning
Rozhodnutie sleduje tri osi: komplexnosť úlohy, objem a stabilitu požiadaviek.
- Zero-Shot, keď je úloha jednoduchá a formát nekritický. Každý ďalší tokenovaný príklad by bol premárnený.
- Few-Shot, akonáhle sa vyžaduje určitý formát, konzistentný štýl alebo netriviálna logika a požiadavky sa ešte menia. Few-Shot je iterovateľný bez tréningového cyklu, to je jeho najväčšia výhoda.
- Fine-Tuning, až pri veľmi vysokom, stabilnom objeme, keď tokeny príkladov na volanie ekonomicky padajú na váhu alebo sa latencia stáva kritickou. Cognition Labs natrénoval pre Devin vlastný menší summarization model na vlastných trace dátach, pretože generické prompty strácali priveľa detailov, klasický prípad, v ktorom Few-Shot narazil na svoju hranicu.
Jeden medzistupeň si zaslúži zmienku: pri LLM-as-Judge verifikácii sú few-shot príklady v judge-prompte (pozitívne aj negatívne) štandardom. Odporúčanie Hamela Husaina znie kalibrovať takéto judge-evals s viac než 100 olabelovanými príkladmi a týždenne ich udržiavať. To ukazuje hranicu medzi Few-Shot v prompte (málo príkladov) a eval dátovou základňou (veľa príkladov) za ním.
Úskalia: overfitting a náklady na tokeny
Overfitting na príklady je najsubtílnejšia pasca. Agent kopíruje povrchové znaky príkladov, napríklad určité poradie alebo formuláciu, namiesto generalizácie základného pravidla. Symptóm: pri vstupoch podobných príkladom je výstup perfektný, pri odlišných prípadoch sa zrúti. Protiliekom je cielená diverzita príkladov a eval-set, ktorý preveruje práve nepokryté prípady.
Náklady na tokeny a Context Rot sú druhou pascou. Každý príklad beží pri každom volaní spolu. Zdroj dokumentuje, že všetky frontier modely s narastajúcou dĺžkou vstupu merateľne degradujú (Context Rot, štúdia Chroma júl 2025), efektívna kapacita pri reasoning-náročných úlohách často leží len na úrovni 30 až 50 percent nominálnej. V kontexte DACH pristupuje sťažujúco, že nemecký text potrebuje o 30 až 50 percent viac tokenov než ekvivalentný anglický. Nemecké few-shot príklady sú teda citeľne drahšie.
Najdôležitejšia ekonomická páka: stabilné bloky príkladov patria do cachovateľného prefixu promptu. Anthropic cache-reads stoja okolo 10 percent štandardnej input sadzby (stav 2026), pri Sonnet 4.6 asi 0,30 namiesto 3,00 amerických dolárov za milión tokenov. Kto si svoje few-shot príklady spolu so systémovým promptom a definíciami nástrojov udržuje stabilné a na koniec dáva len dynamickú časť, platí tokeny príkladov prevažne za cache-tarif. Každá zmena príkladov invaliduje cache, teda: príklady verziovať a meniť v plánovaných releasoch, nie cez hotfix.
Konkrétny príklad: s Few-Shot a bez neho
Agent má z e-mailu vygenerovať štruktúrovaný dopyt na záznam objednávky pre nástroj create_order.
Bez Few-Shot (Zero-Shot):
```
System: Vygeneruj z e-mailu volanie create_order.
Input: "Prosím 3x položku A-100 a 1 ks B-205 na zákaznícke č. 4711."
Output (typicky): {"kunde": "4711", "artikel": "A-100, B-205", "menge": "3 und 1"}
```
Výstup je plauzibilný, ale nepoužiteľný: množstvá a položky sú zhrnuté ako súvislý text, názvy polí sa odchyľujú od tool-schémy. Downstream sa parsing zrúti.
S Few-Shot (dva kanonické príklady v tool-prompte):
```
Príklad 1
Input: "2x C-300 pre zákazníka 9001"
Volanie: {"customer_id":"9001","items":[{"sku":"C-300","qty":2}]}
Príklad 2 (edge-case: žiadne množstvo neuvedené -> default 1)
Input: "Položka D-401 zákazníkovi 9002"
Volanie: {"customer_id":"9002","items":[{"sku":"D-401","qty":1}]}
Reálny input: "Prosím 3x položku A-100 a 1 ks B-205 na zákaznícke č. 4711."
Volanie: {"customer_id":"4711","items":[{"sku":"A-100","qty":3},{"sku":"B-205","qty":1}]}
```
Dva príklady stačia na ukotvenie názvov polí, štruktúry poľa, default správania pri chýbajúcom množstve a oddelenia viacerých položiek. Z nákladovej stránky: oba príklady pridávajú zhruba 150 až 250 tokenov na volanie, v nemčine zodpovedajúco viac. Ak ležia v cachovanom prefixe, stojí to pri opakovanom volaní len okolo jednej desatiny. Pre 100-percentnú garanciu štruktúry sa tento few-shot setup kombinuje s vynúteným tool-use na schému create_order, takže Few-Shot nesie logiku, schema formu.
Pre agentúry a B2B rozhodovateľov
Few-Shot Prompting je najrýchlejšia cesta, ako dostať agenta z "funguje v deme" do "spoľahlivý v produkcii" bez tréningového rozpočtu. Pre agentúry to znamená: investujte zavčasu do kurátorovanej, verziovanej zbierky príkladov na každý use-case, je to znovupoužiteľné aktívum a diferenciačný znak. Pre B2B rozhodovateľov platí: vyžadujte od svojho implementačného partnera eval-set, voči ktorému sa príklady testujú, ako aj jasné oddelenie medzi Few-Shot pre logiku a schema-enforcement pre formát. Ak chcete budovať agent-workflows s preukázateľnou spoľahlivosťou výstupu, Blck Alpaca z Viedne vás podporí pri dizajne, evale a produktívnej prevádzke DACH-konformných agentov.
Často kladené otázky
Koľko príkladov potrebujem pre Few-Shot Prompting pri agentoch?
Kedy je Zero-Shot lepší ako Few-Shot?
Few-Shot Prompting alebo Fine-Tuning?
Čo je In-Context Learning?
Prečo priveľa príkladov zhoršuje výstupy agenta?
Ísť hlbšie?
Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.