Preskočiť na obsah
3.13Pokročilý8 min

Few-Shot Prompting pre robustné výstupy agentov

Blck Alpaca·
Definition

Few-Shot Prompting označuje techniku, pri ktorej AI agentovi v prompte poskytnete niekoľko málo príkladov (typicky 2 až 5) správnych vstupov a výstupov, aby si formát, štýl a logiku úlohy osvojil prostredníctvom In-Context Learning bez dotrénovania modelu. Tým sa výstupný formát a tool-calls stávajú výrazne spoľahlivejšími.

Key Takeaways

  • Few-Shot Prompting riadi agentov pomocou 2 až 5 kanonických príkladov v kontexte, nie cez trénovanie modelu. Je to stavebný prvok Context Engineering, nie samostatný postup vedľa Prompt Engineering.
  • Reprezentatívnosť a diverzita prevyšujú kvantitu: protirečivé alebo duplikované príklady zvádzajú model, aby skopíroval najbližší príklad. Cieľom sú rôznorodé, kanonické prípady.
  • Pre tool-calling existujú dedikované mechanizmy: Anthropic umožňuje pole input_examples (1 až 3 volania) na jednu definíciu nástroja. To stabilizuje najmä vnorené alebo voliteľné parametre.
  • Tam, kde je záväzná 100-percentná vernosť formátu, nahrádza schema-constrained decoding (OpenAI Structured Outputs, GA od augusta 2024) few-shot heuristiku pre čistú štruktúru. Few-shot zostáva relevantný pre štýl a logiku.
  • Zero-Shot pre jednoduché úlohy, Few-Shot pre spoľahlivosť formátu a nástrojov, Fine-Tuning až pri veľmi vysokom objeme alebo tlaku na latenciu. V kontexte DACH zvyšuje nemčina náklady na tokeny príkladov o 30 až 50 percent.
  • Príklady nie sú zadarmo: stoja tokeny na každé volanie a sú náchylné na overfitting. Stabilné bloky príkladov patria do cachovateľného prefixu promptu (cache-reads cca 10 percent štandardnej ceny, stav 2026).

Few-Shot Prompting označuje techniku, pri ktorej AI agentovi v prompte poskytnete niekoľko málo príkladov správnych vstupov a výstupov, aby si formát, štýl a logiku úlohy osvojil prostredníctvom In-Context Learning bez dotrénovania modelu. Namiesto opisovania správania v prozaickej forme ho ukážete: dva až päť reprezentatívnych prípadov, podľa ktorých sa model nasmeruje pre nasledujúci inferenčný turn. Pre produkčne pripravených agentov nie je Few-Shot hračka, ale jedna z najúčinnejších pák pre spoľahlivé výstupné formáty a korektný tool-calling.

  • Koľko: Dva až päť príkladov pre všeobecný výstup, jeden až tri kanonické volania na jeden nástroj. Viac len zriedka pomáha lineárne.
  • Ktoré: Rôznorodé, reprezentatívne prípady bez duplikátov a bez protirečení. Kvalita a pokrytie prevyšujú kvantitu.
  • Kedy nie: Pri jednoduchých Zero-Shot úlohách alebo keď sa vyžaduje 100-percentná vernosť formátu, tu je schema-constrained decoding nadradený.

Few-Shot v kontexte: stavebný prvok Context Engineering

Few-Shot Prompting nie je samostatný postup vedľa Prompt Engineering, ale subdisciplína v rámci Context Engineering. Andrej Karpathy uvádza "few-shot examples" explicitne ako jeden z vedeckých stavebných prvkov, ktorými sa kontextové okno napĺňa pre nasledujúci krok, popri opisoch úloh, RAG, nástrojoch a state. Mentálny model pre agentov teda znie: príklady sú súčasťou tokenového substrátu, ktorý model vidí na každý turn, nie jednorazová inštrukcia.

Toto zaradenie má praktické dôsledky. Príklady súťažia so všetkým ostatným o rozpočet pozornosti a miesto pre tokeny. Kto nasadzuje Few-Shot, musí to posudzovať v rámci kontextového rozpočtu, nie izolovane.

Zero-Shot, Few-Shot, One-Shot

  • Zero-Shot: Iba opis úlohy, žiadne príklady. Rýchle, lacné, ideálne pre jednoduché alebo očividné úlohy.
  • One-Shot: Presne jeden príklad. Užitočné na ukotvenie jednoznačného formátu bez veľkej tokenovej záťaže.
  • Few-Shot: Viacero príkladov, ktoré pokrývajú varianty a edge-cases. Štandard pre formátovo a logicky kritické výstupy agentov.

Výber a reprezentatívnosť: skutočný engineering

Najčastejšou chybou nie je nesprávny počet, ale nesprávny výber. Výskumný zdroj uvádza medzi anti-patternmi systémového promptu explicitne: viacero protirečivých príkladov vedie k tomu, že model vyberie najbližší. Náprava znie použiť rôznorodé, kanonické príklady bez duplikátov.

Konkrétne reprezentatívny výber znamená:

  • Pokryť varianty, nie ten istý prípad trikrát v miernej obmene. Ak agent spracúva faktúry, dobropisy a storná, patrí dnu po jednom príklade z každého, nie tri faktúry.
  • Vedome ukázať edge-cases, napríklad prípad s chýbajúcimi povinnými poľami a správnu reakciu naň. Príklady učia aj správanie pri nejednoznačnosti.
  • Konzistentný formát naprieč všetkými príkladmi. Format-drift medzi príkladmi je jed, model replikuje nekonzistentnosť.
  • Žiadne protirečivé signály. Ak príklad A jedno pole vynechá a príklad B ho vyplní bez toho, aby bol rozdiel vysvetliteľný, model háda.

Vplyv na tool-calling a spoľahlivosť výstupu

Tu sa Few-Shot vypláca najsilnejšie. Pri definícii nástroja odporúča zdroj pole input_examples s jedným až tromi kanonickými volaniami. Bez príkladov model háda pri vnorených alebo voliteľných parametroch, s príkladmi tento zdroj chýb výrazne klesá. Spojenie so spoľahlivosťou tool-selection je úzke: Anthropic uvádza, že disciplinované katalógy nástrojov plus tool-search zvyšujú presnosť tool-selection na Opus 4 zo 49 na 74 percent a na Opus 4.5 zo 79,5 na 88,1 percent (interné MCP-evals, stav 2026). Dobré príklady v tool-description sú súčasťou tej istej disciplíny.

Pre finálny výstup platí dôležité vymedzenie. Tam, kde sa záväzne vyžadujú strojovo parsovateľné štruktúry, samotný Few-Shot nestačí. OpenAI Structured Outputs (GA od augusta 2024, pre GPT-4o-2024-08-06 a nasledovníkov) vynucuje cez constrained decoding na úrovni tokenov dokumentovanú 100-percentnú schema-adherenciu. Anthropic dosahuje funkčne ekvivalentné cez vynútené tool-use s pseudo-nástrojom ako return_structured_result. Čisté rozdelenie práce 2026: schema-enforcement garantuje štruktúru, Few-Shot formuje štýl, voľbu slov, logiku a zaobchádzanie s hraničnými prípadmi, ktoré žiadna schema nezachytí.

Metóda

Účel

Vernosť formátu

Náročnosť / náklady

Zero-Shot

Jednoduché úlohy, očividný formát

Variabilná

Minimálna

Few-Shot (2-5 príkladov)

Stabilizovať štýl, logiku, volania nástrojov

Vysoká, negarantovaná

Tokeny na volanie, iterovateľné

Structured Outputs / vynútené tool-use

Záväzná JSON štruktúra

100 percent (schema)

Údržba schémy, nízka latencia

Fine-Tuning

Veľmi vysoký objem, tlak na latenciu

Vysoká, závislá od modelu

Tréningový cyklus, dátová náročnosť

Kedy Few-Shot, kedy Zero-Shot, kedy Fine-Tuning

Rozhodnutie sleduje tri osi: komplexnosť úlohy, objem a stabilitu požiadaviek.

  • Zero-Shot, keď je úloha jednoduchá a formát nekritický. Každý ďalší tokenovaný príklad by bol premárnený.
  • Few-Shot, akonáhle sa vyžaduje určitý formát, konzistentný štýl alebo netriviálna logika a požiadavky sa ešte menia. Few-Shot je iterovateľný bez tréningového cyklu, to je jeho najväčšia výhoda.
  • Fine-Tuning, až pri veľmi vysokom, stabilnom objeme, keď tokeny príkladov na volanie ekonomicky padajú na váhu alebo sa latencia stáva kritickou. Cognition Labs natrénoval pre Devin vlastný menší summarization model na vlastných trace dátach, pretože generické prompty strácali priveľa detailov, klasický prípad, v ktorom Few-Shot narazil na svoju hranicu.

Jeden medzistupeň si zaslúži zmienku: pri LLM-as-Judge verifikácii sú few-shot príklady v judge-prompte (pozitívne aj negatívne) štandardom. Odporúčanie Hamela Husaina znie kalibrovať takéto judge-evals s viac než 100 olabelovanými príkladmi a týždenne ich udržiavať. To ukazuje hranicu medzi Few-Shot v prompte (málo príkladov) a eval dátovou základňou (veľa príkladov) za ním.

Úskalia: overfitting a náklady na tokeny

Overfitting na príklady je najsubtílnejšia pasca. Agent kopíruje povrchové znaky príkladov, napríklad určité poradie alebo formuláciu, namiesto generalizácie základného pravidla. Symptóm: pri vstupoch podobných príkladom je výstup perfektný, pri odlišných prípadoch sa zrúti. Protiliekom je cielená diverzita príkladov a eval-set, ktorý preveruje práve nepokryté prípady.

Náklady na tokeny a Context Rot sú druhou pascou. Každý príklad beží pri každom volaní spolu. Zdroj dokumentuje, že všetky frontier modely s narastajúcou dĺžkou vstupu merateľne degradujú (Context Rot, štúdia Chroma júl 2025), efektívna kapacita pri reasoning-náročných úlohách často leží len na úrovni 30 až 50 percent nominálnej. V kontexte DACH pristupuje sťažujúco, že nemecký text potrebuje o 30 až 50 percent viac tokenov než ekvivalentný anglický. Nemecké few-shot príklady sú teda citeľne drahšie.

Najdôležitejšia ekonomická páka: stabilné bloky príkladov patria do cachovateľného prefixu promptu. Anthropic cache-reads stoja okolo 10 percent štandardnej input sadzby (stav 2026), pri Sonnet 4.6 asi 0,30 namiesto 3,00 amerických dolárov za milión tokenov. Kto si svoje few-shot príklady spolu so systémovým promptom a definíciami nástrojov udržuje stabilné a na koniec dáva len dynamickú časť, platí tokeny príkladov prevažne za cache-tarif. Každá zmena príkladov invaliduje cache, teda: príklady verziovať a meniť v plánovaných releasoch, nie cez hotfix.

Konkrétny príklad: s Few-Shot a bez neho

Agent má z e-mailu vygenerovať štruktúrovaný dopyt na záznam objednávky pre nástroj create_order.

Bez Few-Shot (Zero-Shot):

```
System: Vygeneruj z e-mailu volanie create_order.
Input: "Prosím 3x položku A-100 a 1 ks B-205 na zákaznícke č. 4711."
Output (typicky): {"kunde": "4711", "artikel": "A-100, B-205", "menge": "3 und 1"}
```

Výstup je plauzibilný, ale nepoužiteľný: množstvá a položky sú zhrnuté ako súvislý text, názvy polí sa odchyľujú od tool-schémy. Downstream sa parsing zrúti.

S Few-Shot (dva kanonické príklady v tool-prompte):

```
Príklad 1
Input: "2x C-300 pre zákazníka 9001"
Volanie: {"customer_id":"9001","items":[{"sku":"C-300","qty":2}]}

Príklad 2 (edge-case: žiadne množstvo neuvedené -> default 1)
Input: "Položka D-401 zákazníkovi 9002"
Volanie: {"customer_id":"9002","items":[{"sku":"D-401","qty":1}]}

Reálny input: "Prosím 3x položku A-100 a 1 ks B-205 na zákaznícke č. 4711."
Volanie: {"customer_id":"4711","items":[{"sku":"A-100","qty":3},{"sku":"B-205","qty":1}]}
```

Dva príklady stačia na ukotvenie názvov polí, štruktúry poľa, default správania pri chýbajúcom množstve a oddelenia viacerých položiek. Z nákladovej stránky: oba príklady pridávajú zhruba 150 až 250 tokenov na volanie, v nemčine zodpovedajúco viac. Ak ležia v cachovanom prefixe, stojí to pri opakovanom volaní len okolo jednej desatiny. Pre 100-percentnú garanciu štruktúry sa tento few-shot setup kombinuje s vynúteným tool-use na schému create_order, takže Few-Shot nesie logiku, schema formu.

Pre agentúry a B2B rozhodovateľov

Few-Shot Prompting je najrýchlejšia cesta, ako dostať agenta z "funguje v deme" do "spoľahlivý v produkcii" bez tréningového rozpočtu. Pre agentúry to znamená: investujte zavčasu do kurátorovanej, verziovanej zbierky príkladov na každý use-case, je to znovupoužiteľné aktívum a diferenciačný znak. Pre B2B rozhodovateľov platí: vyžadujte od svojho implementačného partnera eval-set, voči ktorému sa príklady testujú, ako aj jasné oddelenie medzi Few-Shot pre logiku a schema-enforcement pre formát. Ak chcete budovať agent-workflows s preukázateľnou spoľahlivosťou výstupu, Blck Alpaca z Viedne vás podporí pri dizajne, evale a produktívnej prevádzke DACH-konformných agentov.

Často kladené otázky

Koľko príkladov potrebujem pre Few-Shot Prompting pri agentoch?
Ako orientačné pravidlo dva až päť príkladov pre všeobecný výstup, jeden až tri kanonické volania na jednu definíciu nástroja. Viac príkladov len zriedka prináša lineárne lepšie výsledky, no stoja tokeny a zvyšujú riziko, že agent skopíruje najbližší príklad namiesto generalizácie. Rozhodujúca je diverzita, nie množstvo: pokryte najdôležitejšie varianty a edge-cases, vyhnite sa duplikátom.
Kedy je Zero-Shot lepší ako Few-Shot?
Zero-Shot postačuje, keď je úloha jednoduchá a výstupný formát nekritický, napríklad voľné zhrnutia alebo jednoduchá klasifikácia s jasnými triedami. Akonáhle sa vyžaduje určitý JSON-/tool-formát, konzistentný štýl alebo neočividná logika, Few-Shot merateľne zlepšuje spoľahlivosť. Pri záväznej vernosti formátu je schema-constrained decoding robustnejšou voľbou než samotné príklady.
Few-Shot Prompting alebo Fine-Tuning?
Few-Shot je iterovateľný bez tréningového cyklu a ideálny, pokiaľ sa požiadavky menia. Fine-Tuning sa oplatí až pri veľmi vysokom, stabilnom objeme, keď tokeny príkladov na každé volanie ekonomicky padajú na váhu alebo je latencia kritická. Cognition Labs napríklad pre Devin natrénoval vlastný menší summarization model na vlastných trace dátach, pretože generické prompty strácali priveľa detailov. Pre väčšinu B2B agentov je Few-Shot pragmatický štart.
Čo je In-Context Learning?
In-Context Learning je schopnosť jazykového modelu prevziať úlohu priamo z príkladov v prompte bez toho, aby sa menili váhy modelu. Few-Shot Prompting je jeho praktickou aplikáciou: príklady slúžia ako dočasná inštrukcia presne pre tento inferenčný turn. Efekt je pominuteľný, platí len pre daný kontext a musí sa posielať pri každom volaní.
Prečo priveľa príkladov zhoršuje výstupy agenta?
Tri dôvody: po prvé overfitting na príklady, agent kopíruje povrchové znaky namiesto generalizácie. Po druhé Context Rot, dlhé kontexty degradujú efektívny výkon modelu, aj pod nominálnym limitom. Po tretie náklady na tokeny, každý príklad beží pri každom volaní spolu. V nemčine sa to zhoršuje, pretože ekvivalentný text potrebuje o 30 až 50 percent viac tokenov než v angličtine.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.