Preskočiť na obsah
10.9Pokročilý7 min

Cenové modely pre infraštruktúru agentov: Retainer, Project, Outcome

Blck Alpaca·
Definition

Pricing pre AI agentov v agentúre združuje štyri modely: Retainer (mesačný paušál), Project/Fixed (pevná cena za dodávku), Outcome-Based (platba za výsledok) a Hybrid. Rozhodujúce je oceňovanie podľa hodnoty namiesto hodín, keďže efektivita AI oddeľuje pracovný čas od výsledku, ako aj ochrana marže voči volatilným nákladom na tokeny.

Key Takeaways

  • Štyri základné modely: Retainer, Project/Fixed, Outcome-/Performance-based a Hybrid - každý s vlastným rizikom marže a vhodnou oblasťou nasadenia.
  • Hodinové sadzby sa pod efektivitou AI zrútia: Oceňovanie podľa hodnoty oddeľuje honorár od skráteného časového nákladu a chráni maržu.
  • Náklady na tokeny a infraštruktúru tvoria len 30-50 percent skutočného TCO - prienik s transparentnou maržou (typicky 30-50 percent) prekoná skrytý paušál.
  • Outcome-pricing (napr. za vyriešený tiket) zarovnáva motivácie, no riziko objemu a nákladov prenáša úplne na agentúru.
  • Ochrana marže potrebuje tvrdé token-capy na workflow, caching (50-90 percent úspory na inpute) a eval-riadený výber modelu - nie zľavu od dodávateľa.
  • Ekonomika tokenov je v roku 2026 volatilná: Každý paušál potrebuje cenovú indexačnú doložku a štvrťročný review nákladov.

Pricing pre AI agentov v agentúre združuje štyri modely: Retainer (mesačný paušál), Project/Fixed (pevná cena za dodávku), Outcome-Based (platba za výsledok) a Hybrid. Rozhodujúce je oceňovanie podľa hodnoty namiesto hodín, keďže efektivita AI oddeľuje pracovný čas od výsledku, ako aj dôsledná ochrana marže voči volatilným nákladom na tokeny. Kto účtuje infraštruktúru agentov ako klasickú službu podľa hodín, systematicky daruje hodnotu a podceňuje nákladovú štruktúru.

  • Retainer pre priebežnú prevádzku, monitoring a ďalší vývoj; Project/Fixed pre ohraničené implementácie; Outcome-Based len pri merateľných, stabilných výsledkoch.
  • Náklady na tokeny a infraštruktúru tvoria len 30-50 percent skutočného TCO - zvyšok je engineering, eval, compliance a human-in-the-loop.
  • Ekonomika tokenov je v roku 2026 volatilná: každý paušál potrebuje capy, caching a cenovú indexačnú doložku, inak zmena modelu zožerie maržu.

Prečo oceňovanie podľa hodín pri AI agentoch zlyháva

Klasický agentúrny model predáva čas. AI agenti túto logiku lámu, pretože oddeľujú výsledok od časového nákladu. Rešeršná alebo klasifikačná úloha, ktorá ako ručná práca viazala dni, beží ako agentský workflow v minútach. Kto naďalej účtuje hodiny, trestá vlastnú efektivitu: čím lepšie agentúra automatizuje, tým menej zarobí na rovnakom výkone. Oceňovanie podľa hodnoty to obracia - meria sa obchodná hodnota pre zákazníka, nie interne spotrebovaný čas.

Súčasne sa nákladová stránka stala zákernejšou. Jediný používateľský request už v roku 2026 nezodpovedá jedinému volaniu modelu, ale typicky 5-20 LLM-callom (planner, výber nástroja, výsledok nástroja, kritika, revízia, verifikácia). Agentské workflowy zvýšili spotrebu tokenov na request oproti jednoduchému chatbot-vzoru o 5- až 50-násobok. Kaskády sub-agentov to ešte raz znásobujú o 3- až 10-násobok. Paušál, ktorý je kalkulovaný na starom obraze „jeden prompt, jedna odpoveď", tu rýchlo stráca maržu.

Štyri cenové modely v prehľade

Retainer (mesačný paušál). Zákazník platí pevný mesačný poplatok za prevádzku, monitoring, eval-iteráciu a kontinuálne zlepšovanie agentov. Ideálny pre priebežnú infraštruktúru agentov, ktorú treba spravovať a prispôsobovať modelovým updatom. Retainer zabezpečuje plánovateľný obrat a amortizuje nastavenie compliance počas doby trvania - v DACH priestore závažný argument, pretože viacročné mandáty ospravedlňujú náklady na AVV a sub-procesorov.

Project / Fixed (pevná cena). Ohraničený rozsah dodávky - napríklad implementácia voice-agenta alebo servisného workflowu - za pevnú cenu. Jasne komunikovateľná a obľúbená pri prvých projektoch. Riziko marže leží v scope: Podcenené token-kaskády, retry-loopy alebo integračný náklad do SAP-ťažkých DACH stackov zožerú kalkuláciu. Pevné ceny patria vybaviť bufferom a čistým procesom change-requestov.

Outcome- / Performance-based. Platí sa za výsledok - za vyriešený tiket, kvalifikovaný lead, dokončený proces. Štrukturálna výhoda: Záujmy poskytovateľa a zákazníka sú zarovnané na úspech. Štrukturálne riziko: Agentúra nesie nákladové riziko každej transakcie. Ak je miera úspešnosti pod predpokladom, vzniká strata na výsledok. Na trhu sa tento model etabluje predovšetkým v customer-service - Intercom Fin je na 0,99 amerického dolára za vyriešenú konverzáciu, HubSpot v apríli 2026 znížil na 0,50 amerického dolára, Zendesk požaduje 1,50 amerického dolára (committed) až 2,00 amerického dolára (pay-as-you-go) za resolution, Salesforce Agentforce 0,10 amerického dolára za akciu alebo 2,00 amerického dolára za konverzáciu (všetko stav 2026). Sierra nepublikuje ceny; odhady tretích strán uvádzajú celkové náklady za 1. rok od 200 000 do 350 000 amerických dolárov a viac. Predpokladom pre outcome-pricing je spoľahlivý, nameraný baseline miery úspešnosti - bez neho je to let naslepo.

Hybrid. De-facto norma roku 2026: pevná báza (retainer alebo setup) plus komponent závislý od spotreby alebo výsledku plus prenesené náklady na tokeny. Hybrid kombinuje plánovateľný príspevok na úhradu s férovým rozložením záťaže a pre väčšinu agentúrnych mandátov je najrobustnejšou štruktúrou.

Porovnanie modelov: Kedy zmysluplné, výhoda a nevýhoda, riziko marže

Model

Kedy zmysluplné

Výhoda / nevýhoda

Riziko marže

Retainer

Priebežná prevádzka, monitoring, kontinuálny ďalší vývoj; viacročné mandáty

Plánovateľný obrat, amortizuje compliance-setup / nepokrýva spotrebu tokenov, scope-creep

Stredné - rastie pri volatilných nákladoch na tokeny bez capu; potrebná cenová indexačná doložka

Project / Fixed

Ohraničená implementácia s jasným rozsahom dodávky; prvé projekty

Jasne komunikovateľná, jasné očakávanie / pevné hranice, dodatky náročné

Vysoké - podcenené kaskády, retry-loopy (+20-50 %) a integrácia zožerú pevnú cenu

Outcome / Performance

Merateľný, stabilný výsledok (vyriešený tiket, lead); známa miera úspešnosti

Zarovnané motivácie, vysoká ochota platiť / agentúra nesie riziko nákladov a objemu

Veľmi vysoké - strata na výsledok pri príliš nízkej miere úspešnosti alebo špičkách spotreby

Hybrid

Štandardný prípad: báza + spotreba/výsledok + prienik tokenov

Robustný príspevok na úhradu, férové rozloženie záťaže / komplexnejšie účtovanie

Nízke až stredné - riziko pomerne zdieľané; najlepší profil marže

Náklady na tokeny: Prienik alebo paušál

Položka, ktorá vyzerá najlacnejšie - čistý API-compute - nie je tá, v ktorej náklady viaznu. Priame náklady na model tvoria pri typickom agentskom workloade len 30-50 percent celkového TCO. Zvyšok sa rozdeľuje na tool-kaskády, sub-agentov, sandbox-compute, vector DB, observability, compliance-ops a operations-labour. Agentúra, ktorá kalkuluje len token-list, prehliada polovicu účtu.

Pre zaobchádzanie s nákladmi na tokeny existujú dve čisté cesty:

  • Prienik (pass-through): Priame API a platformové náklady sa sledujú na mandanta (napríklad cez Helicone alebo Portkey podľa key) a prefakturujú sa s transparentnou prirážkou - v odvetví obvyklých 30-50 percent marže na prenesené náklady. Riziko volatility leží na zákazníkovi, účtovanie je dohľadateľné.
  • Paušál: Náklady na tokeny sú zahrnuté v pevnej cene alebo retaineri. Pre zákazníka prívetivý a plánovateľný, no udržateľný len s tvrdými capmi max_tokens, max_iterations a max_tool_calls na workflow, agresívnym cachingom od prvého dňa a bezpečnostným bufferom.

Caching je pritom najväčšia páka marže: Anthropic poskytuje na cache-reads zľavu 90 percent (stav 2026). Pri Claude Sonnet 4.6 klesá input z 3,00 na 0,30 amerického dolára za milión tokenov; miera zásahov 80 percent znižuje efektívne náklady na input o 70-80 percent. Eval-riadený výber modelu - najlacnejší model, ktorý prejde evalom - šetrí dodatočne 30-60 percent. Naskladaný dobre inštrumentovaný FinOps-prístup dodáva 60-80 percent redukcie nákladov oproti neoptimalizovanému baseline. To je priestor, z ktorého vzniká agentúrna marža - nie zo zľavy od dodávateľa.

Vzorová kalkulácia: Customer-service-agent s outcome-pricingom

Agentúra prevádzkuje pre DACH zákazníka servisného agenta, ktorý spracúva 5 000 tiketov mesačne. Architektúra: Claude Sonnet 4.6 ako executor s aktívnym prompt-cachingom na system-prompte a tool-definíciách.

Predpoklady na vyriešený tiket (stav 2026, ilustratívne):

  • Priama LLM-spotreba na konverzáciu: približne 15 000 input-tokenov (prevažne cachovaných) a 1 500 output-tokenov cez viacero agentských krokov.
  • Cachovaný input pri 0,30 amerického dolára/mil. → cca 0,0045 amerického dolára; output pri 15 amerických dolárov/mil. → cca 0,0225 amerického dolára.
  • Priame náklady na model: približne 0,03 amerického dolára na tiket.
  • Plus tool-kaskáda, riziko retry a nepriame náklady (embeddingy, tool-definície): realisticky 0,08-0,12 amerického dolára na tiket all-in na infraštruktúrnej strane.

Pseudokód pre kalkuláciu marže:

```
kosten_direkt = 0.03 # USD pro Ticket, gecacht
kosten_allin = 0.10 # + Kaskade, Retry, Indirekt
eu_uplift = 1.10 # 10 % EU-Region-Aufschlag
kosten_dach = kosten_allin * eu_uplift # = 0.11
outcome_preis = 0.50 # Verrechnung pro geloestem Ticket
marge_pro_ticket = outcome_preis - kosten_dach # = 0.39
deckungsbeitrag_mt = marge_pro_ticket * 5000 # = 1'950 USD/Monat
```

Pri 5 000 tiketoch to dáva mesačný príspevok na úhradu približne 1 950 amerických dolárov - pokiaľ je miera úspešnosti stabilná. Ak sa resolution-rate prevráti alebo stúpnu retry-loopy o 20-50 percent, marža na tiket sa rýchlo roztopí. Práve preto outcome-pricing potrebuje nameraný baseline a floor-retainer, ktorý kryje fixné náklady (eval-iterácia, compliance, monitoring) nezávisle od objemu. Poznámka: Ekonomika tokenov je v roku 2026 volatilná - lacné open-weight modely ako DeepSeek V4 Flash sú na 0,14 amerického dolára/mil. inputu a teda približne 36-násobne pod GPT-5.5; zmena modelu môže kalkuláciu posunúť oboma smermi.

Ochrana marže a DACH realita

Tri páky zabezpečujú maržu nezávisle od zvoleného modelu:

  1. Cenová indexačná doložka a capy. Každý retainer a pevná cena obsahuje doložku o úprave pri zmenách nákladov na tokeny a tvrdé hranice spotreby na workflow. Ekonomika tokenov 2026 je pohyblivý cieľ.
  2. Engineering-first namiesto contract-first. Caching, routing, batch (50 percent zľava pri 24-hodinovom SLA) a open-weight fallback pre long-tail workloady určujú 50-80 percent účtu - viac než akákoľvek zľava od dodávateľa.
  3. DACH-overhead explicitne zakalkulovať. EU-región stojí pri OpenAI a Anthropic 10 percent prirážku, suverénny hosting 1,5- až 3-násobok, AVV-reťazec 5-20k eur za rok a poskytovateľa plus 10-50k eur onboarding. V súčte zvyšujú DACH-faktory TCO o 15-35 percent oproti US-workloadu. Viacročné mandáty tento compliance-náklad amortizujú - argument pre retainer a proti jednotlivým projektom.

Pre agentúry a B2B rozhodovateľov

Pre agentúry to znamená: Opustite hodinovú logiku. Postavte hybridný model s floor-retainerom, transparentným prienikom tokenov (30-50 percent marže, sledované na mandanta) a voliteľným outcome-komponentom tam, kde mieru úspešnosti nameranú poznáte. Ukotvite capy, caching a cenovú indexačnú doložku zmluvne - to chráni maržu, keď sa ceny tokenov posunú.

Pre B2B rozhodovateľov, ktorí nakupujú výkony agentov: Pýtajte sa na nákladovú štruktúru za cenou, nie len na hodinovú sadzbu. Seriózna ponuka transparentne vykazuje prienik tokenov, caching-stratégiu a DACH-compliance-náklad. Ak plánujete infraštruktúru agentov a chcete vyvinúť spoľahlivý, maržovo bezpečný cenový model pre váš prípad použitia, ozvite sa nám - kalkulujeme ekonomiku tokenov, TCO a výber modelu pozdĺž vášho reálneho workloadu.

Často kladené otázky

Ktorý cenový model je pre AI agentov najvhodnejší?
Neexistuje univerzálne najlepší model. Pre priebežnú prevádzku a ďalší vývoj sa hodí Retainer, pre jasne ohraničené implementácie Project-/pevná cena. Outcome-Based sa hodí len pri merateľných, stabilných výsledkoch (napríklad vyriešené tikety) a dostatočnej dátovej báze o miere úspešnosti. V praxi v roku 2026 dominuje hybrid: pevná báza plus komponent závislý od spotreby alebo výsledku plus prenesené náklady na tokeny.
Prečo už hodinové účtovanie pri AI agentoch nefunguje?
AI agenti oddeľujú výsledok od pracovného času. Úloha, ktorá kedysi stála dni, beží ako agentský workflow v minútach. Kto účtuje hodiny, trestá sám seba za vlastnú efektivitu a daruje vytvorenú hodnotu. Oceňovanie podľa hodnoty meria honorár podľa obchodného výsledku pre zákazníka, nie podľa časového nákladu agentúry.
Mala by agentúra náklady na tokeny prenášať alebo paušalizovať?
Obe cesty sú udržateľné. Prienik (pass-through) s transparentnou prirážkou (typicky 30-50 percent marže na priame API a platformové náklady, sledované cez nástroje ako Helicone alebo Portkey na mandanta) prenáša riziko volatility na zákazníka a vytvára dôveru. Paušál je pre zákazníka prívetivejší a plánovateľnejší, no potrebuje tvrdé token-capy, cenovú indexačnú doložku a bezpečnostný buffer, pretože ekonomika tokenov je v roku 2026 volatilná.
Aké sú typické riziká marže pri Outcome-Based pricingu?
Pri outcome-pricingu nesie agentúra nákladové riziko každej transakcie. Ak je miera úspešnosti pod kalkuláciou alebo explodujú retry-loopy (plus 20-50 percent na API náklady), vzniká strata na výsledok. K tomu pristupuje objemové riziko: Špičky spotreby môžu dohodnutý rozpočet vyčerpať v týždňoch. Outcome-pricing preto predpokladá spoľahlivý, nameraný baseline miery úspešnosti.
Aká veľká je DACH-prirážka na kalkuláciu agentúry?
DACH-špecifické faktory zvyšujú skutočné TCO o približne 15-35 percent oproti porovnateľnému US-workloadu (stav 2026): 10 percent prirážka za EU-región pri OpenAI a Anthropic, 1,5- až 3-násobok pri suverénnom hostingu, AVV-reťazec s 5-20k eur za rok a aktívneho poskytovateľa, ako aj náklady na spolurozhodovanie a compliance. Tieto položky patria explicitne zakalkulovať do každého modelu.

Ísť hlbšie?

Získajte nové analýzy priamo do schránky – alebo sa pozrite, ako tieto poznatky nasadzujeme pre firmy.