Token je nejmenší jednotka textu, se kterou jazykový model pracuje. Nejde ani o písmeno, ani o celé slovo - je to fragment textu o délce přibližně 3-4 znaků v angličtině. Jedno kratší anglické slovo odpovídá zhruba 1 tokenu. Tisíc tokenů odpovídá přibližně 750 anglickým slovům, tedy 1-2 stranám A4.
Tokeny jsou "měna" AI - platíte za ně při každém volání modelu přes API a limitují, kolik textu model "vidí" najednou.
Jak tokenizace funguje
Než model zpracuje váš text, tokenizér ho rozloží na fragmenty. Každý fragment dostane číselné ID a model pracuje s čísly, ne s textem. Výstup se zpětně převede na slova. Algoritmus BPE (Byte-Pair Encoding) přitom volí efektivní kombinace - "tokenization" může být 3-4 tokeny, ale "the" je vždy 1 token.
Ceny za tokeny (duben 2026)
Ceny se uvádějí za 1 milion tokenů. Vstupní tokeny (váš dotaz) jsou vždy levnější než výstupní (odpověď modelu):
- GPT-4o: 57 Kč vstup / 230 Kč výstup za 1M tokenů
- GPT-4o mini: 3,5 Kč vstup / 14 Kč výstup za 1M tokenů
- Claude Sonnet: 69 Kč vstup / 345 Kč výstup za 1M tokenů
- Gemini 2.5 Flash: 7 Kč vstup / 57 Kč výstup za 1M tokenů
Prakticky: jeden zákaznický ticket (asi 3 500 tokenů celkem) vyjde na GPT-4o mini přibližně 0,02 Kč. Deset tisíc ticketů měsíčně je cca 200 Kč.
Proč je čeština dražší než angličtina
Tokenizátory jsou primárně trénované na anglickém textu. Česká diakritika a morfologie způsobují, že stejný obsah v češtině potřebuje o 30-50 % více tokenů než v angličtině. Firma, která v angličtině zaplatí 100 Kč měsíčně za AI zpracování, zaplatí v češtině za stejný objem textu přibližně 130-150 Kč.
Context window a token budget
Každý model má maximální počet tokenů, které "vidí" najednou - vstup i výstup dohromady. Říká se tomu context window. GPT-4o zvládne 128 000 tokenů, novější modely i milion. Při přesahu model starší části konverzace "zapomene" nebo vrátí chybu.
Jak na tokenech ušetřit
Kratší systémové instrukce sníží spotřebu každého requestu o desítky procent. Batch API zpracovávající data asynchronně přes noc nabízí 50% slevu. Pro dotazy na interní dokumenty je efektivnější RAG - model dostane jen relevantní úryvky, ne celý dokument. Výběr levnějšího modelu pro jednoduché úlohy (klasifikace, extrakce) snižuje náklady desetinásobně.
Nauč se Claude Code
po individuální domluvě
Pavel Szabo
Programátor webů, eshopů a informačních systémů s více než 23 lety praxe. Pomáhám firmám i jednotlivcům s online podnikáním, automatizacemi a využitím AI v praxi.