Context window (kontextové okno) je maximální množství textu, které AI model zpracuje najednou. Zahrnuje vše v jedné relaci: systémové instrukce, celou historii konverzace, nahraný dokument i generovanou odpověď. Co přesáhne tento limit, model "zapomene" - nebo vrátí chybu.
Analogie: pracovní plocha stolu. Cokoliv, co se na stůl vejde, vývojář vidí a pracuje s tím. Co stůl nepojme, musí odložit - a pak na to zapomene.
Aktuální limity modelů (2026)
Měřítkem jsou tokeny. 1 000 tokenů odpovídá přibližně 750 anglickým slovům nebo 1-2 stranám A4:
- GPT-4o: 128 000 tokenů
- Claude Sonnet: 200 000 tokenů (API verze až 1 milion)
- Gemini 2.0 Flash: 1 048 576 tokenů
Inzerovaný limit není totéž co efektivní limit. Výzkumy ukazují, že modely pracují spolehlivě přibližně do 60-70 % inzerovaného maxima. Informace uprostřed dlouhého kontextu jsou zpracovávány méně spolehlivě než začátek a konec.
Co se děje při přetečení
Buď model vrátí chybu "maximum context length exceeded" - aplikace spadne. Nebo nastane tichá degradace: model sice neselže technicky, ale přehlíží instrukce, generuje protichůdné odpovědi a halucinuje. Tomuto jevu se říká context rot.
Praktické dopady pro firmy
Zákaznický chatbot se znalostní bází 500 FAQ se do context window nevejde - nutný RAG. Analýza smlouvy o 50 stranách v češtině spotřebuje 40 000-60 000 tokenů a AI může přehlédnout klauzule uprostřed dokumentu. Kódová základna většího projektu přesahuje kontext rychle - AI agent "nevidí" celý projekt najednou. Po desítkách zpráv v chatové konverzaci začne AI zapomínat co bylo domluveno na začátku.
Čeština má menší efektivní kontext
Česká diakritika způsobuje, že stejný obsah v češtině potřebuje o 30-50 % více tokenů než v angličtině. Model s 128 000 tokenů pojme v češtině přibližně 50-60 stran textu, nikoli 100 stran jako v angličtině.
Jak pracovat s omezeným kontextem
Nejdůležitější informace patří na začátek nebo konec promptu - střed je zpracováván nejméně spolehlivě. Pro rozsáhlé knowledge base je vhodný RAG, který vyhledá jen relevantní části. U chatbotů se osvědčuje periodické shrnutí starší historie konverzace. Při 80-90 % zaplněného kontextu je třeba testovat kvalitu výstupů - nezáleží jen na tom, zda se obsah "vejde", ale zda model s ním spolehlivě pracuje.
Nauč se Claude Code
po individuální domluvě
Pavel Szabo
Programátor webů, eshopů a informačních systémů s více než 23 lety praxe. Pomáhám firmám i jednotlivcům s online podnikáním, automatizacemi a využitím AI v praxi.