Co je context window a proč omezuje AI modely

Context window (kontextové okno) je maximální množství textu, které AI model zpracuje najednou. Zahrnuje vše v jedné relaci: systémové instrukce, celou historii konverzace, nahraný dokument i generovanou odpověď. Co přesáhne tento limit, model "zapomene" - nebo vrátí chybu.

Analogie: pracovní plocha stolu. Cokoliv, co se na stůl vejde, vývojář vidí a pracuje s tím. Co stůl nepojme, musí odložit - a pak na to zapomene.

Aktuální limity modelů (2026)

Měřítkem jsou tokeny. 1 000 tokenů odpovídá přibližně 750 anglickým slovům nebo 1-2 stranám A4:

  • GPT-4o: 128 000 tokenů
  • Claude Sonnet: 200 000 tokenů (API verze až 1 milion)
  • Gemini 2.0 Flash: 1 048 576 tokenů

Inzerovaný limit není totéž co efektivní limit. Výzkumy ukazují, že modely pracují spolehlivě přibližně do 60-70 % inzerovaného maxima. Informace uprostřed dlouhého kontextu jsou zpracovávány méně spolehlivě než začátek a konec.

Co se děje při přetečení

Buď model vrátí chybu "maximum context length exceeded" - aplikace spadne. Nebo nastane tichá degradace: model sice neselže technicky, ale přehlíží instrukce, generuje protichůdné odpovědi a halucinuje. Tomuto jevu se říká context rot.

Praktické dopady pro firmy

Zákaznický chatbot se znalostní bází 500 FAQ se do context window nevejde - nutný RAG. Analýza smlouvy o 50 stranách v češtině spotřebuje 40 000-60 000 tokenů a AI může přehlédnout klauzule uprostřed dokumentu. Kódová základna většího projektu přesahuje kontext rychle - AI agent "nevidí" celý projekt najednou. Po desítkách zpráv v chatové konverzaci začne AI zapomínat co bylo domluveno na začátku.

Čeština má menší efektivní kontext

Česká diakritika způsobuje, že stejný obsah v češtině potřebuje o 30-50 % více tokenů než v angličtině. Model s 128 000 tokenů pojme v češtině přibližně 50-60 stran textu, nikoli 100 stran jako v angličtině.

Jak pracovat s omezeným kontextem

Nejdůležitější informace patří na začátek nebo konec promptu - střed je zpracováván nejméně spolehlivě. Pro rozsáhlé knowledge base je vhodný RAG, který vyhledá jen relevantní části. U chatbotů se osvědčuje periodické shrnutí starší historie konverzace. Při 80-90 % zaplněného kontextu je třeba testovat kvalitu výstupů - nezáleží jen na tom, zda se obsah "vejde", ale zda model s ním spolehlivě pracuje.

Individuální konzultace

Nauč se Claude Code

Automatizuj rutinu — ušetři hodiny každý týden
Zvládneš to, co ostatní ne — větší hodnota na trhu práce
Reálné projekty, tvůj kód, tvé konkrétní prostředí
Online přes Google Meet — termín dle tvých možností
2 000 Kč / lekce
Platba předem · termín
po individuální domluvě
Nezávazně poptat
AI mění práci rychle. Buď napřed.

Pavel Szabo

Programátor webů, eshopů a informačních systémů s více než 23 lety praxe. Pomáhám firmám i jednotlivcům s online podnikáním, automatizacemi a využitím AI v praxi.

Domluvte si konzultaci zdarma

Znáte někoho komu by článek mohl pomoct? Budu rád za sdílení!

Nabídka služeb

Vyberte si z nabídky níže, co zrovna potřebujete nebo mi rovnou zavolejte a probereme Vaše potřeby.

Weby a portály

Kódování a programování

Praha, Brno, Ostrava či zahraničí? Na tom nezáleží

Osobní schůzky jsou možné, ale většinu záležitostí — od tvorby webů po AI automatizace — lze vyřešit pohodlně přes videohovor. Působím po celé ČR, s klienty z mnoha měst: Praha, Brno, Ostrava, Jičín, Liberec, Olomouc, Hradec Králové, České Budějovice, Karviná, Frýdek-Místek, Opava, Třinec, Orlová, Český Těšín, Nový Jičín, Krnov, Bohumín, Kopřivnice, Bruntál...
Pro lepší porozumění vašim potřebám je ideální online hovor. Rezervujte si schůzku přes můj formulář nebo mě kontaktujte telefonicky. Můžeme se taky domluvit na výjezdu a osobní schůzce.
Praha, Brno, Ostrava či zahraničí? Na tom nezáleží