Dimenzování system promptu — zda (plus očekávaný vstup uživatele a rezerva na výstup) vejde do kontextového okna. Odhad API nákladů dávkové úlohy před spuštěním — vlož 100 reprezentativních vstupů a vynásob. Porovnání iterací promptů: opravdu se nový zkrátil nebo se ti to jen zdálo? Sanity check, jestli chyba „příliš dlouhé" nepochází ze skrytého whitespace, BOM značek nebo zbytků z kopírování.

Ceny jsou vstupní za 1M tokenů k roku 2025. Výstupní tokeny jsou obvykle dražší — vynásob 3–5× pro nejhorší případ. Llama 3 ukazuje nulovou cenu, protože typický deployment je self-hosted. Hosted nabídky (Together, Groq, Fireworks) účtují $0.20–$1 za 1M podle velikosti. Ceny se mění. Zkontroluj cenovou stránku poskytovatele, než se spolehneš na tato čísla pro reálný rozpočet.

Tokeny ≠ slova. Anglické slovo má průměrně 1.3 tokenu; „antidisestablishmentarianism" má asi 7. Kód a strukturovaný text tokenizují hustěji na znak. CJK text je hustý. Každý čínský / japonský / korejský znak může být vlastní token, takže 1000 znaků ≈ 1000 tokenů — mnohem dražší na „znak" než angličtina. Skryté znaky se sčítají. Vložený text se zero-width joinery, NBSP nebo BOM se taky počítá. Použij Unicode Inspector, pokud ti počet vychází podezřele vysoký. System + user + assistant se sčítají. Rozpočet kontextového okna zahrnuje každou zprávu konverzace. Nedimenzuj vstup proti surovému limitu; nech 30–50% rezervu na odpovědi.

Počítadlo tokenů

Odhadni počet tokenů pro GPT-4, Claude, Llama, Gemini a další LLM. Vlož text, uvidíš počty per model vedle sebe. Soubory nikdy neopustí tvůj prohlížeč.

Vstup

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

K čemu to slouží?

Každá interakce s LLM se účtuje v tokenech — pod-slovních jednotkách, které tokenizer modelu vyseká z tvého textu. Tokeny určují limity kontextového okna („vejde se to?") i cenu („kolik to bude stát?"). Přesný počet závisí na tokenizeru modelu, který obvykle nemáš po ruce. Tento nástroj dá rychlý odhad pro každý hlavní model vedle sebe plus dolarovou cenu za tento text podle zveřejněných cen.

Kdy to použít

Dimenzování system promptu — zda (plus očekávaný vstup uživatele a rezerva na výstup) vejde do kontextového okna.
Odhad API nákladů dávkové úlohy před spuštěním — vlož 100 reprezentativních vstupů a vynásob.
Porovnání iterací promptů: opravdu se nový zkrátil nebo se ti to jen zdálo?
Sanity check, jestli chyba „příliš dlouhé" nepochází ze skrytého whitespace, BOM značek nebo zbytků z kopírování.

Upřímně o přesnosti

Tohle jsou heuristiky, ne skutečné tokenizery. tiktoken (OpenAI), Anthropic tokenizer, SentencePiece (Llama, Gemini, Mistral) sekají text různě. Pro anglickou prózu jsme do ±5%. Kód, hustý JSON a CJK driftují na ±10% nebo hůř.
Proč neposíláme skutečné tokenizery. Samotný tiktoken je ~1 MB WASM + data; načítat ho jen kvůli počítání tokenů by nafouklo stránku desetinásobně. Pro přesné počty spusť tiktoken v Pythonu lokálně nebo zavolej endpoint /v1/tokenize.
Co děláme správně. Relativní pořadí (který model používá více tokenů pro stejný text) je spolehlivé. Pořadí nákladů taky. Odhady řádu („je to 500 nebo 5000 tokenů?") jsou přesné.

Poznámky k cenám

Ceny jsou vstupní za 1M tokenů k roku 2025. Výstupní tokeny jsou obvykle dražší — vynásob 3–5× pro nejhorší případ.
Llama 3 ukazuje nulovou cenu, protože typický deployment je self-hosted. Hosted nabídky (Together, Groq, Fireworks) účtují $0.20–$1 za 1M podle velikosti.
Ceny se mění. Zkontroluj cenovou stránku poskytovatele, než se spolehneš na tato čísla pro reálný rozpočet.

Časté pasti

Tokeny ≠ slova. Anglické slovo má průměrně 1.3 tokenu; „antidisestablishmentarianism" má asi 7. Kód a strukturovaný text tokenizují hustěji na znak.
CJK text je hustý. Každý čínský / japonský / korejský znak může být vlastní token, takže 1000 znaků ≈ 1000 tokenů — mnohem dražší na „znak" než angličtina.
Skryté znaky se sčítají. Vložený text se zero-width joinery, NBSP nebo BOM se taky počítá. Použij Unicode Inspector, pokud ti počet vychází podezřele vysoký.
System + user + assistant se sčítají. Rozpočet kontextového okna zahrnuje každou zprávu konverzace. Nedimenzuj vstup proti surovému limitu; nech 30–50% rezervu na odpovědi.