Dimenzovanie system promptu — či (plus očakávaný vstup používateľa a rezerva na výstup) zmestí do kontextového okna. Odhad API nákladov dávkovej úlohy pred spustením — vlož 100 reprezentatívnych vstupov a vynásob. Porovnanie iterácií promptov: skutočne sa nový skrátil alebo sa ti len zdalo? Sanity check, či chyba „príliš dlhé" nepochádza zo skrytého whitespace, BOM značiek alebo zvyškov z kopírovania.

Toto sú heuristiky, nie skutočné tokenizery. tiktoken (OpenAI), Anthropic tokenizer, SentencePiece (Llama, Gemini, Mistral) sekajú text rôzne. Pre anglickú prózu sme do ±5%. Kód, hustý JSON a CJK driftujú na ±10% alebo horšie. Prečo neposielame skutočné tokenizery. Samotný tiktoken je ~1 MB WASM + dáta; načítavať ho len na počítanie tokenov by nafúklo stránku desaťnásobne. Pre presné počty spusti tiktoken v Pythone lokálne alebo zavolaj endpoint /v1/tokenize . Čo robíme správne. Relatívne poradie (ktorý model použije viac tokenov pre rovnaký text) je spoľahlivé. Poradie nákladov tiež. Odhady rádu („je to 500 alebo 5000 tokenov?") sú presné.

Ceny sú vstupné za 1M tokenov k roku 2025. Výstupné tokeny sú zvyčajne drahšie — vynásob 3–5× pre najhorší prípad. Llama 3 ukazuje nulovú cenu, lebo typický deployment je self-hosted. Hosted ponuky (Together, Groq, Fireworks) účtujú $0.20–$1 za 1M podľa veľkosti. Ceny sa menia. Skontroluj cenovú stránku poskytovateľa, kým sa spoľahneš na tieto čísla pre reálny rozpočet.

Tokeny ≠ slová. Anglické slovo má priemerne 1.3 tokenu; „antidisestablishmentarianism" má asi 7. Kód a štruktúrovaný text tokenizujú hustejšie na znak. CJK text je hustý. Každý čínsky / japonský / kórejský znak môže byť vlastný token, takže 1000 znakov ≈ 1000 tokenov — oveľa drahšie na „znak" než angličtina. Skryté znaky sa sčítajú. Vložený text so zero-width joinermi, NBSP alebo BOM sa tiež počíta. Použi Unicode Inspector, ak ti počet vychádza podozrivo vysoký. System + user + assistant sa sčítavajú. Rozpočet kontextového okna zahŕňa každú správu konverzácie. Nedimenzuj vstup proti surovému limitu; nechaj 30–50% rezervu na odpovede.

Počítadlo tokenov

Odhadni počet tokenov pre GPT-4, Claude, Llama, Gemini a ďalšie LLM. Vlož text, uvidíš počty per model vedľa seba. Súbory nikdy neopustia tvoj prehliadač.

Vstup

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

Načo to slúži?

Každá interakcia s LLM sa účtuje v tokenoch — pod-slovných jednotkách, ktoré tokenizer modelu vyseká z tvojho textu. Tokeny určujú limity kontextového okna („zmestí sa to?") aj cenu („koľko to bude stáť?"). Presný počet závisí od tokenizera modelu, ktorý zvyčajne nemáš poruke. Tento nástroj dá rýchly odhad pre každý hlavný model vedľa seba plus dolárovú cenu za tento text podľa zverejnených cien.

Kedy to použiť

Dimenzovanie system promptu — či (plus očakávaný vstup používateľa a rezerva na výstup) zmestí do kontextového okna.
Odhad API nákladov dávkovej úlohy pred spustením — vlož 100 reprezentatívnych vstupov a vynásob.
Porovnanie iterácií promptov: skutočne sa nový skrátil alebo sa ti len zdalo?
Sanity check, či chyba „príliš dlhé" nepochádza zo skrytého whitespace, BOM značiek alebo zvyškov z kopírovania.

Úprimne o presnosti

Toto sú heuristiky, nie skutočné tokenizery. tiktoken (OpenAI), Anthropic tokenizer, SentencePiece (Llama, Gemini, Mistral) sekajú text rôzne. Pre anglickú prózu sme do ±5%. Kód, hustý JSON a CJK driftujú na ±10% alebo horšie.
Prečo neposielame skutočné tokenizery. Samotný tiktoken je ~1 MB WASM + dáta; načítavať ho len na počítanie tokenov by nafúklo stránku desaťnásobne. Pre presné počty spusti tiktoken v Pythone lokálne alebo zavolaj endpoint /v1/tokenize.
Čo robíme správne. Relatívne poradie (ktorý model použije viac tokenov pre rovnaký text) je spoľahlivé. Poradie nákladov tiež. Odhady rádu („je to 500 alebo 5000 tokenov?") sú presné.

Poznámky k cenám

Ceny sú vstupné za 1M tokenov k roku 2025. Výstupné tokeny sú zvyčajne drahšie — vynásob 3–5× pre najhorší prípad.
Llama 3 ukazuje nulovú cenu, lebo typický deployment je self-hosted. Hosted ponuky (Together, Groq, Fireworks) účtujú $0.20–$1 za 1M podľa veľkosti.
Ceny sa menia. Skontroluj cenovú stránku poskytovateľa, kým sa spoľahneš na tieto čísla pre reálny rozpočet.

Časté pasce

Tokeny ≠ slová. Anglické slovo má priemerne 1.3 tokenu; „antidisestablishmentarianism" má asi 7. Kód a štruktúrovaný text tokenizujú hustejšie na znak.
CJK text je hustý. Každý čínsky / japonský / kórejský znak môže byť vlastný token, takže 1000 znakov ≈ 1000 tokenov — oveľa drahšie na „znak" než angličtina.
Skryté znaky sa sčítajú. Vložený text so zero-width joinermi, NBSP alebo BOM sa tiež počíta. Použi Unicode Inspector, ak ti počet vychádza podozrivo vysoký.
System + user + assistant sa sčítavajú. Rozpočet kontextového okna zahŕňa každú správu konverzácie. Nedimenzuj vstup proti surovému limitu; nechaj 30–50% rezervu na odpovede.