Wymiarowanie system promptu, żeby (plus input usera i zapas na output) zmieścił się w oknie kontekstu. Estymacja kosztu API joba batchowego przed odpaleniem — wklej 100 reprezentatywnych inputów i pomnóż. Porównywanie iteracji promptów: czy nowy faktycznie się skrócił czy tylko ci się tak wydało? Sanity check, kiedy błąd "za długi" mógł wyjść z niewidocznego whitespace'u, BOM-a albo śmieci z kopiuj-wklej.

Koszty to ceny input za 1M tokenów na 2025. Tokeny output zazwyczaj droższe — pomnóż razy 3–5 dla pesymistycznej estymacji. Llama 3 ma koszt zero, bo typowy deployment to self-host. Hosted (Together, Groq, Fireworks) kasują $0.20–$1 za 1M w zależności od rozmiaru. Ceny się zmieniają. Sprawdź stronę cenową dostawcy, zanim zaufasz tym liczbom dla realnego budżetu.

Tokeny ≠ słowa. Angielskie słowo to średnio 1.3 tokenu; "antidisestablishmentarianism" to ~7. Kod i tekst strukturalny tokenizują się dużo gęściej per znak. CJK jest gęste. Każdy chiński / japoński / koreański znak może być osobnym tokenem, więc 1000 znaków ≈ 1000 tokenów — sporo drożej per "znak" niż angielski. Ukryte znaki się sumują. Wklejony tekst z zero-width joinerami, NBSP-ami albo BOM-em też jest liczony. Użyj Unicode Inspectora, jeśli twoja liczba podejrzanie wysoka. System + user + assistant się sumują. Budżet okna kontekstu obejmuje każdą wiadomość rozmowy. Nie wymiaruj inputu pod surowy limit; zostaw 30–50% zapasu na odpowiedzi.

Licznik Tokenów

Oszacuj liczbę tokenów dla GPT-4, Claude, Llama, Gemini i innych LLM-ów. Wklej tekst, zobacz wynik per model obok siebie. Pliki nigdy nie opuszczają przeglądarki.

Wejście

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

Do czego to służy?

Każda interakcja z LLM-em jest taryfowana w tokenach — sub-słownych jednostkach, na które tokenizer modelu kraje twój tekst. Tokeny determinują zarówno limity okna kontekstu ("zmieści się?") jak i cenę ("ile to będzie kosztować?"). Dokładna liczba zależy od tokenizera modelu, którego zwykle nie masz pod ręką. To narzędzie daje ci szybką estymację dla każdego głównego modelu obok siebie plus koszt w dolarach wg opublikowanych cen.

Kiedy tego użyć

Wymiarowanie system promptu, żeby (plus input usera i zapas na output) zmieścił się w oknie kontekstu.
Estymacja kosztu API joba batchowego przed odpaleniem — wklej 100 reprezentatywnych inputów i pomnóż.
Porównywanie iteracji promptów: czy nowy faktycznie się skrócił czy tylko ci się tak wydało?
Sanity check, kiedy błąd "za długi" mógł wyjść z niewidocznego whitespace'u, BOM-a albo śmieci z kopiuj-wklej.

Uczciwie o dokładności

To heurystyki, nie prawdziwe tokenizery. tiktoken (OpenAI), tokenizer Anthropica i SentencePiece (Llama, Gemini, Mistral) kroją tekst inaczej. Dla angielskiej prozy mieścimy się w ±5%. Kod, gęsty JSON i CJK driftują na ±10% lub gorzej.
Czemu nie wożymy ze sobą prawdziwych tokenizerów. Sam tiktoken to ~1 MB WASM + dane; ładowanie tylko po to, żeby policzyć tokeny, napompowałoby stronę 10×. Dla dokładnych liczb odpal tiktoken w Pythonie lokalnie albo zawołaj endpoint /v1/tokenize.
Co trafiamy. Względna kolejność (który model używa więcej tokenów dla tego samego tekstu) jest wiarygodna. Ranking kosztów zwykle też. Rzędy wielkości ("to 500 czy 5000 tokenów?") są strzałem w dziesiątkę.

O cenach

Koszty to ceny input za 1M tokenów na 2025. Tokeny output zazwyczaj droższe — pomnóż razy 3–5 dla pesymistycznej estymacji.
Llama 3 ma koszt zero, bo typowy deployment to self-host. Hosted (Together, Groq, Fireworks) kasują $0.20–$1 za 1M w zależności od rozmiaru.
Ceny się zmieniają. Sprawdź stronę cenową dostawcy, zanim zaufasz tym liczbom dla realnego budżetu.

Częste pułapki

Tokeny ≠ słowa. Angielskie słowo to średnio 1.3 tokenu; "antidisestablishmentarianism" to ~7. Kod i tekst strukturalny tokenizują się dużo gęściej per znak.
CJK jest gęste. Każdy chiński / japoński / koreański znak może być osobnym tokenem, więc 1000 znaków ≈ 1000 tokenów — sporo drożej per "znak" niż angielski.
Ukryte znaki się sumują. Wklejony tekst z zero-width joinerami, NBSP-ami albo BOM-em też jest liczony. Użyj Unicode Inspectora, jeśli twoja liczba podejrzanie wysoka.
System + user + assistant się sumują. Budżet okna kontekstu obejmuje każdą wiadomość rozmowy. Nie wymiaruj inputu pod surowy limit; zostaw 30–50% zapasu na odpowiedzi.