Mengukur system prompt agar (plus user input dan margin output) muat di context window. Memperkirakan biaya API job batch sebelum dijalankan — tempel 100 input representatif dan kalikan. Membandingkan iterasi prompt: apakah prompt baru benar-benar lebih pendek atau cuma terasa begitu? Sanity check saat error "terlalu panjang" mungkin disebabkan whitespace tersembunyi, BOM, atau noise copy-paste.

Ini heuristik, bukan tokenizer asli. tiktoken (OpenAI), tokenizer Anthropic, dan SentencePiece (Llama, Gemini, Mistral) memotong teks beda-beda. Untuk prosa Inggris, kami berada dalam ±5%. Kode, JSON padat, dan CJK bisa drift ke ±10% atau lebih buruk. Kenapa kami tidak mengirim tokenizer asli. tiktoken saja sekitar ~1 MB WASM + file data; memuatnya hanya untuk menghitung token akan menggemukkan halaman 10× lipat. Untuk hitungan tepat, jalankan tiktoken di Python lokal atau panggil endpoint /v1/tokenize . Yang kami benar. Urutan relatif (model mana yang pakai lebih banyak token untuk teks sama) bisa diandalkan. Ranking biaya biasanya akurat. Estimasi orde-of-magnitude ("ini 500 atau 5000 token?") sangat tepat.

Biaya adalah harga input per 1M token per 2025. Token output biasanya lebih mahal — kalikan 3–5× untuk estimasi worst-case. Llama 3 menampilkan biaya nol karena deployment-nya biasanya self-hosted. Penawaran hosted (Together, Groq, Fireworks) mengenakan $0.20–$1 per 1M tergantung ukuran. Harga berubah. Cek halaman harga provider sebelum percaya angka ini untuk budget sungguhan.

Token ≠ kata. Satu kata Inggris rata-rata 1.3 token; "antidisestablishmentarianism" sekitar 7. Kode dan teks terstruktur tokenize jauh lebih padat per karakter. Teks CJK itu padat. Tiap karakter Tionghoa / Jepang / Korea bisa jadi satu token, jadi 1000 karakter ≈ 1000 token — jauh lebih mahal per "karakter" dibanding Inggris. Karakter tersembunyi menambah. Teks yang ditempel dengan zero-width joiner, NBSP, atau BOM juga dihitung. Pakai Unicode Inspector kalau jumlah token-mu mencurigakan tinggi. System + user + assistant terakumulasi. Budget context window mencakup tiap pesan di percakapan. Jangan ukur input dengan batas mentah; sisakan 30–50% margin untuk balasan.

Penghitung Token

Estimasi jumlah token untuk GPT-4, Claude, Llama, Gemini dan LLM lainnya. Tempel teks, lihat jumlah per model berdampingan. File tidak pernah meninggalkan browser-mu.

Input

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

Untuk apa ini?

Setiap interaksi dengan LLM ditagih dalam token — unit sub-kata yang dipotong tokenizer model dari teksmu. Token menentukan baik batas context window ("muat tidak?") maupun harga ("berapa biayanya?"). Hitungan tepat bergantung pada tokenizer model, yang biasanya tidak kamu pegang. Tool ini memberi estimasi cepat untuk tiap model utama berdampingan, plus biaya dolar untuk teks ini berdasarkan harga yang dipublikasikan.

Kapan digunakan

Mengukur system prompt agar (plus user input dan margin output) muat di context window.
Memperkirakan biaya API job batch sebelum dijalankan — tempel 100 input representatif dan kalikan.
Membandingkan iterasi prompt: apakah prompt baru benar-benar lebih pendek atau cuma terasa begitu?
Sanity check saat error "terlalu panjang" mungkin disebabkan whitespace tersembunyi, BOM, atau noise copy-paste.

Jujur soal akurasi

Ini heuristik, bukan tokenizer asli. tiktoken (OpenAI), tokenizer Anthropic, dan SentencePiece (Llama, Gemini, Mistral) memotong teks beda-beda. Untuk prosa Inggris, kami berada dalam ±5%. Kode, JSON padat, dan CJK bisa drift ke ±10% atau lebih buruk.
Kenapa kami tidak mengirim tokenizer asli. tiktoken saja sekitar ~1 MB WASM + file data; memuatnya hanya untuk menghitung token akan menggemukkan halaman 10× lipat. Untuk hitungan tepat, jalankan tiktoken di Python lokal atau panggil endpoint /v1/tokenize.
Yang kami benar. Urutan relatif (model mana yang pakai lebih banyak token untuk teks sama) bisa diandalkan. Ranking biaya biasanya akurat. Estimasi orde-of-magnitude ("ini 500 atau 5000 token?") sangat tepat.

Catatan harga

Biaya adalah harga input per 1M token per 2025. Token output biasanya lebih mahal — kalikan 3–5× untuk estimasi worst-case.
Llama 3 menampilkan biaya nol karena deployment-nya biasanya self-hosted. Penawaran hosted (Together, Groq, Fireworks) mengenakan $0.20–$1 per 1M tergantung ukuran.
Harga berubah. Cek halaman harga provider sebelum percaya angka ini untuk budget sungguhan.

Kesalahan umum

Token ≠ kata. Satu kata Inggris rata-rata 1.3 token; "antidisestablishmentarianism" sekitar 7. Kode dan teks terstruktur tokenize jauh lebih padat per karakter.
Teks CJK itu padat. Tiap karakter Tionghoa / Jepang / Korea bisa jadi satu token, jadi 1000 karakter ≈ 1000 token — jauh lebih mahal per "karakter" dibanding Inggris.
Karakter tersembunyi menambah. Teks yang ditempel dengan zero-width joiner, NBSP, atau BOM juga dihitung. Pakai Unicode Inspector kalau jumlah token-mu mencurigakan tinggi.
System + user + assistant terakumulasi. Budget context window mencakup tiap pesan di percakapan. Jangan ukur input dengan batas mentah; sisakan 30–50% margin untuk balasan.