Đo lường system prompt để chắc rằng (cộng với input người dùng và phần dư cho output) vừa với context window. Ước tính chi phí API của một batch job trước khi chạy — dán 100 input đại diện và nhân. So sánh các phiên bản prompt: prompt mới thực sự ngắn hơn hay chỉ cảm giác vậy? Sanity check khi lỗi "quá dài" có thể đến từ whitespace ẩn, BOM, hoặc nhiễu copy-paste.

Chi phí là giá input trên 1M token tính đến 2025. Output token thường đắt hơn — nhân 3–5× cho ước tính tệ nhất. Llama 3 hiển thị chi phí 0 vì deployment thường là self-hosted. Các nhà cung cấp hosted (Together, Groq, Fireworks) thu $0.20–$1 mỗi 1M tùy kích thước. Giá thay đổi. Kiểm tra trang giá của nhà cung cấp trước khi dựa vào con số này cho ngân sách thật.

Đếm Token

Ước tính số token cho GPT-4, Claude, Llama, Gemini và các LLM khác. Dán văn bản, xem số đếm theo từng model cạnh nhau. File không bao giờ rời khỏi trình duyệt của bạn.

Đầu vào

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

Công cụ này để làm gì?

Mỗi tương tác với LLM được tính phí theo token — đơn vị sub-từ mà tokenizer của model cắt ra từ văn bản của bạn. Token quyết định cả giới hạn context window ("có vừa không?") lẫn giá ("tốn bao nhiêu?"). Số đếm chính xác phụ thuộc vào tokenizer của model — thường bạn không có sẵn. Công cụ này cho ước tính nhanh cho từng model lớn cạnh nhau, cộng với chi phí USD cho văn bản này theo giá công bố.

Khi nào nên dùng

Đo lường system prompt để chắc rằng (cộng với input người dùng và phần dư cho output) vừa với context window.
Ước tính chi phí API của một batch job trước khi chạy — dán 100 input đại diện và nhân.
So sánh các phiên bản prompt: prompt mới thực sự ngắn hơn hay chỉ cảm giác vậy?
Sanity check khi lỗi "quá dài" có thể đến từ whitespace ẩn, BOM, hoặc nhiễu copy-paste.

Trung thực về độ chính xác

Đây là heuristic, không phải tokenizer thật. tiktoken (OpenAI), tokenizer của Anthropic, và SentencePiece (Llama, Gemini, Mistral) cắt văn bản khác nhau. Với văn xuôi tiếng Anh, chúng tôi nằm trong ±5%. Mã nguồn, JSON dày đặc, và CJK lệch lên ±10% hoặc tệ hơn.
Tại sao không nhúng tokenizer thật. Riêng tiktoken đã ~1 MB WASM + data files; tải chỉ để đếm token sẽ làm trang phình to gấp 10. Cần số đếm chính xác thì chạy tiktoken bằng Python cục bộ hoặc gọi endpoint /v1/tokenize của model.
Cái mà chúng tôi đúng. Thứ tự tương đối (model nào dùng nhiều token hơn cho cùng văn bản) đáng tin cậy. Xếp hạng chi phí thường đúng. Ước tính bậc độ lớn ("500 hay 5000 token?") rất chính xác.

Ghi chú về giá

Chi phí là giá input trên 1M token tính đến 2025. Output token thường đắt hơn — nhân 3–5× cho ước tính tệ nhất.
Llama 3 hiển thị chi phí 0 vì deployment thường là self-hosted. Các nhà cung cấp hosted (Together, Groq, Fireworks) thu $0.20–$1 mỗi 1M tùy kích thước.
Giá thay đổi. Kiểm tra trang giá của nhà cung cấp trước khi dựa vào con số này cho ngân sách thật.

Lưu ý thường gặp

Token ≠ từ. Một từ tiếng Anh trung bình 1.3 token; "antidisestablishmentarianism" khoảng 7. Mã nguồn và văn bản có cấu trúc tokenize dày đặc hơn nhiều trên mỗi ký tự.
Văn bản CJK dày. Mỗi ký tự Trung / Nhật / Hàn có thể là một token, nên 1000 ký tự ≈ 1000 token — đắt hơn nhiều trên mỗi "ký tự" so với tiếng Anh.
Ký tự ẩn cộng dồn. Văn bản dán với zero-width joiner, NBSP, hoặc BOM cũng được tính. Dùng Unicode Inspector nếu số token có vẻ cao đáng ngờ.
System + user + assistant cộng dồn. Ngân sách context window bao gồm mọi tin nhắn trong cuộc trò chuyện. Đừng tính input theo giới hạn thô; chừa 30–50% margin cho câu trả lời.