Dimensionar um system prompt pra ter certeza que (mais a entrada do usuário e folga pra saída) cabe na janela de contexto. Estimar o custo de API de um job em lote antes de rodar — cole 100 entradas representativas e multiplique. Comparar iterações de prompt: o novo prompt ficou mesmo mais curto ou só pareceu? Sanity check quando um erro "longo demais" pode vir de whitespace invisível, BOM ou ruído de copy-paste.

Os custos são preços de entrada por 1M tokens em 2025. Tokens de saída costumam ser mais caros — multiplique por 3–5 pra estimativa de pior caso. Llama 3 mostra custo zero porque o deploy típico é self-hosted. Ofertas hospedadas (Together, Groq, Fireworks) cobram $0.20–$1 por 1M dependendo do tamanho. Preços mudam. Confira a página de preços do provedor antes de confiar nesses números pra um orçamento real.

Tokens ≠ palavras. Uma palavra em inglês são em média 1.3 tokens; "antidisestablishmentarianism" são uns 7. Código e texto estruturado tokenizam muito mais denso por caractere. Texto CJK é denso. Cada caractere chinês / japonês / coreano pode ser um token, então 1000 chars ≈ 1000 tokens — bem mais caro por "caractere" que inglês. Caracteres invisíveis somam. Texto colado com zero-width joiners, NBSPs ou BOM é contado também. Use o Unicode Inspector se sua contagem parece suspeita. Sistema + usuário + assistente acumulam. O orçamento da janela de contexto inclui cada mensagem da conversa. Não dimensione sua entrada contra o limite cru; deixe 30–50% de folga pra respostas.

Contador de Tokens

Estima a contagem de tokens em GPT-4, Claude, Llama, Gemini e outros LLMs. Cole o texto e veja a contagem por modelo lado a lado. Os arquivos nunca saem do seu navegador.

Entrada

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

Para que serve?

Toda interação com um LLM é cobrada em tokens — sub-unidades de palavra que o tokenizador do modelo extrai do seu texto. Tokens determinam tanto os limites da janela de contexto ("isso cabe?") quanto o preço ("quanto vai custar?"). A contagem exata depende do tokenizador do modelo, que você normalmente não tem à mão. Esta ferramenta dá uma estimativa rápida para todos os modelos principais lado a lado, mais o custo em dólares pelos preços publicados.

Quando usar

Dimensionar um system prompt pra ter certeza que (mais a entrada do usuário e folga pra saída) cabe na janela de contexto.
Estimar o custo de API de um job em lote antes de rodar — cole 100 entradas representativas e multiplique.
Comparar iterações de prompt: o novo prompt ficou mesmo mais curto ou só pareceu?
Sanity check quando um erro "longo demais" pode vir de whitespace invisível, BOM ou ruído de copy-paste.

Honestidade sobre precisão

São heurísticas, não os tokenizadores reais. tiktoken (OpenAI), o tokenizador da Anthropic e SentencePiece (Llama, Gemini, Mistral) cortam o texto de jeito diferente. Pra prosa inglesa, ficamos dentro de ±5%. Código, JSON denso e CJK derivam pra ±10% ou pior.
Por que não embarcamos os tokenizadores reais. tiktoken sozinho é ~1 MB de WASM + dados; carregar só pra contar token inflaria a página em 10×. Pra contagens exatas, rode tiktoken em Python localmente ou chame o endpoint /v1/tokenize.
O que acertamos. A ordem relativa (qual modelo usa mais tokens pro mesmo texto) é confiável. O ranking de custo geralmente também. Ordens de grandeza ("é 500 ou 5000 tokens?") são precisas.

Notas sobre preços

Os custos são preços de entrada por 1M tokens em 2025. Tokens de saída costumam ser mais caros — multiplique por 3–5 pra estimativa de pior caso.
Llama 3 mostra custo zero porque o deploy típico é self-hosted. Ofertas hospedadas (Together, Groq, Fireworks) cobram $0.20–$1 por 1M dependendo do tamanho.
Preços mudam. Confira a página de preços do provedor antes de confiar nesses números pra um orçamento real.

Pegadinhas comuns

Tokens ≠ palavras. Uma palavra em inglês são em média 1.3 tokens; "antidisestablishmentarianism" são uns 7. Código e texto estruturado tokenizam muito mais denso por caractere.
Texto CJK é denso. Cada caractere chinês / japonês / coreano pode ser um token, então 1000 chars ≈ 1000 tokens — bem mais caro por "caractere" que inglês.
Caracteres invisíveis somam. Texto colado com zero-width joiners, NBSPs ou BOM é contado também. Use o Unicode Inspector se sua contagem parece suspeita.
Sistema + usuário + assistente acumulam. O orçamento da janela de contexto inclui cada mensagem da conversa. Não dimensione sua entrada contra o limite cru; deixe 30–50% de folga pra respostas.