Dimensionar un system prompt para asegurar que (más la entrada del usuario y margen para la respuesta) cabe en la ventana de contexto. Estimar el coste de API de un trabajo en lote antes de lanzarlo — pega 100 entradas representativas y multiplica. Comparar iteraciones de prompt: ¿el nuevo prompt es realmente más corto o solo lo parecía? Comprobación rápida cuando un error de "demasiado largo" pueda deberse a espacios ocultos, BOM o ruido al pegar.

Tokens ≠ palabras. Una palabra en inglés son ~1.3 tokens; "antidisestablishmentarianism" son ~7. El código y el texto estructurado tokenizan mucho más alto por carácter. El texto CJK es denso. Cada carácter chino / japonés / coreano puede ser un token, así que 1000 caracteres ≈ 1000 tokens — bastante más caro por "carácter" que en inglés. Los caracteres ocultos suman. Texto pegado con zero-width joiners, NBSPs o BOM se cuenta también. Usa el Unicode Inspector si tu recuento parece sospechosamente alto. Sistema + usuario + asistente se acumulan. El presupuesto de la ventana de contexto incluye cada mensaje de la conversación. No dimensiones tu entrada contra el límite bruto; deja un 30–50% de margen para respuestas.

Contador de Tokens

Estima tokens para GPT-4, Claude, Llama, Gemini y otros LLMs. Pega texto y mira el conteo por modelo lado a lado. Los archivos no salen del navegador.

Entrada

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

¿Para qué sirve?

Cada interacción con un LLM se cobra en tokens — sub-unidades de palabra que el tokenizador del modelo extrae de tu texto. Los tokens determinan tanto los límites de la ventana de contexto ("¿cabe esto?") como el precio ("¿cuánto costará?"). El recuento exacto depende del tokenizador del modelo, que normalmente no tienes a mano. Esta herramienta te da una estimación rápida para todos los modelos principales lado a lado, más el coste en dólares según los precios publicados.

Cuándo usarlo

Dimensionar un system prompt para asegurar que (más la entrada del usuario y margen para la respuesta) cabe en la ventana de contexto.
Estimar el coste de API de un trabajo en lote antes de lanzarlo — pega 100 entradas representativas y multiplica.
Comparar iteraciones de prompt: ¿el nuevo prompt es realmente más corto o solo lo parecía?
Comprobación rápida cuando un error de "demasiado largo" pueda deberse a espacios ocultos, BOM o ruido al pegar.

Honestidad sobre la precisión

Son heurísticas, no los tokenizadores reales. tiktoken (OpenAI), el tokenizador de Anthropic y SentencePiece (Llama, Gemini, Mistral) cortan el texto distinto. Para prosa inglesa, estamos dentro de ±5%. Código, JSON denso y CJK derivan a ±10% o peor.
Por qué no enviamos los tokenizadores reales. tiktoken solo son ~1 MB de WASM + datos; cargarlo solo para contar tokens inflaría la página diez veces. Para conteos exactos, ejecuta tiktoken en Python localmente o llama al endpoint /v1/tokenize.
Lo que sí acertamos. El orden relativo (qué modelo usa más tokens para el mismo texto) es fiable. El ranking de coste suele ser correcto. Las magnitudes ("¿son 500 o 5000 tokens?") son exactas.

Notas sobre los precios

Los costes son precios de entrada por 1M de tokens en 2025. Los tokens de salida suelen ser más caros — multiplica por 3–5 para una estimación pesimista.
Llama 3 muestra coste cero porque el despliegue habitual es auto-alojado. Las ofertas alojadas (Together, Groq, Fireworks) cobran $0.20–$1 por 1M según el tamaño.
Los precios cambian. Consulta la página de precios del proveedor antes de fiarte de estos números para un presupuesto real.

Errores comunes

Tokens ≠ palabras. Una palabra en inglés son ~1.3 tokens; "antidisestablishmentarianism" son ~7. El código y el texto estructurado tokenizan mucho más alto por carácter.
El texto CJK es denso. Cada carácter chino / japonés / coreano puede ser un token, así que 1000 caracteres ≈ 1000 tokens — bastante más caro por "carácter" que en inglés.
Los caracteres ocultos suman. Texto pegado con zero-width joiners, NBSPs o BOM se cuenta también. Usa el Unicode Inspector si tu recuento parece sospechosamente alto.
Sistema + usuario + asistente se acumulan. El presupuesto de la ventana de contexto incluye cada mensaje de la conversación. No dimensiones tu entrada contra el límite bruto; deja un 30–50% de margen para respuestas.