Dimensionner un system prompt pour s'assurer qu'il (plus l'entrée utilisateur et la marge pour la sortie) tient dans la fenêtre de contexte. Estimer le coût API d'un job batch avant de le lancer — collez 100 entrées représentatives et multipliez. Comparer des itérations de prompt : le nouveau prompt est-il vraiment plus court, ou en aviez-vous juste l'impression ? Vérification de bon sens quand une erreur "trop long" pourrait venir d'espaces invisibles, de BOM ou de bruit au copier-coller.

Les coûts sont des prix d'entrée par 1M de tokens en 2025. Les tokens de sortie sont généralement plus chers — multipliez par 3–5 pour une estimation pessimiste. Llama 3 affiche un coût nul parce que le déploiement typique est auto-hébergé. Les offres hébergées (Together, Groq, Fireworks) facturent $0.20–$1 par 1M selon la taille. Les prix changent. Vérifiez la page de prix du fournisseur avant de vous fier à ces chiffres pour un vrai budget.

Tokens ≠ mots. Un mot anglais fait en moyenne 1.3 token ; "anticonstitutionnellement" fait environ 7–8. Le code et le texte structuré tokenisent beaucoup plus dense par caractère. Le CJK est dense. Chaque caractère chinois / japonais / coréen peut être son propre token, donc 1000 caractères ≈ 1000 tokens — bien plus cher par "caractère" qu'en anglais. Les caractères cachés s'accumulent. Du texte collé avec des zero-width joiners, NBSP ou BOM est compté aussi. Utilisez l'Unicode Inspector si votre compte semble suspicieusement élevé. Système + utilisateur + assistant s'additionnent. Le budget de la fenêtre de contexte inclut chaque message. Ne dimensionnez pas votre entrée contre la limite brute ; laissez 30–50% de marge pour les réponses.

Compteur de Tokens

Estimez les tokens pour GPT-4, Claude, Llama, Gemini et d'autres LLM. Collez du texte, voyez le compte par modèle côte à côte. Les fichiers ne quittent jamais votre navigateur.

Entrée

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

À quoi ça sert ?

Chaque interaction avec un LLM est facturée en tokens — des sous-unités de mots que le tokenizer du modèle découpe dans votre texte. Les tokens déterminent à la fois les limites de la fenêtre de contexte ("est-ce que ça rentre ?") et le prix ("combien ça va coûter ?"). Le décompte exact dépend du tokenizer du modèle, que vous n'avez généralement pas sous la main. Cet outil donne une estimation rapide pour chaque modèle majeur côte à côte, plus le coût en dollars selon les prix publiés.

Quand l'utiliser

Dimensionner un system prompt pour s'assurer qu'il (plus l'entrée utilisateur et la marge pour la sortie) tient dans la fenêtre de contexte.
Estimer le coût API d'un job batch avant de le lancer — collez 100 entrées représentatives et multipliez.
Comparer des itérations de prompt : le nouveau prompt est-il vraiment plus court, ou en aviez-vous juste l'impression ?
Vérification de bon sens quand une erreur "trop long" pourrait venir d'espaces invisibles, de BOM ou de bruit au copier-coller.

Honnêteté sur la précision

Ce sont des heuristiques, pas les vrais tokenizers. tiktoken (OpenAI), le tokenizer d'Anthropic et SentencePiece (Llama, Gemini, Mistral) découpent différemment. Pour la prose anglaise, on est à ±5%. Code, JSON dense et CJK dérivent à ±10% ou plus.
Pourquoi on n'embarque pas les vrais tokenizers. tiktoken seul, c'est ~1 Mo de WASM + données ; le charger juste pour compter ferait gonfler la page d'un facteur 10. Pour des comptes exacts, lancez tiktoken en Python localement ou appelez l'endpoint /v1/tokenize.
Ce qu'on a juste. L'ordre relatif (quel modèle utilise plus de tokens pour le même texte) est fiable. Le classement de coût l'est généralement aussi. Les ordres de grandeur ("c'est 500 ou 5000 tokens ?") sont précis.

Notes sur les prix

Les coûts sont des prix d'entrée par 1M de tokens en 2025. Les tokens de sortie sont généralement plus chers — multipliez par 3–5 pour une estimation pessimiste.
Llama 3 affiche un coût nul parce que le déploiement typique est auto-hébergé. Les offres hébergées (Together, Groq, Fireworks) facturent $0.20–$1 par 1M selon la taille.
Les prix changent. Vérifiez la page de prix du fournisseur avant de vous fier à ces chiffres pour un vrai budget.

Pièges courants

Tokens ≠ mots. Un mot anglais fait en moyenne 1.3 token ; "anticonstitutionnellement" fait environ 7–8. Le code et le texte structuré tokenisent beaucoup plus dense par caractère.
Le CJK est dense. Chaque caractère chinois / japonais / coréen peut être son propre token, donc 1000 caractères ≈ 1000 tokens — bien plus cher par "caractère" qu'en anglais.
Les caractères cachés s'accumulent. Du texte collé avec des zero-width joiners, NBSP ou BOM est compté aussi. Utilisez l'Unicode Inspector si votre compte semble suspicieusement élevé.
Système + utilisateur + assistant s'additionnent. Le budget de la fenêtre de contexte inclut chaque message. Ne dimensionnez pas votre entrée contre la limite brute ; laissez 30–50% de marge pour les réponses.