Compteur de Tokens
Estimez les tokens pour GPT-4, Claude, Llama, Gemini et d'autres LLM. Collez du texte, voyez le compte par modèle côte à côte. Les fichiers ne quittent jamais votre navigateur.
| Model | Tokens | Input $/1M | Cost (this text) |
|---|
À quoi ça sert ?
Chaque interaction avec un LLM est facturée en tokens — des sous-unités de mots que le tokenizer du modèle découpe dans votre texte. Les tokens déterminent à la fois les limites de la fenêtre de contexte ("est-ce que ça rentre ?") et le prix ("combien ça va coûter ?"). Le décompte exact dépend du tokenizer du modèle, que vous n'avez généralement pas sous la main. Cet outil donne une estimation rapide pour chaque modèle majeur côte à côte, plus le coût en dollars selon les prix publiés.
Quand l'utiliser
- Dimensionner un system prompt pour s'assurer qu'il (plus l'entrée utilisateur et la marge pour la sortie) tient dans la fenêtre de contexte.
- Estimer le coût API d'un job batch avant de le lancer — collez 100 entrées représentatives et multipliez.
- Comparer des itérations de prompt : le nouveau prompt est-il vraiment plus court, ou en aviez-vous juste l'impression ?
- Vérification de bon sens quand une erreur "trop long" pourrait venir d'espaces invisibles, de BOM ou de bruit au copier-coller.
Honnêteté sur la précision
- Ce sont des heuristiques, pas les vrais tokenizers. tiktoken (OpenAI), le tokenizer d'Anthropic et SentencePiece (Llama, Gemini, Mistral) découpent différemment. Pour la prose anglaise, on est à ±5%. Code, JSON dense et CJK dérivent à ±10% ou plus.
- Pourquoi on n'embarque pas les vrais tokenizers. tiktoken seul, c'est ~1 Mo de WASM + données ; le charger juste pour compter ferait gonfler la page d'un facteur 10. Pour des comptes exacts, lancez
tiktokenen Python localement ou appelez l'endpoint/v1/tokenize. - Ce qu'on a juste. L'ordre relatif (quel modèle utilise plus de tokens pour le même texte) est fiable. Le classement de coût l'est généralement aussi. Les ordres de grandeur ("c'est 500 ou 5000 tokens ?") sont précis.
Notes sur les prix
- Les coûts sont des prix d'entrée par 1M de tokens en 2025. Les tokens de sortie sont généralement plus chers — multipliez par 3–5 pour une estimation pessimiste.
- Llama 3 affiche un coût nul parce que le déploiement typique est auto-hébergé. Les offres hébergées (Together, Groq, Fireworks) facturent $0.20–$1 par 1M selon la taille.
- Les prix changent. Vérifiez la page de prix du fournisseur avant de vous fier à ces chiffres pour un vrai budget.
Pièges courants
- Tokens ≠ mots. Un mot anglais fait en moyenne 1.3 token ; "anticonstitutionnellement" fait environ 7–8. Le code et le texte structuré tokenisent beaucoup plus dense par caractère.
- Le CJK est dense. Chaque caractère chinois / japonais / coréen peut être son propre token, donc 1000 caractères ≈ 1000 tokens — bien plus cher par "caractère" qu'en anglais.
- Les caractères cachés s'accumulent. Du texte collé avec des zero-width joiners, NBSP ou BOM est compté aussi. Utilisez l'Unicode Inspector si votre compte semble suspicieusement élevé.
- Système + utilisateur + assistant s'additionnent. Le budget de la fenêtre de contexte inclut chaque message. Ne dimensionnez pas votre entrée contre la limite brute ; laissez 30–50% de marge pour les réponses.