Contatore di Token
Stima i token per GPT-4, Claude, Llama, Gemini e altri LLM. Incolla il testo, vedi i conteggi per modello affiancati. I file non lasciano mai il tuo browser.
| Model | Tokens | Input $/1M | Cost (this text) |
|---|
A cosa serve?
Ogni interazione con un LLM viene tariffata in token — sotto-unità di parola che il tokenizer del modello ricava dal tuo testo. I token determinano sia i limiti della finestra di contesto ("ci sta?") sia il prezzo ("quanto costerà?"). Il conteggio esatto dipende dal tokenizer del modello, che di solito non hai a portata. Questo strumento ti dà una stima rapida per ogni modello principale affiancato, più il costo in dollari secondo i prezzi pubblicati.
Quando usarlo
- Dimensionare un system prompt per essere certo che (più l'input utente e un margine per l'output) ci stia nella finestra di contesto.
- Stimare il costo API di un batch job prima di lanciarlo — incolla 100 input rappresentativi e moltiplica.
- Confrontare iterazioni di prompt: il nuovo è davvero più corto o solo sembrava?
- Sanity check quando un errore "troppo lungo" potrebbe venire da whitespace invisibili, BOM o rumore di copia-incolla.
Onestà sull'accuratezza
- Sono euristiche, non i veri tokenizer. tiktoken (OpenAI), il tokenizer di Anthropic e SentencePiece (Llama, Gemini, Mistral) tagliano il testo in modo diverso. Per prosa inglese stiamo entro ±5%. Codice, JSON denso e CJK arrivano a ±10% o peggio.
- Perché non spediamo i veri tokenizer. tiktoken da solo è ~1 MB di WASM + dati; caricarlo solo per contare i token gonfierebbe la pagina di 10×. Per conteggi esatti lancia
tiktokenin Python localmente o chiama l'endpoint/v1/tokenize. - Cosa azzecchiamo. L'ordine relativo (quale modello usa più token per lo stesso testo) è affidabile. Il ranking di costo di solito anche. Gli ordini di grandezza ("è 500 o 5000 token?") sono precisi.
Note sui prezzi
- I costi sono prezzi input per 1M token al 2025. I token di output sono di solito più cari — moltiplica per 3–5 per una stima pessimistica.
- Llama 3 mostra costo zero perché il deployment tipico è self-hosted. Le offerte hosted (Together, Groq, Fireworks) chiedono $0.20–$1 per 1M a seconda della taglia.
- I prezzi cambiano. Controlla la pagina prezzi del provider prima di fidarti di questi numeri per un budget vero.
Trappole comuni
- Token ≠ parole. Una parola inglese è in media 1.3 token; "antidisestablishmentarianism" è circa 7. Codice e testo strutturato tokenizzano molto più denso per carattere.
- Il CJK è denso. Ogni carattere cinese / giapponese / coreano può essere un token, quindi 1000 caratteri ≈ 1000 token — molto più caro per "carattere" rispetto all'inglese.
- I caratteri nascosti si sommano. Testo incollato con zero-width joiner, NBSP o BOM viene contato. Usa l'Unicode Inspector se il conteggio sembra sospettosamente alto.
- Sistema + utente + assistente si sommano. Il budget della finestra di contesto include ogni messaggio della conversazione. Non dimensionare l'input contro il limite grezzo; lascia 30–50% di margine per le risposte.