Dimensionare un system prompt per essere certo che (più l'input utente e un margine per l'output) ci stia nella finestra di contesto. Stimare il costo API di un batch job prima di lanciarlo — incolla 100 input rappresentativi e moltiplica. Confrontare iterazioni di prompt: il nuovo è davvero più corto o solo sembrava? Sanity check quando un errore "troppo lungo" potrebbe venire da whitespace invisibili, BOM o rumore di copia-incolla.

I costi sono prezzi input per 1M token al 2025. I token di output sono di solito più cari — moltiplica per 3–5 per una stima pessimistica. Llama 3 mostra costo zero perché il deployment tipico è self-hosted. Le offerte hosted (Together, Groq, Fireworks) chiedono $0.20–$1 per 1M a seconda della taglia. I prezzi cambiano. Controlla la pagina prezzi del provider prima di fidarti di questi numeri per un budget vero.

Token ≠ parole. Una parola inglese è in media 1.3 token; "antidisestablishmentarianism" è circa 7. Codice e testo strutturato tokenizzano molto più denso per carattere. Il CJK è denso. Ogni carattere cinese / giapponese / coreano può essere un token, quindi 1000 caratteri ≈ 1000 token — molto più caro per "carattere" rispetto all'inglese. I caratteri nascosti si sommano. Testo incollato con zero-width joiner, NBSP o BOM viene contato. Usa l'Unicode Inspector se il conteggio sembra sospettosamente alto. Sistema + utente + assistente si sommano. Il budget della finestra di contesto include ogni messaggio della conversazione. Non dimensionare l'input contro il limite grezzo; lascia 30–50% di margine per le risposte.

Contatore di Token

Stima i token per GPT-4, Claude, Llama, Gemini e altri LLM. Incolla il testo, vedi i conteggi per modello affiancati. I file non lasciano mai il tuo browser.

Input

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

A cosa serve?

Ogni interazione con un LLM viene tariffata in token — sotto-unità di parola che il tokenizer del modello ricava dal tuo testo. I token determinano sia i limiti della finestra di contesto ("ci sta?") sia il prezzo ("quanto costerà?"). Il conteggio esatto dipende dal tokenizer del modello, che di solito non hai a portata. Questo strumento ti dà una stima rapida per ogni modello principale affiancato, più il costo in dollari secondo i prezzi pubblicati.

Quando usarlo

Dimensionare un system prompt per essere certo che (più l'input utente e un margine per l'output) ci stia nella finestra di contesto.
Stimare il costo API di un batch job prima di lanciarlo — incolla 100 input rappresentativi e moltiplica.
Confrontare iterazioni di prompt: il nuovo è davvero più corto o solo sembrava?
Sanity check quando un errore "troppo lungo" potrebbe venire da whitespace invisibili, BOM o rumore di copia-incolla.

Onestà sull'accuratezza

Sono euristiche, non i veri tokenizer. tiktoken (OpenAI), il tokenizer di Anthropic e SentencePiece (Llama, Gemini, Mistral) tagliano il testo in modo diverso. Per prosa inglese stiamo entro ±5%. Codice, JSON denso e CJK arrivano a ±10% o peggio.
Perché non spediamo i veri tokenizer. tiktoken da solo è ~1 MB di WASM + dati; caricarlo solo per contare i token gonfierebbe la pagina di 10×. Per conteggi esatti lancia tiktoken in Python localmente o chiama l'endpoint /v1/tokenize.
Cosa azzecchiamo. L'ordine relativo (quale modello usa più token per lo stesso testo) è affidabile. Il ranking di costo di solito anche. Gli ordini di grandezza ("è 500 o 5000 token?") sono precisi.

Note sui prezzi

I costi sono prezzi input per 1M token al 2025. I token di output sono di solito più cari — moltiplica per 3–5 per una stima pessimistica.
Llama 3 mostra costo zero perché il deployment tipico è self-hosted. Le offerte hosted (Together, Groq, Fireworks) chiedono $0.20–$1 per 1M a seconda della taglia.
I prezzi cambiano. Controlla la pagina prezzi del provider prima di fidarti di questi numeri per un budget vero.

Trappole comuni

Token ≠ parole. Una parola inglese è in media 1.3 token; "antidisestablishmentarianism" è circa 7. Codice e testo strutturato tokenizzano molto più denso per carattere.
Il CJK è denso. Ogni carattere cinese / giapponese / coreano può essere un token, quindi 1000 caratteri ≈ 1000 token — molto più caro per "carattere" rispetto all'inglese.
I caratteri nascosti si sommano. Testo incollato con zero-width joiner, NBSP o BOM viene contato. Usa l'Unicode Inspector se il conteggio sembra sospettosamente alto.
Sistema + utente + assistente si sommano. Il budget della finestra di contesto include ogni messaggio della conversazione. Non dimensionare l'input contro il limite grezzo; lascia 30–50% di margine per le risposte.