Een system prompt sizen om zeker te weten dat hij (plus user input en marge voor output) in het context window past. De API-kosten van een batch job schatten voor je hem draait — plak 100 representatieve inputs en vermenigvuldig. Prompt-iteraties vergelijken: is de nieuwe prompt echt korter, of voelde het alleen zo? Sanity check als een "te lang"-error kan komen van verborgen whitespace, BOM-markers of copy-paste rommel.

Kosten zijn input -prijzen per 1M tokens vanaf 2025. Output tokens zijn meestal duurder — vermenigvuldig met 3–5× voor een worst-case schatting. Llama 3 toont nul kosten omdat het typisch self-hosted draait. Hosted aanbiedingen (Together, Groq, Fireworks) rekenen $0.20–$1 per 1M afhankelijk van grootte. Prijzen veranderen. Check de prijspagina van de aanbieder voor je op deze cijfers vertrouwt voor een echt budget.

Token Counter

Schat tokens voor GPT-4, Claude, Llama, Gemini en andere LLM's. Plak tekst, zie tellingen per model naast elkaar. Files verlaten je browser nooit.

Invoer

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

Waarvoor is dit?

Elke interactie met een LLM wordt afgerekend in tokens — sub-woord eenheden die de tokenizer van het model uit je tekst hakt. Tokens bepalen zowel context-window limieten ("past dit?") als de prijs ("wat gaat dit kosten?"). Het exacte aantal hangt af van de tokenizer van het model, die je meestal niet bij de hand hebt. Deze tool geeft je een snelle schatting voor elk groot model naast elkaar, plus de dollar-kosten voor de invoer op basis van gepubliceerde prijzen.

Wanneer gebruiken

Een system prompt sizen om zeker te weten dat hij (plus user input en marge voor output) in het context window past.
De API-kosten van een batch job schatten voor je hem draait — plak 100 representatieve inputs en vermenigvuldig.
Prompt-iteraties vergelijken: is de nieuwe prompt echt korter, of voelde het alleen zo?
Sanity check als een "te lang"-error kan komen van verborgen whitespace, BOM-markers of copy-paste rommel.

Eerlijk over nauwkeurigheid

Dit zijn heuristieken, niet de echte tokenizers. tiktoken (OpenAI), Anthropic's tokenizer en SentencePiece (Llama, Gemini, Mistral) hakken tekst verschillend. Voor Engelse proza komen we binnen ±5%. Code, dichte JSON en CJK driften naar ±10% of slechter.
Waarom we de echte tokenizers niet meeleveren. tiktoken alleen al is ~1 MB WASM + data; alleen voor tellen zou de pagina 10× opblazen. Voor exacte tellingen draai tiktoken in Python lokaal of roep het /v1/tokenize-endpoint aan.
Wat we wel goed doen. Relatieve volgorde (welk model meer tokens gebruikt voor dezelfde tekst) is betrouwbaar. Kosten-ranking meestal ook. Orde-van-grootte ("is dit 500 of 5000 tokens?") is dead-on.

Prijs-notities

Kosten zijn input-prijzen per 1M tokens vanaf 2025. Output tokens zijn meestal duurder — vermenigvuldig met 3–5× voor een worst-case schatting.
Llama 3 toont nul kosten omdat het typisch self-hosted draait. Hosted aanbiedingen (Together, Groq, Fireworks) rekenen $0.20–$1 per 1M afhankelijk van grootte.
Prijzen veranderen. Check de prijspagina van de aanbieder voor je op deze cijfers vertrouwt voor een echt budget.

Veelvoorkomende valkuilen

Tokens ≠ woorden. Een Engels woord is gemiddeld 1.3 tokens; "antidisestablishmentarianism" is ongeveer 7. Code en gestructureerde tekst tokeniseren veel hoger per karakter.
CJK-tekst is dicht. Elk Chinees / Japans / Koreaans karakter kan zijn eigen token zijn, dus 1000 karakters ≈ 1000 tokens — veel duurder per "karakter" dan Engels.
Verborgen karakters tellen op. Geplakte tekst met zero-width joiners, NBSP's of BOM's wordt ook meegeteld. Gebruik de Unicode Inspector als je telling verdacht hoog lijkt.
System + user + assistant stapelen. Het context-window budget omvat elke message in het gesprek. Maat je input niet tegen de ruwe limiet; laat 30–50% marge voor antwoorden.