Größenabschätzung eines System-Prompts — passt er (plus User-Eingabe plus Output-Puffer) ins Kontextfenster? API-Kosten eines Batch-Jobs schätzen, bevor du ihn startest — 100 repräsentative Inputs einfügen und multiplizieren. Prompt-Iterationen vergleichen: ist der neue Prompt wirklich kürzer, oder fühlt es sich nur so an? Sanity-Check, wenn ein "zu lang"-Fehler kommt — unsichtbares Whitespace, BOM, Copy-Paste-Müll?

Preise sind Input -Preise pro 1M Tokens (Stand 2025). Output ist meist teurer — für eine Worst-Case-Schätzung mal 3–5. Llama 3 zeigt Kosten von 0, weil es typischerweise selbst gehostet wird. Hosted-Anbieter (Together, Groq, Fireworks) berechnen $0.20–$1 pro 1M je nach Größe. Preise ändern sich. Vor einem echten Budget die Preisseite des Anbieters checken.

Token-Zähler

Schätze Token-Anzahl für GPT-4, Claude, Llama, Gemini und andere LLMs. Text einfügen, Zählung pro Modell nebeneinander sehen. Dateien verlassen den Browser nicht.

Eingabe

Token counts per model

Model	Tokens	Input $/1M	Cost (this text)

Estimates only. Real tokenizers (tiktoken, SentencePiece, etc.) may differ by ±10%. For exact counts, run the model's tokenizer locally.

Wozu ist das gut?

Jede Interaktion mit einem LLM wird in Tokens abgerechnet — Unter-Wort-Einheiten, in die der Tokenizer deinen Text zerlegt. Tokens bestimmen sowohl Kontextfenster-Limits ("passt das rein?") als auch Preise ("was kostet das?"). Die exakte Zahl hängt vom Tokenizer des Modells ab, den du selten zur Hand hast. Dieses Tool gibt dir eine schnelle Schätzung für jedes wichtige Modell nebeneinander, plus die Kosten in Dollar nach offiziellen Preisen.

Wann nützlich

Größenabschätzung eines System-Prompts — passt er (plus User-Eingabe plus Output-Puffer) ins Kontextfenster?
API-Kosten eines Batch-Jobs schätzen, bevor du ihn startest — 100 repräsentative Inputs einfügen und multiplizieren.
Prompt-Iterationen vergleichen: ist der neue Prompt wirklich kürzer, oder fühlt es sich nur so an?
Sanity-Check, wenn ein "zu lang"-Fehler kommt — unsichtbares Whitespace, BOM, Copy-Paste-Müll?

Ehrlich zur Genauigkeit

Das sind Heuristiken, nicht die echten Tokenizer. tiktoken (OpenAI), Anthropics Tokenizer, SentencePiece (Llama, Gemini, Mistral) zerlegen unterschiedlich. Für englischen Fließtext liegen wir bei ±5%. Code, dichtes JSON und CJK driften auf ±10% oder schlechter.
Warum nicht die echten Tokenizer mitliefern? tiktoken allein ist ~1 MB WASM + Daten — würde die Seite um Faktor 10 aufblähen. Für exakte Zahlen führe tiktoken in Python lokal aus oder nutze den /v1/tokenize-Endpoint.
Was wir korrekt liefern. Relative Reihenfolge (welches Modell braucht mehr Tokens für denselben Text) ist verlässlich. Kostenrangfolge meist auch. Größenordnungsschätzungen sind treffsicher.

Preishinweise

Preise sind Input-Preise pro 1M Tokens (Stand 2025). Output ist meist teurer — für eine Worst-Case-Schätzung mal 3–5.
Llama 3 zeigt Kosten von 0, weil es typischerweise selbst gehostet wird. Hosted-Anbieter (Together, Groq, Fireworks) berechnen $0.20–$1 pro 1M je nach Größe.
Preise ändern sich. Vor einem echten Budget die Preisseite des Anbieters checken.

Typische Stolperfallen

Tokens ≠ Wörter. Ein englisches Wort sind im Schnitt 1.3 Tokens; "Donaudampfschifffahrtsgesellschaft" sind eher 8–10. Code und strukturierter Text tokenisieren viel dichter.
CJK ist dicht. Jedes chinesische / japanische / koreanische Zeichen kann ein Token sein, also 1000 Zeichen ≈ 1000 Tokens — pro "Zeichen" deutlich teurer als Englisch.
Versteckte Zeichen summieren sich. Eingefügter Text mit Zero-Width-Joinern, NBSPs oder BOM wird mitgezählt. Bei verdächtig hohen Werten den Unicode Inspector nutzen.
System + User + Assistant addieren sich. Das Kontextfenster umfasst jede Nachricht. Nicht gegen das Roh-Limit dimensionieren — 30–50% Puffer für Antworten lassen.