Token Counter
GPT-4, Claude, Llama, Gemini और अन्य LLMs के लिए token गणना अनुमान। Text paste करें, model-wise counts साथ-साथ देखें। Files आपके browser से बाहर नहीं जातीं।
| Model | Tokens | Input $/1M | Cost (this text) |
|---|
यह किसके लिए है?
LLM के साथ हर interaction tokens में meter होता है — sub-word units जो model का tokenizer आपके text से काटता है। Tokens दोनों context-window limits ("क्या यह fit होगा?") और pricing ("इसका कितना खर्चा होगा?") को drive करते हैं। सटीक count model के tokenizer पर निर्भर करता है, जो आमतौर पर आपके पास नहीं होता। यह tool हर major model के लिए side-by-side एक तेज़ अनुमान देता है, साथ ही प्रत्येक model की published per-token price के against input text का dollar cost भी।
कब इस्तेमाल करें
- System prompt को size करना यह सुनिश्चित करने के लिए कि वह (plus expected user input और output के लिए headroom) context window में fit होता है।
- Batch job चलाने से पहले API cost का अनुमान — 100 representative inputs paste करें और multiply करें।
- Prompt-engineering iterations की तुलना: क्या नया prompt वास्तव में छोटा हो गया, या आपको ऐसा लगा कि हुआ?
- Sanity-check कि "यह बहुत लंबा है" error छुपे whitespace, BOM markers, या copy-paste noise के कारण नहीं हुआ।
सटीकता के बारे में ईमानदारी
- ये heuristics हैं, real tokenizers नहीं। tiktoken (OpenAI), Anthropic का tokenizer, और SentencePiece (Llama, Gemini, Mistral) हर एक text को अलग-अलग काटते हैं। English prose के लिए हमारे अनुमान ±5% के अंदर रहते हैं। Code, dense JSON, और CJK text ±10% या उससे ज़्यादा drift करते हैं।
- हम real tokenizers क्यों ship नहीं करते। अकेला tiktoken ~1 MB का WASM + data files है; tokens count करने के लिए ही इसे load करना page को दस गुना भारी कर देगा। सटीक counts के लिए Python में local में
tiktokenचलाएं या model का/v1/tokenizeendpoint call करें। - हम क्या सही करते हैं। Relative ordering (कौन सा model उसी text के लिए ज़्यादा tokens उपयोग करता है) reliable है। Cost rankings आमतौर पर सटीक होती हैं। Order-of-magnitude अनुमान ("क्या यह 500 या 5000 tokens है?") dead-on होते हैं।
Pricing notes
- Costs 2025 के अनुसार 1M tokens प्रति input prices हैं। Output tokens आमतौर पर ज़्यादा महंगे होते हैं — worst-case output अनुमान के लिए 3–5× गुणा करें।
- Llama 3 zero cost दिखाता है क्योंकि typical deployment self-hosted होता है। Hosted offerings (Together, Groq, Fireworks) size के आधार पर $0.20–$1 प्रति 1M charge करती हैं।
- Prices बदलती रहती हैं। एक real budget के लिए इन numbers पर भरोसा करने से पहले provider का pricing page चेक करें।
आम गलतियाँ
- Tokens ≠ words. एक English word औसतन 1.3 tokens है; "antidisestablishmentarianism" लगभग 7 है। Code और structured text प्रति character ज़्यादा densely tokenise होते हैं।
- CJK text dense है। प्रत्येक Chinese / Japanese / Korean character अपना खुद का token हो सकता है, तो 1000 chars ≈ 1000 tokens — English की तुलना में प्रति "character" बहुत ज़्यादा महंगा।
- Hidden characters जुड़ते हैं। Zero-width joiners, NBSPs, या BOMs वाला pasted text भी count होता है। यदि आपका token count संदिग्ध रूप से ज़्यादा दिख रहा है तो Unicode Inspector tool उपयोग करें।
- System + user + assistant tokens compound होते हैं। "Context window" budget में conversation का हर message शामिल होता है। Raw limit के against अपना input size न करें; replies के लिए 30–50% headroom छोड़ें।