RAG Text Chunker

RAG / embeddings prep के लिए text को token-sized chunks में split करें। कई strategies: recursive char, sentence-aware, semantic boundaries। Configurable overlap। सब browser में।

यह किसके लिए है?

RAG (Retrieval-Augmented Generation) और embedding-based search दोनों एक corpus को chunks में split करने पर निर्भर हैं: छोटे pieces जिन्हें individually embed किया जाता है और एक vector database में store किया जाता है। Split किसी भी AI machinery के चलने से पहले होता है, लेकिन आपके retrieval की quality चुपचाप इस पर अधिक depend करती है जितना अधिकांश लोगों को realise होता है। बहुत छोटे chunks context lose करते हैं; बहुत बड़े chunks relevance dilute करते हैं; mid-sentence split किए गए chunks poorly retrieve करते हैं क्योंकि embedding एक अजीब semantic spot पर land करता है। यह tool एक fast in-browser playground देता है ताकि आप chunk size, overlap, और strategy के साथ experiment कर सकें इससे पहले कि आप एक pipeline को choice के लिए commit करें।

चार strategies

Overlap — क्यों और कितना

Token estimation

Common gotchas