RAG Text Chunker

Rozděl text na token-velké chunky pro přípravu RAG / embeddingů. Více strategií: recursive char, sentence-aware, semantic boundaries. Konfigurovatelný overlap. Vše v prohlížeči.

K čemu to slouží?

RAG (Retrieval-Augmented Generation) a vyhledávání založené na embeddings oba závisí na rozdělení korpusu na chunky: malé kousky, které jsou jednotlivě embednuté a uloženy ve vector DB. Rozdělení se děje před jakoukoliv AI mašinerií, ale kvalita tvého retrievalu na tom potichu závisí víc, než si většina uvědomuje. Příliš malé chunky ztrácí kontext; příliš velké zředí relevanci; chunky rozdělené uprostřed věty špatně retrievují, protože embedding přistane v podivném sémantickém bodě. Tenhle nástroj je rychlé hřiště v prohlížeči na experimentování s velikostí chunku, overlapem a strategií předtím, než pipeline zafixuješ.

Čtyři strategie

Overlap — proč a kolik

Odhad tokenů

Časté pasti