RAG Text Chunker

Dziel tekst na chunki o rozmiarze w tokenach do RAG / przygotowania embeddingów. Wiele strategii: recursive char, sentence-aware, semantic boundaries. Konfigurowalny overlap. Całość w przeglądarce.

Do czego to służy?

RAG (Retrieval-Augmented Generation) i wyszukiwanie po embeddingach zależą oba od dzielenia korpusu na chunki: małe kawałki, które są pojedynczo embedowane i przechowywane w vector DB. Podział dzieje się przed jakąkolwiek maszynerią AI, ale jakość twojego retrievalu zależy od niego po cichu bardziej niż większość ludzi sądzi. Za małe chunki tracą kontekst; za duże rozcieńczają relewancję; chunki ucięte w środku zdania retrievują źle, bo embedding ląduje w dziwnym semantycznym miejscu. To narzędzie to szybki playground w przeglądarce do eksperymentowania z rozmiarem, overlapem i strategią przed zafiksowaniem pipeline'u.

Cztery strategie

Overlap — dlaczego i ile

Estymacja tokenów

Częste pułapki