RAG Text Chunker

Rozdeľ text na token-veľké chunky pre prípravu RAG / embeddingov. Viac stratégií: recursive char, sentence-aware, semantic boundaries. Konfigurovateľný overlap. Všetko v prehliadači.

Načo to slúži?

RAG (Retrieval-Augmented Generation) a vyhľadávanie založené na embeddingoch oba závisia od rozdelenia korpusu na chunky: malé kúsky, ktoré sú jednotlivo embednuté a uložené vo vector DB. Rozdelenie sa deje pred akoukoľvek AI mašinériou, ale kvalita tvojho retrievalu na tom potichu závisí viac, než si väčšina uvedomuje. Príliš malé chunky strácajú kontext; príliš veľké rozriedia relevanciu; chunky rozdelené uprostred vety zle retrievujú, lebo embedding pristane v zvláštnom sémantickom bode. Tento nástroj je rýchle ihrisko v prehliadači na experimentovanie s veľkosťou chunku, overlapom a stratégiou pred tým, než pipeline zafixuješ.

Štyri stratégie

Overlap — prečo a koľko

Odhad tokenov

Časté pasce