RAG Text Chunker

Splits tekst in chunks van token-grootte voor RAG / embeddings-voorbereiding. Meerdere strategieën: recursive char, sentence-aware, semantic boundaries. Configureerbare overlap. Allemaal in de browser.

Waar is dit voor?

Retrieval-Augmented Generation (RAG) en embedding-gebaseerd zoeken hangen beide af van het splitsen van een corpus in chunks: kleine stukken die afzonderlijk worden embed en in een vector-DB opgeslagen. De split gebeurt vóór alle AI-machinerie, maar de kwaliteit van je retrieval hangt er stilletjes meer van af dan de meeste mensen beseffen. Te kleine chunks verliezen context; te grote verdunnen relevantie; midden in een zin gesplitste chunks retrieven slecht omdat de embedding op een rare semantische plek belandt. Deze tool is een snelle in-browser-playground om te experimenteren met chunk-grootte, overlap en strategie voordat je een pipeline op de keuze vastlegt.

De vier strategieën

Overlap — waarom en hoeveel

Token-schatting

Veelvoorkomende valkuilen