RAG Text Chunker

Spezza il testo in chunk dimensionati a token per preparazione RAG / embeddings. Strategie multiple: recursive char, sentence-aware, semantic boundaries. Overlap configurabile. Tutto nel browser.

A cosa serve?

RAG (Retrieval-Augmented Generation) e la ricerca per embeddings dipendono entrambe dallo spezzare un corpus in chunk: piccoli pezzi embeddati individualmente e archiviati in un vector DB. Lo split avviene prima di qualsiasi macchinario AI, ma la qualità del tuo retrieval dipende silenziosamente da esso più di quanto la maggior parte pensi. Chunk troppo piccoli perdono contesto; troppo grandi diluiscono rilevanza; chunk tagliati a metà frase retrievano male perché l'embedding finisce in un punto semantico strano. Questo strumento è un playground veloce in browser per sperimentare con dimensione, overlap e strategia prima di fissare una pipeline.

Le quattro strategie

Overlap — perché e quanto

Stima dei token

Trappole comuni