Chunker de Texto para RAG

Divide texto en chunks de tamaño en tokens para RAG / preparación de embeddings. Varias estrategias: recursive char, sentence-aware, semantic boundaries. Overlap configurable. Todo en el navegador.

¿Para qué sirve?

RAG (Retrieval-Augmented Generation) y la búsqueda por embeddings dependen ambas de dividir un corpus en chunks: piezas pequeñas que se embedean individualmente y se guardan en una vector DB. La división ocurre antes de cualquier maquinaria de IA, pero la calidad de tu retrieval depende silenciosamente de ella más de lo que la gente cree. Chunks demasiado pequeños pierden contexto; demasiado grandes diluyen relevancia; chunks cortados a mitad de frase retrievan mal porque el embedding cae en un punto semántico raro. Esta herramienta es un playground rápido en el navegador para experimentar con tamaño, overlap y estrategia antes de fijar una pipeline.

Las cuatro estrategias

Overlap — por qué y cuánto

Estimación de tokens

Errores comunes