Chunker de Texto pra RAG

Divide texto em chunks dimensionados por tokens pra preparação de RAG / embeddings. Múltiplas estratégias: recursive char, sentence-aware, semantic boundaries. Overlap configurável. Tudo no navegador.

Pra que serve?

RAG (Retrieval-Augmented Generation) e busca por embeddings dependem ambos de dividir um corpus em chunks: pedaços pequenos que são embedados individualmente e guardados num vector DB. A divisão acontece antes de qualquer maquinário de IA, mas a qualidade do seu retrieval depende silenciosamente disso mais do que a maioria pensa. Chunks pequenos demais perdem contexto; grandes demais diluem relevância; chunks cortados no meio de frase retrievam mal porque o embedding cai num ponto semântico estranho. Esta ferramenta é um playground rápido no navegador pra experimentar tamanho, overlap e estratégia antes de fixar uma pipeline.

As quatro estratégias

Overlap — por que e quanto

Estimativa de tokens

Pegadinhas comuns