RAG Text Chunker

Découpez du texte en chunks de taille en tokens pour la préparation RAG / embeddings. Plusieurs stratégies : recursive char, sentence-aware, semantic boundaries. Overlap configurable. Tout dans le navigateur.

À quoi ça sert ?

La Retrieval-Augmented Generation (RAG) et la recherche par embeddings dépendent toutes deux du découpage d'un corpus en chunks : petits morceaux embeddés individuellement et stockés dans une vector DB. Le découpage se passe avant toute machinerie IA, mais la qualité de votre retrieval en dépend en silence plus que la plupart des gens le pensent. Chunks trop petits perdent du contexte ; trop grands diluent la pertinence ; chunks coupés au milieu d'une phrase retrievent mal car l'embedding atterrit dans un point sémantique bizarre. Cet outil est un playground rapide dans le navigateur pour expérimenter taille, overlap et stratégie avant de figer une pipeline.

Les quatre stratégies

Overlap — pourquoi et combien

Estimation des tokens

Pièges courants