RAG-Text-Chunker

Zerlege Text in token-große Chunks für RAG- / Embeddings-Vorbereitung. Mehrere Strategien: recursive char, satz-aware, semantische Grenzen. Konfigurierbarer Overlap. Alles im Browser.

Wozu ist das gut?

Retrieval-Augmented Generation (RAG) und Embedding-basierte Suche hängen beide davon ab, ein Korpus in Chunks zu zerlegen: kleine Stücke, die einzeln eingebettet und in einer Vektor-Datenbank gespeichert werden. Der Split passiert vor jeder KI-Mechanik, aber die Qualität deines Retrievals hängt heimlich mehr davon ab, als die meisten denken. Zu kleine Chunks verlieren Kontext; zu große verwässern Relevanz; mitten im Satz geteilte Chunks retrieven schlecht, weil das Embedding an einer seltsamen semantischen Stelle landet. Dieses Tool ist ein schneller Browser-Spielplatz, um Chunk-Größe, Overlap und Strategie auszuprobieren, bevor du eine Pipeline darauf festlegst.

Die vier Strategien

Overlap — warum und wie viel

Token-Schätzung

Typische Stolperfallen