RAG Metin Chunker

Metni RAG / embedding hazırlığı için token boyutunda chunk'lara böl. Birden fazla strateji: recursive char, sentence-aware, semantic boundaries. Yapılandırılabilir overlap. Hepsi tarayıcıda.

Bu ne işe yarar?

Retrieval-Augmented Generation (RAG) ve embedding tabanlı arama, ikisi de bir korpusu chunk'lara bölmeye dayanır: tek tek embed edilip vector DB'de saklanan küçük parçalar. Bölme herhangi bir AI mekanizmasından önce olur, ama retrieval'ının kalitesi çoğu insanın farkettiğinden sessizce daha fazla buna bağlı. Çok küçük chunk'lar bağlamı kaybeder; çok büyükler relevansı seyreltir; cümle ortasından kesilenler kötü retrieve edilir çünkü embedding garip bir semantik noktada konuşlanır. Bu araç bir pipeline'a karar vermeden önce chunk boyutu, overlap ve stratejiyi deneyebileceğin hızlı bir tarayıcı içi playground.

Dört strateji

Overlap — neden ve ne kadar

Token tahmini

Yaygın tuzaklar