RAG Text Chunker

Pecah teks jadi chunk berukuran token untuk persiapan RAG / embeddings. Banyak strategi: recursive char, sentence-aware, semantic boundaries. Overlap bisa diatur. Semua di browser.

Buat apa ini?

RAG (Retrieval-Augmented Generation) dan pencarian berbasis embedding sama-sama bergantung pada memecah corpus jadi chunk: potongan kecil yang masing-masing di-embed dan disimpan di vector DB. Pemecahan terjadi sebelum mesin AI mana pun jalan, tapi kualitas retrieval-mu diam-diam lebih bergantung padanya daripada yang dikira kebanyakan orang. Chunk terlalu kecil kehilangan konteks; terlalu besar mengencerkan relevansi; chunk yang dipotong di tengah kalimat me-retrieve buruk karena embedding mendarat di titik semantik aneh. Tool ini playground cepat di browser untuk bereksperimen dengan ukuran, overlap, dan strategi sebelum kamu fix pipeline.

Empat strategi

Overlap — kenapa dan seberapa

Estimasi token

Jebakan umum