Bộ chia chunk văn bản cho RAG

Chia văn bản thành các chunk theo kích thước token để chuẩn bị RAG / embeddings. Nhiều chiến lược: recursive char, sentence-aware, semantic boundaries. Overlap có thể cấu hình. Tất cả trong trình duyệt.

Cái này để làm gì?

Retrieval-Augmented Generation (RAG) và tìm kiếm dựa trên embedding đều phụ thuộc vào việc tách một corpus thành các chunk: những mảnh nhỏ được embed riêng lẻ và lưu trong vector DB. Việc tách xảy ra trước bất kỳ máy móc AI nào, nhưng chất lượng retrieval của bạn thầm lặng phụ thuộc vào nó nhiều hơn hầu hết mọi người nhận ra. Chunk quá nhỏ mất ngữ cảnh; quá lớn pha loãng độ liên quan; chunk cắt giữa câu retrieve kém vì embedding rơi vào điểm ngữ nghĩa kỳ lạ. Công cụ này là một playground nhanh trong trình duyệt để thử nghiệm với kích thước chunk, overlap và chiến lược trước khi commit pipeline với lựa chọn.

Bốn chiến lược

Overlap — tại sao và bao nhiêu

Ước tính token

Bẫy thường gặp