RAG テキストチャンカー

RAG・埋め込み準備のためにテキストをトークンサイズのチャンクに分割。複数戦略:再帰文字、文単位、意味境界。重複量を設定可能。すべてブラウザで完結。

これは何のため?

Retrieval-Augmented Generation(RAG)と埋め込みベース検索のどちらも、コーパスを チャンク に分割することに依存します。それぞれのチャンクが個別に埋め込まれ、ベクトル DB に格納されます。分割は AI 機構が動く前に行われますが、検索品質はそこに静かに、ほとんどの人が思うより強く依存します。チャンクが小さすぎると文脈を失い、大きすぎると関連性が薄まり、文の途中で切れたチャンクは埋め込みが妙な意味的位置に落ちて検索品質が下がります。このツールはブラウザ完結の素早いプレイグラウンドで、チャンクサイズ・オーバーラップ・戦略を試してから、パイプラインに組み込めます。

4 つの戦略

オーバーラップ — 理由と量

トークン推定

よくある落とし穴