Chunking (文档分块)¶
什么是 Chunking¶
将长文档切分为更小的、语义完整的片段,以便检索和向量化。
为什么重要¶
- 决定检索精度
- 影响上下文长度消耗
- 关系到生成质量
分块策略¶
1. 固定大小分块¶
2. 句子级别分块¶
3. 段落级别分块¶
4. 递归分块¶
5. 语义分块¶
6. 基于结构分块¶
关键参数¶
| 参数 | 说明 | 建议值 |
|---|---|---|
| chunk_size | 块大小 | 500-1000 tokens |
| overlap | 重叠大小 | 10-20% chunk_size |
| min_length | 最小块长度 | 100 tokens |
| max_length | 最大块长度 | 2000 tokens |
选择依据¶
- 短内容检索:小块 + 大 overlap
- 长文档摘要:大块保留更多上下文
- 多主题文档:语义分块或标题分块
相关概念¶
- [[RAG]] - 分块后用于检索增强生成
- [[Embedding]] - 向量化决定语义理解
状态¶
seed
来源¶
待补充