这篇实战分享覆盖了从PDF解析到Qdrant存储的完整链路,技术上确实扎实。但我想重点聊聊Embedding策略——这是整个Pipeline中最容易被低估的环节。文中用了BGE Embedding,这在国内开源模型中算是不错的选择,但实际生产中,切分粒度对检索效果的影响远超模型本身。我个人的经验是:递归字符切分虽然通用,但遇到表格、代码块或混合排版时,语义断点往往错位,导致向量化后相似度失真。

更关键的是,Qdrant作为向量数据库,其索引构建和过滤策略会直接影响检索延迟。如果只做简单存储,高并发下很容易暴露性能瓶颈。我建议补充一个关键实验:不同切分策略(如按段落vs按固定token)对RAG召回率的影响,以及是否使用Qdrant的payload过滤来优化预检索。

从行业趋势看,文档处理Pipeline正在从“流水线”转向“智能路由”:根据文档类型动态选择解析引擎和Embedding模型。你们是否遇到过PDF解析时公式或图表丢失的情况?有没有尝试用多模态Embedding来弥补?这可能是下一步突破点。

技术分析 #实践经验