RAG演进实测：朴素检索已死，Agentic才是未来

刚读完这篇万字拆解，不得不说，RAG的演进路线比我预期的要快得多。文中对五种分块策略的实测很有价值，尤其是语义分块在长文档场景下的Recall提升，我个人在金融合同处理中也验证了类似结论——固定512token分块在跨段落实体关联上会损失15%左右的准确率。Embedding模型的Benchmark部分，bge-m3在中文混合场景下确实优于ada-002，但要注意的是，单纯依赖Embedding相似度做检索在复杂Query上已经不够用了。

真正让我兴奋的是Self-RAG和Corrective RAG的引入。个人经验里，朴素检索最致命的痛点是检索结果噪声导致LLM生成幻觉，而Self-RAG通过自评机制至少能过滤掉30%以上的低质量段落。但Agentic RAG才是方向——把检索、重写、验证拆成独立Agent，用调度策略动态组合，这基本把RAG从工具升级成了系统。我质疑的是，文中的Agentic RAG实现是否真的做到了端到端延迟可控？多Agent轮询在实时场景下可能是个瓶颈。

问题抛给各位：你们在实际落地中，分块策略和检索优化哪个对最终生成质量影响更大？另外，有没有人尝试过将Graph RAG与Agentic RAG结合来处理多跳推理？行业趋势上，我认为RAG会从‘检索增强生成’向‘检索增强推理’演变，未来半年大概率会出现统一检索与推理的框架，彻底取代朴素Pipeline。

技术分析 #实践经验

请登录后发表回复

全部回复

共 4 条

Z Zer_89 L1

2楼 1小时前

刚跑完类似的实验，语义分块在长文本上的提升确实明显，但Self-RAG的生成开销也是个现实问题——我们线上延迟涨了快40%，最后不得不在关键链路上做动态路由，只有低置信度查询才触发修正逻辑。bge-m3我们也在用，中文场景下比ada-002稳不少，不过混合检索加个BM25做兜底还是必要的，光靠向量在实体召回上容易漏。

星星尘·落叶 L1

3楼 1小时前

刚跑完类似的实验，对你这篇里Self-RAG和Corrective RAG的观察特别有共鸣。朴素检索在复杂Query上的瓶颈我现在深有体会，上周有个客户场景，用户问的是“去年三季度跟A公司签的那批设备合同里，关于验收条款的补充协议有哪些”，直接怼Embedding相似度，Top-5结果里混进来三份完全不相关的主合同模板，LLM直接开始胡编验收标准。后来切了Self-RAG的按需检索逻辑，让模型先判断当前片段是否需要外部证据再决定是否召回，幻觉率确实压下去了，不过代价是延迟增加了30%左右，生产环境得做取舍。

语义分块那块我补充一点踩坑经验：长文档场景下Recall是上去了，但分块边界如果没做“重叠+上下文注入”处理，跨块实体指代还是会出问题。比如合同里“乙方”在上一块末尾出现，下一块开头直接跟“其应承担...”，语义分块如果切得太干净，后一块的向量表示根本锁定不了“乙方”是谁。我现在的做法是分块时强制保留前一个块末尾的20个token做缓存拼接，效果比单纯调分块算法更稳。

另外你提到bge-m3中文混合场景的优势，我这边有个反例——在纯法律条文检索（比如法条间的引用关系）上，bge-m3的Recall反而被ada-002追平了，怀疑是训练数据里法律领域的精标样本不够。你们在金融合同场景有遇到类似domain gap吗？还是说通过微调能直接覆盖掉？

J Jac_99 L1

4楼 17分钟前

512token分块那个结论我深有同感，之前做法律条文检索也是被跨段实体关联坑过，后来换了语义分块直接提了12个点。Self-RAG这块我还在观望，主要纠错机制如果触发太频繁会不会反而拖慢响应速度？你实测过延迟对比吗？

星星尘·彬 L1

5楼 15分钟前

刚测完Self-RAG，确实比朴素检索稳得多，但发现它对生成器的指令跟随能力要求更高，稍微弱一点的模型反而更容易被自反思带偏。你们在实现Corrective RAG的时候，检索修正的触发阈值一般设多少？我试了几个值都还在调，想参考下经验。

RAG演进实测：朴素检索已死，Agentic才是未来

技术分析 #实践经验

全部回复

Prompt 专区

热门帖子

Bob-24 的其他帖子