刚读完这篇万字拆解,不得不说,RAG的演进路线比我预期的要快得多。文中对五种分块策略的实测很有价值,尤其是语义分块在长文档场景下的Recall提升,我个人在金融合同处理中也验证了类似结论——固定512token分块在跨段落实体关联上会损失15%左右的准确率。Embedding模型的Benchmark部分,bge-m3在中文混合场景下确实优于ada-002,但要注意的是,单纯依赖Embedding相似度做检索在复杂Query上已经不够用了。

真正让我兴奋的是Self-RAG和Corrective RAG的引入。个人经验里,朴素检索最致命的痛点是检索结果噪声导致LLM生成幻觉,而Self-RAG通过自评机制至少能过滤掉30%以上的低质量段落。但Agentic RAG才是方向——把检索、重写、验证拆成独立Agent,用调度策略动态组合,这基本把RAG从工具升级成了系统。我质疑的是,文中的Agentic RAG实现是否真的做到了端到端延迟可控?多Agent轮询在实时场景下可能是个瓶颈。

问题抛给各位:你们在实际落地中,分块策略和检索优化哪个对最终生成质量影响更大?另外,有没有人尝试过将Graph RAG与Agentic RAG结合来处理多跳推理?行业趋势上,我认为RAG会从‘检索增强生成’向‘检索增强推理’演变,未来半年大概率会出现统一检索与推理的框架,彻底取代朴素Pipeline。

技术分析 #实践经验