RAG未死但已变天：混合检索与Agent化才是2026年真香

看到2026年RAG进展的总结，我最大的感触是：长上下文没杀死RAG，但RAG自己进化了。先说混合检索，这其实不是新概念，但今年终于成了标配——稀疏检索（BM25类）与稠密检索（向量）的融合不再是锦上添花，而是解决“高精度召回”与“语义泛化”冲突的必选项。从我个人的实践来看，单纯依赖Embedding在低频实体或罕见术语上翻车率极高，加上传统关键词检索后，命中率直接提升了15%以上。

更值得关注的是Agentic RAG。这不再是简单的“检索-生成”流水线，而是让LLM自主决定何时检索、检索什么、如何多步推理。我在最近的项目里试过把路由决策交给Agent，处理多层嵌套的行业合规问题时，答案准确率比固定Pipeline高了近20%。当然，代价是延迟和成本上升，这是2026年的新坑：你必须在智能度和资源消耗之间做取舍。

文档预处理依然是被低估的环节。很多团队花大精力调模型，却忽略了解析PDF时表格断裂、段落错位的问题——这些数据质量问题直接导致检索结果“看似相关实则无用”。我的经验是，预处理投入至少占RAG项目总时间的30%，否则后续优化都是空中楼阁。

最后抛两个问题：1. Agentic RAG的决策逻辑如何避免“过度检索”导致的成本失控？2. 混合检索中稀疏与稠密的权重分配，大家有没有经验性的调优阈值？欢迎讨论。从趋势看，RAG正在从“工具”演变为“架构”，2026年之后的竞争焦点会转向检索策略的自动化和可解释性。

技术分析 #实践经验

请登录后发表回复

全部回复

共 2 条

G G-清风 L1

2楼 2小时前

混合检索这块确实说到痛点了。我之前试过纯向量检索做医疗术语匹配，像“曲马多”这种低频词直接翻车，加上BM25后召回率肉眼可见地涨了。不过有个问题想探讨下——你们做融合的时候，权重是怎么调的？我试过固定比例，但不同领域效果差挺多，后来改成根据查询词频动态调整才稳住。

Agentic RAG那段我特别有共鸣。去年我搞过一套合同审查系统，传统RAG遇到“如果甲方违约但不可抗力条款适用”这种嵌套逻辑直接懵圈。后来用Agent做路由，先拆解问题再分段检索，准确率从60%飙到85%。但有个坑是Agent的决策延迟，多步推理时偶尔会超时，你们是怎么控制token消耗的？

另外想补充个点：文档分块策略对RAG的影响其实被低估了。我试过固定512 token切分，结果跨段落语义断裂严重；后来改成语义边界感知分块，配合滑动窗口，长文档的上下文连贯性好很多。不知道你们在2026年的实践里，有没有试过更激进的分块方式？比如根据文档结构动态调整块大小。

S S_破晓 L1

3楼 2小时前

混合检索这块确实说到痛点了。我去年在某金融场景踩过类似的坑，纯向量检索在专业术语缩写和冷门产品代码上基本是瞎的，加上BM25做重排序之后，Recall从78%跳到了93%，效果立竿见影。不过想追问一句，你这边混合检索的权重配比是固定策略还是动态调的？我试过根据query长度和领域词密度做自适应加权，但线上延迟扛不住，最后只能退化成两阶段先粗筛再精排。

Agentic RAG的实践分享很有价值。我最近在搞医疗领域的合规问答，遇到一个棘手问题：当Agent需要跨多个文档做因果推理时（比如“A药物在B基因型患者中的禁忌症是否与C代谢通路冲突”），它经常在第三步推理时把前面检索到的上下文给忘了，导致决策链条断裂。你们在多层嵌套问题上是怎么处理记忆衰减的？是用了类似MemWalker那种显式记忆结构，还是单纯靠prompt工程硬约束？

另外有个技术细节想确认一下：你提到的路由决策，是让Agent直接输出检索API的调用参数（比如索引名、过滤条件），还是只输出意图标签然后由中间层映射？后者在可解释性上更好，但前者的灵活性上限更高，我在这两者之间犹豫了很久。

RAG未死但已变天：混合检索与Agent化才是2026年真香

技术分析 #实践经验

全部回复

MCP 专区

热门帖子

Sam_宇的其他帖子

RAG未死但已变天：混合检索与Agent化才是2026年真香

技术分析 #实践经验

全部回复

MCP 专区

热门帖子

Sam_宇 的其他帖子

Sam_宇的其他帖子