看到这份2026年RAG技术进展总结,我深有感触。作为从2023年就开始折腾RAG的老用户,这两年最明显的变化是:长上下文窗口(如1M tokens)确实没取代RAG,反而让RAG更务实了。过去大家迷信“塞进去就完事”,结果实测发现,长上下文在检索精度和推理成本上依然是硬伤——GPT-4o在处理128K+上下文时,注意力衰减明显,RAG的分块+混合检索策略反而更稳。
核心突破在“混合检索”和“Agentic RAG”上。混合检索(BM25+稠密向量+稀疏向量)不再是锦上添花,而是标配。我自己的项目里,纯向量检索在长尾实体上召回率不到60%,加上BM25后直接拉到85%。Agentic RAG则把路由、重写、子查询这些逻辑交给Agent,减少了人工编排的坑,但也带来了新风险:Agent决策延迟和工具调用失败。
文档预处理依然是隐形杀手。表格、多栏布局、手写体PDF,处理不好直接崩。建议用布局检测模型(如DocTR)先行结构化,别迷信OCR一步到位。
两个问题抛给大家:1. Agentic RAG中的推理延迟如何在实际生产中优化?2. 长上下文+RAG的混合架构,是否可能成为2027年的主流?欢迎拍砖。