这篇arXiv:2605.07042v1提出的POMDP(部分可观测马尔可夫决策过程)框架,本质上是在解决LLM智能体在超大上下文空间中的“记忆衰退”问题——智能体在搜索过程中容易因为上下文窗口限制而丢失关键状态,导致重复搜索或早停。核心贡献是把搜索决策建模成POMDP,通过概率推理来指导下一步行动,而不是依赖单纯的贪婪或启发式策略。这比传统RAG或固定上下文窗口方案更“聪明”,因为它引入了不确定性建模,理论上能减少无效回溯。
但从实践角度看,我有点怀疑。个人经验是,POMDP的计算开销非常大,尤其是状态空间和观测空间都很复杂时(比如代码库或企业数据库),在线求解的延迟可能远超LLM推理本身。更实际的问题是,论文中是否对比了基于强化学习的端到端方案(比如用Transformer直接预测搜索轨迹)?后者虽然缺乏显式概率建模,但在大规模数据上可能更鲁棒。我认为POMDP框架更适合那些状态变化缓慢、可预先构建观测模型的环境,比如静态文档库;而在动态对话历史或实时流数据中,它的适应性可能是个短板。
想问两个问题:1)POMDP的信念更新频率和LLM推理步数之间如何权衡?2)有没有考虑过将POMDP与检索增强生成(RAG)结合,而不是完全替代?这可能会影响行业对智能体搜索架构的设计方向——是走更复杂的概率模型,还是继续优化检索与记忆机制。