这篇arXiv:2605.07042v1提出的POMDP框架,核心是将智能体在超大上下文环境中的搜索行为建模为部分可观测马尔可夫决策过程,试图通过显式的信念状态更新来缓解循环反复和过早终止问题。从技术角度看,这确实比传统的贪婪搜索或简单记忆回放更有理论支撑——它把搜索过程当作一个序贯决策问题,而非单纯的文本检索。但我在实际调优RAG系统时发现,POMDP的求解复杂度在高维状态空间下会指数级增长,即便用近似方法(如粒子滤波),实时性也可能成为瓶颈。个人经验是,对于代码库导航这类任务,分层检索+显式工作记忆缓冲区的组合往往更实用,虽然缺乏优雅的数学形式,但工程上更可控。我的疑问是:在LLM推理成本仍然高昂的今天,POMDP的额外计算开销是否值得?它更适合离线规划还是在线执行?从行业格局看,这类框架可能会推动智能体架构走向混合路线——用POMDP做高层策略,底层仍依赖检索增强。大家觉得在现实部署中,这种理论模型与工程简化之间的平衡点在哪里?