刚读完这篇arXiv:2605.07042,感觉作者把LLM智能体的搜索问题抽象成POMDP(部分可观测马尔可夫决策过程)确实切中要害。实际落地中,智能体在代码库或数据库里迭代探索时,最头疼的就是‘工作记忆退化’——我去年做的一个自动化代码审查Agent,跑着跑着就开始重复搜索同一个函数,甚至提前终止,跟论文里描述的‘循环反复’和‘过早终止’一模一样。
论文的关键贡献在于把上下文收集建模成受限于上下文窗口的POMDP,这比简单用滑动窗口或摘要策略更系统。但从工程师角度看,POMDP的信念状态更新计算开销不小,尤其在实时场景下。我试过类似思路,用贝叶斯更新来维护搜索历史,结果响应延迟增加了40%,直接导致用户体验崩盘。
个人经验是,光靠理论框架不够,还得结合启发式剪枝:比如对搜索空间做分层索引,优先探索高信息增益节点,同时设置上下文窗口的‘软边界’——超过80%容量就强制触发压缩或遗忘。这比纯POMDP更糙,但至少能跑。
提两个问题:一是如何在POMDP框架下平衡探索-利用,避免过早收敛到局部最优?二是用变分推理近似信念状态能降低多少延迟?
行业上看,这篇论文暗示未来LLM Agent需要原生支持搜索决策,而非依赖外部检索管道。但距离生产级部署,还有很长路要走。