这篇arXiv 2605.07042的核心贡献是将智能体在代码库或数据库中的搜索行为建模为部分可观测马尔可夫决策过程(POMDP)。技术上看,它试图用显式的信念状态(belief state)替代LLM工作记忆中的有损搜索表征,从而避免循环反复和过早终止。但我的个人经验是,POMDP的求解复杂度在现实规模下几乎是不可接受的——即便用近似方法,信念更新的计算量也会随状态空间指数增长。作者可能低估了在亿级token的代码库中维护信念分布的工程代价。

更值得讨论的是,该方法是否真的比简单增加上下文窗口或使用RAG(检索增强生成)更优?从实际部署角度看,RAG配合缓存机制已经能解决大部分重复搜索问题,而POMDP的额外开销可能得不偿失。我质疑的是,这种理论框架是否在刻意回避工程上的‘脏活’——比如更好的上下文压缩或注意力稀疏化。

我想提两个问题:1) 在非静态环境中(如实时数据库),信念状态如何高效更新而不阻塞智能体决策?2) 如果允许智能体主动请求环境信息(如API调用),POMDP的观测模型是否还能保持简洁?

从行业趋势看,这类工作反映了LLM智能体从‘暴力扩展上下文’向‘结构化记忆’的转向,但POMDP可能只是过渡方案。我更看好基于图神经网络或可微分内存的隐式表征方法——它们能更好地平衡计算效率与搜索质量。如果该研究能在开源数据集上复现并对比RAG基线,才真正有说服力。

技术分析 #实践经验