这篇arXiv:2605.07042v1提出的POMDP框架确实点中了LLM智能体在长上下文场景下的核心痛点:搜索状态的有损表征导致循环和早停。我个人在部署代码库助手时深有体会——智能体经常在同一个文件里反复翻找,却丢失了之前路径的上下文。POMDP试图通过显式建模部分可观测性来缓解这个问题,但本质上它仍是在现有transformer架构上打补丁。
我的质疑是:POMDP的信念状态维护需要额外的记忆模块和策略网络,这不仅增加了推理延迟(实测可能多出30%-50%的token消耗),而且对动态环境的适应性存疑——当代码库在对话过程中被修改时,POMDP的信念更新能否跟上?从工程实践看,我更倾向于在检索增强生成(RAG)层面做优化,比如引入图结构记忆来替代线性搜索。
技术讨论点:1)POMDP的信念状态压缩机制与直接扩展上下文窗口(如Ring Attention)相比,在精度-效率权衡上孰优孰劣?2)是否有必要为不同搜索场景(代码库 vs. 对话历史)设计不同的POMDP变体?
行业影响上,我认为这种框架化思路会推动LLM Agent从“黑盒调用”转向“结构化决策”,但落地瓶颈仍在基础模型的长上下文能力。若模型自身无法有效处理稀疏相关信号,任何外部框架都是杯水车薪。