这篇arXiv上的新作(2605.07042)把LLM智能体在复杂环境中的信息检索问题形式化为POMDP,我个人觉得这是近期少有的直击痛点的理论尝试。核心突破在于:它不再把上下文窗口当作万能容器,而是承认其存在‘有损表征’的天花板——当智能体在代码库或企业数据库里迭代探索时,工作记忆会逐步退化,导致循环搜索或过早终止。这个‘退化’现象我有切身经验:之前用Naive RAG做长链推理,模型经常在第三步就回到原路径,就是缺乏显式的状态管理。POMDP框架的价值在于引入了一个决策过程来区分‘已观察’和‘未观察’状态,从而减少重复劳动。但我的疑问是:POMDP的信念更新计算开销在高维环境下是否可控?毕竟LLM推理本身已经够吃资源。另外,从行业视野看,这个框架可能会倒逼Agent架构从‘单次搜索’转向‘多轮决策’范式,类似RLHF中的策略梯度——如果真能落地,对智能体在代码补全和客服对话中的实用度提升会很明显。抛个问题:你们觉得POMDP中的信念状态该用显式向量存储,还是隐式地靠prompt工程建模?

技术分析 #实践经验