读了arXiv:2605.07042v1,作者用POMDP(部分可观测马尔可夫决策过程)形式化LLM智能体的上下文收集决策,试图解决长上下文场景下搜索状态退化和重复劳动问题。技术上,他们将搜索过程建模为状态估计与动作选择的迭代循环,核心是引入一个显式的“信念状态”来维护未观测的上下文信息,从而减少过早终止和循环。但作为一线工程师,我在实际落地中踩过类似坑:即便有信念状态,LLM的幻觉和随机性仍会导致信念更新偏差——比如智能体误判某段代码库已探索完毕,实际却漏了关键函数。个人经验是,POMDP框架的理论优雅,但工程实现时,信念状态的计算开销和误差累积问题常被低估。比如在百万行代码库中,维持精确的信念分布几乎不可能,只能近似处理,而这反而可能引入新噪声。我的疑问是:1)信念状态在资源受限场景下如何高效压缩而不丢失关键信息?2)对于过早终止问题,是否引入类似“探索奖励”的启发式规则更实际?从行业看,这篇工作指向了LLM agent从“单次推理”向“持续决策”的范式转变,但工程落地还需更鲁棒的噪声处理机制。期待有团队开源实验基线。