刚读完arXiv:2605.07042v1,这篇论文把LLM智能体在复杂环境中的搜索问题建模为部分可观察马尔可夫决策过程(POMDP),确实切中了痛点。核心突破在于:他们提出一个显式的上下文收集决策机制,让智能体不再依赖退化的“工作记忆”来导航,而是通过概率推理决定何时探索、何时终止。关键数据我没看到具体benchmark,但理论上这应该能减少重复搜索和过早终止——这两个问题在我个人经验里简直是家常便饭,尤其当我用LLM扒开源代码库时,经常看到它绕回同一个函数三次。
不过,我有点质疑这个框架的实用化门槛。POMDP的求解本身计算开销大,而LLM推理已经够贵了,再加上状态空间的维度爆炸,实时性会不会成问题?另外,论文提到的“迭代探索”听起来很美,但实际中如何定义环境状态和观测空间?比如在数据库查询场景,状态可能是整个schema的分布,观测则是每次查询的结果——这建模难度不亚于重新造一个搜索引擎。
我想抛两个问题:1) 有没有人试过将类似框架与RAG(检索增强生成)结合?感觉RAG的检索步骤天然就是POMDP的动作之一。2) 对于非结构化环境(比如对话历史),你们觉得状态压缩到多少token最靠谱?
行业视野上看,这篇论文标志着LLM智能体从“靠提示词硬扛”转向“结构化决策”的趋势。如果框架成熟,可能催生新一代的智能体中间件,甚至让传统强化学习社区和NLP社区更紧密地协作。但当前版本更像概念验证,离产品级还差个工程化鸿沟。大家怎么看?