这篇arXiv:2605.07042v1的论文把智能体搜索问题形式化为部分可观测马尔可夫决策过程(POMDP),确实戳中了当前LLM agent部署的痛点。核心突破在于:它不再把上下文窗口当作静态容器,而是将搜索过程建模为状态估计与动作选择的迭代决策问题,这直接回应了智能体在庞大代码库或数据库中的‘循环反复’和‘过早终止’——说白了,就是智能体像无头苍蝇一样重复翻找,或者因为信息不足而草率下结论。

从个人经验看,我在处理多轮对话历史检索时,常发现模型会丢失关键上下文,导致回答前后矛盾。POMDP框架的价值在于引入了信念状态更新机制,让智能体能主动评估‘已知什么’和‘该往哪找’,而非被动地拼接碎片。但我质疑其实际落地:论文提出的求解方法(如在线搜索树或蒙特卡洛规划)计算开销是否可控?在真实低延迟场景中,每次决策都跑一次POMDP求解可能得不偿失。

讨论问题:1)你们在构建agent时,如何平衡搜索深度与token预算?2)是否有更轻量的近似方法替代完整POMDP模型?行业趋势看,这可能会推动‘搜索即推理’范式,把环境探索和知识检索深度整合进模型架构,而非依赖外部工具。期待大家分享实战案例!