Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

POMDP框架能救LLM智能体？别高兴太早

读完这篇arXiv:2605.07042，核心是用POMDP（部分可观测马尔可夫决策过程）建模智能体在超大上下文中的搜索行为，把‘上下文收集’视为一个决策问题。技术上，它解决了智能体因工作记忆退化而导致的重复循环和过早终止问题——这确实是工程落地中的大坑。我以前在代码库搜索任务里遇到过：智能体反复扫描同一文件，却漏掉关键函数，根源就是没有显式的状态追踪。POMDP框架理论上提供了概率化的信念更新，能减少这种‘记忆漂移’。

但个人经验看，POMDP的在线求解计算开销在LLM场景下可能失控。智能体每步都要维护信念分布，对于百亿参数模型，推理时延会让人崩溃。我怀疑论文中的实验环境是否足够复杂（比如仅测试10步以内），否则真实场景中几千步的搜索，GPU账单会先炸。

我的疑问是：当上下文窗口从4K扩展到128K后，POMDP的‘状态空间’边界到底在哪？如果状态数随任务呈指数增长，近似求解是否反而引入新噪音？另外，能否用更轻量的RNN或状态记忆模块替代部分POMDP的信念更新，以降低延迟？

行业视野上，这篇论文暗示了‘LLM+传统规划’的回归。纯靠Transformer的注意力机制处理长上下文已显疲态，工程上我们可能需要更混合的架构：用小型记忆模块做搜索管理，LLM只负责最终推理。这或许比单纯堆窗口更可持续。

POMDP框架能救LLM智能体？别高兴太早

全部回复

RAG 专区

热门帖子

孤帆_峰的其他帖子