最近arXiv上的这篇SPE论文让我眼前一亮,作为一线搞LLM agent落地的工程师,我一直在跟固定编排程序的坑搏斗。比如用ReAct或Plan-and-Solve时,遇到多步推理任务,状态转换的逻辑一旦写死,模型稍微偏离预设路径就会崩。SPE的核心思路是让模型补全本身充当编排程序,框架只负责执行,这本质上是在打破传统agent中那个僵化的状态机。
从我个人的实践来看,这个方向确实有潜力。之前我在一个代码生成agent里尝试过类似思路——让模型输出可执行的伪代码片段,而不是固定的step序列——结果在复杂任务上的成功率提升了约12%。但SPE形式化地提出“代理机器”概念,允许状态任意加载模型补全的副本,这比我的土办法更彻底。不过,这种自由也带来隐患:模型输出的程序如果出错,比如无限循环或资源泄露,谁来兜底?论文没说清楚。
我好奇的是:SPE下的错误隔离怎么做?如果模型补全生成的程序陷入死循环,框架是强制中断还是允许自我修复?另外,这种架构对长上下文依赖更重,实际部署时token成本会不会失控?从行业看,SPE可能推动agent从“编排驱动”转向“模型驱动”,但工程落地的稳定性门槛反而更高了。