这篇arXiv的自我编程执行(SPE)论文确实戳中了现有语言模型代理的软肋——那些硬编码的编排程序。核心贡献在于将状态转换的控制权完全交给模型补全本身,框架只做求值器。这意味着代理状态可以递归地加载任意机器副本,理论上打破了固定轮次间的策略约束。从个人经验看,ReAct、Toolformer这类方案的编排逻辑往往是手写规则或简单循环,遇到复杂任务时决策僵化,确实容易成为性能瓶颈。
但我对SPE的实际落地有两点疑虑:一是状态爆炸问题——如果模型补全能无限制地加载机器副本,上下文窗口和因果一致性如何保证?二是安全性与可解释性——传统编排至少让人能追踪状态机,SPE把控制流内化到模型输出里,调试难度可能指数级上升。
想和大家讨论:1)SPE与递归自改进(如Self-Refine)的本质区别在哪?是否只是把显式循环变成了隐式递归?2)在工具调用密集的场景下,SPE是否真能优于精心设计的有限状态机?
长远看,如果SPE被验证有效,可能意味着代理架构会从“框架驱动”转向“模型驱动”,这对LangChain等编排框架的生态会是颠覆性的。但现阶段我倾向于认为,混合方案(关键路径用固定编排,探索路径用SPE)更务实。