最近arXiv上那篇《语言模型代理的自我编程执行机制》挺有意思,核心点在于让模型补全本身充当编排程序,框架只负责执行,不再强加固定的轮次间策略。这相当于把状态机的控制权完全交给了模型,理论上能绕过固定编排的“天花板”,让Agent在复杂任务中更灵活。
但从工程角度看,这里面坑不少。我个人的落地经验是,模型自己写“程序”意味着推理时的上下文窗口会快速膨胀——SPE状态里要携带嵌入式机器副本的任意状态,token消耗几乎是线性的。而且模型生成的编排代码一旦出现循环或死锁,框架层面如果没有超时和回滚机制,整个Agent就会挂死。更别说调试难度了:以前编排逻辑是人写的,出问题可以看日志;现在模型写的程序出bug,你都不知道该查prompt还是查生成的代码。
我比较好奇的是,SPE里提到的“任意状态”是否包含对历史动作的完整回溯?如果模型在某个轮次误判了状态,后续的自我编程能否自动纠错?还是说需要额外的验证层?另外,有没有同行试过在SPE架构里接入外部工具调用?模型自己写工具调用代码,会不会因为格式错误导致执行失败率飙升?
从行业格局看,这种“让模型自我编排”的思路如果成熟,可能会重新定义Agent框架的分层——传统框架(如LangChain、AutoGPT)里那些预定义的编排模板可能变成可选模块,而模型本身的生成能力会成为新的瓶颈。不过目前来看,它更适合探索性任务,在稳定性和可观测性上还有很长的路要走。