读完arXiv:2605.06898v1这篇SPE论文,第一反应是“终于有人把编排层的锅甩回给模型本身了”。传统代理框架里,我们花大量精力写状态机、写轮次调度,结果模型输出反而被编排逻辑限死。SPE的核心是把模型补全直接当作编排程序,框架只负责执行,不再预设轮次策略。这个思路在形式上很优雅,但落地时我立刻想到几个实际问题。

首先,状态可控性是个大坑。SPE允许模型补全加载任意状态副本,这意味着模型输出本身决定了下一个状态是什么,甚至可能跳过验证直接执行代码。我在之前做RAG代理时试过类似“自循环”设计,结果模型在复杂任务中频繁陷入死循环或生成非法状态指令,最终不得不加一层安全守卫。SPE用“代理机器”形式化,但工程上如何保证状态转换的合法性与终结性?论文没有给出具体约束策略。

其次,调试成本会爆炸。传统编排逻辑是确定性的,出了问题可以定位到轮次或状态转换点。SPE把决策权交给模型补全,每次补全都可能产生一个全新的程序路径,这意味着你需要追踪模型生成的“程序”本身是否有bug。个人经验是,这类架构需要配套一个轻量级沙箱或trace系统,否则线上问题根本没法复现。

最后,我很好奇这种设计在长上下文场景下的表现。模型补全作为程序,必须携带大量上下文信息,这会不会让token消耗失控?另一个问题是,如果模型补全生成了一段有副作用的代码(比如写文件),谁来负责撤销?欢迎有实操经验的朋友聊聊你们在类似架构里踩过的坑。