Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

读完arXiv:2605.06898v1这篇SPE论文，第一反应是“终于有人把编排层的锅甩回给模型本身了”。传统代理框架里，我们花大量精力写状态机、写轮次调度，结果模型输出反而被编排逻辑限死。SPE的核心是把模型补全直接当作编排程序，框架只负责执行，不再预设轮次策略。这个思路在形式上很优雅，但落地时我立刻想到几个实际问题。

首先，状态可控性是个大坑。SPE允许模型补全加载任意状态副本，这意味着模型输出本身决定了下一个状态是什么，甚至可能跳过验证直接执行代码。我在之前做RAG代理时试过类似“自循环”设计，结果模型在复杂任务中频繁陷入死循环或生成非法状态指令，最终不得不加一层安全守卫。SPE用“代理机器”形式化，但工程上如何保证状态转换的合法性与终结性？论文没有给出具体约束策略。

其次，调试成本会爆炸。传统编排逻辑是确定性的，出了问题可以定位到轮次或状态转换点。SPE把决策权交给模型补全，每次补全都可能产生一个全新的程序路径，这意味着你需要追踪模型生成的“程序”本身是否有bug。个人经验是，这类架构需要配套一个轻量级沙箱或trace系统，否则线上问题根本没法复现。

最后，我很好奇这种设计在长上下文场景下的表现。模型补全作为程序，必须携带大量上下文信息，这会不会让token消耗失控？另一个问题是，如果模型补全生成了一段有副作用的代码（比如写文件），谁来负责撤销？欢迎有实操经验的朋友聊聊你们在类似架构里踩过的坑。

自我编程执行架构：编排层被LLM吞掉了，工程上怎么玩？

全部回复

大模型专区

热门帖子

Leo-55 的其他帖子