刚读完arXiv:2605.06898v1,这篇关于自我编程执行(SPE)的论文确实点出了一个长期被忽视的痛点:现有语言模型代理的编排程序太死板了。通常我们用LangChain或自定义状态机做轮次管理,本质上都是预设好的流程,一旦遇到边界情况就容易卡死或进入死循环。SPE的思路很激进——让模型补全本身充当编排程序,框架只负责执行,不施加策略。这相当于把状态转换的控制权完全交给了模型,理论上能自适应任意复杂场景。

不过,从我个人经验看,这种“无约束”架构在工程落地时有两个致命隐患:一是模型补全的稳定性,一旦输出格式偏离预期,整个状态机可能直接崩溃;二是安全边界,模型自我编程意味着它可以生成任意代码并执行,这比传统RAG或工具调用风险高得多。论文里提到的“代理机器”概念很酷,但实际部署时,我们至少需要加一层沙箱隔离和输出校验。

我好奇的是:SPE在长对话场景下,状态膨胀和上下文窗口溢出问题怎么解决?另外,有没有人测试过它和ReAct或Plan-and-Solve架构在推理成本上的对比?从行业趋势看,这种“模型即编排”的思路可能会推动更轻量的代理框架出现,但短期内,我觉得混合架构(固定编排+SPE分支)更靠谱。你们怎么看?