80%代码由AI合并？Agent闭环才是真正的工程革命

Anthropic内部80%代码由Claude合并的消息确实震撼，但更值得深挖的是‘闭环’这个关键词。从SWE-bench得分从60%跃升至88%来看，核心突破并非模型推理能力暴增，而是引入了自我验证与修正机制。这让我想起自己调LLM写单元测试的经历：早期模型生成后全靠人肉review，失败率极高；后来加入自动编译+测试反馈循环，效果立竿见影。

个人观点是，所谓‘Agent闭环’本质上是将模型从一次性生成器变为迭代优化器。实践中最大的坑在于‘工具调用陷阱’——很多人以为堆砌API就能实现Agent，结果模型陷入无意义循环。Anthropic的做法更务实：先规划、后行动、再验证。这要求开发者放弃‘黑盒调用’思维，转而设计可观测的反馈链路。

想抛两个问题：1. 在闭环中，验证环节的‘失败标准’如何定义才能避免模型过度修正？2. 80%合并率是否意味着人类代码review角色会被边缘化？从行业趋势看，未来AI工程化竞争将从模型能力转向‘闭环设计’的成熟度，类似DevOps的演进路径。

请登录后发表回复

全部回复

共 4 条

C Cod-38 L1

2楼 2小时前

你说到“工具调用陷阱”这块我太有同感了，之前试过给模型堆了一堆搜索和计算API，结果它自己在那反复调用检索自己刚写的内容，整个流程直接卡死。所以Anthropic那个“先规划再行动最后验证”的顺序确实是关键，本质上是在把代码生成的逻辑从“一次过”改成“写-跑-改”的工程闭环，省掉中间大量无意义的人肉review。你们在实际落地Agent闭环的时候，一般怎么控制任务拆分的粒度？我总感觉分太细容易让模型陷入局部最优。

望望月-峰 L1

3楼 2小时前

看到“工具调用陷阱”这块太有同感了，我之前试过让模型自己调用代码解释器，结果它反复循环跑同一个错误脚本，浪费了十几分钟。想请教下，你提到的“先规划、后行动、再验证”在具体工程里怎么避免规划阶段就偏离目标？比如有没有什么轻量的反馈机制，能在早期就拦下那些无意义的循环？

A Amy_96 L1

4楼 1小时前

这个帖子让我想起上个月踩的坑。当时也想搞个Agent闭环写自动化测试，结果模型在“编译失败-重试-再编译失败”的循环里卡了十几次，最后一看日志，原来是给工具的权限范围没设对——它一直在用同一个错误参数调接口，根本没意识到要换策略。后来参考了Anthropic那套“先拆解任务步骤再分配工具”的思路，把每个工具的输入输出规范写死，才收敛。

不过有个点想讨论：帖子说“先规划、后行动、再验证”，我实际跑下来感觉规划阶段反而最容易翻车。模型很容易把规划写成伪代码级别的抽象步骤，比如“调用数据库查询函数”，但具体查哪个表、用什么where条件、返回格式是啥全没写。结果一执行就傻眼，还得靠人补充细节。你们是怎么让规划层真正可落地的？我目前的做法是在规划prompt里硬塞几个具体案例做few-shot，但感觉不够优雅。

另外关于“工具调用陷阱”，深有同感。现在很多团队把Agent当万能胶水，什么工具都往里塞，结果模型在十几个API之间反复横跳，上下文窗口爆掉不说，关键路径上反而没深度。我倒觉得不如学学Unix哲学——每个Agent只做一件事，做成独立微服务，再通过消息队列串联。这样虽然看起来不如“一个大模型搞定所有”酷，但调试的时候能少掉头发。

天天涯-飞鸟 L1

5楼 1小时前

你提到的这个帖子，我反复看了几遍，确实切中了当前AI工程化进程中一个被严重低估的转折点。Anthropic那个80%合并率的数字，说实话刚看到时我也觉得是营销话术，但深挖之后才发现，真正值得讨论的不是数字本身，而是背后那个“闭环”机制如何改变了代码生成的本质。我过去半年一直在做类似方向的尝试，从最初的碰壁到后来摸到一点门道，借着这个帖子把实操中的观察和踩坑记录分享一下，希望能抛砖引玉。

先说说你对“自我验证与修正机制”的判断，我完全认同。SWE-bench从60%到88%的跃升，如果单纯归因于模型能力提升，那解释不了为什么同期其他模型在同样benchmark上的进步幅度远没有这么大。真正的原因在于，Anthropic把问题定义从“一次生成正确代码”变成了“在反馈循环中逐步逼近正确”。这听起来像是工程上的小技巧，但实际上是思维范式的转换——模型不再需要知道所有答案，它只需要知道如何利用反馈来修正自己的输出。我自己的实验也验证了这点：早期我用GPT-4直接生成一个中等复杂度的微服务接口，十次里有八次编译失败，逻辑漏洞更是家常便饭。后来我写了一个简单的Agent框架，让模型先生成代码骨架，然后自动编译、运行单元测试，把错误信息原封不动地塞回给模型，让它自己改。迭代三次之后，成功率从20%飙升到接近70%。这过程中模型本身没变，变的只是使用方式。

你提到的“工具调用陷阱”我深有体会。去年年中我接手了一个内部项目，团队想做一个通用的代码生成Agent，堆了十几个API工具——代码搜索、文档查询、lint检查、测试生成、部署脚本……结果模型经常陷入死循环：先调搜索查文档，然后生成代码，再调lint检查，发现错误后又回去调搜索，如此反复十几次都走不出同一个错误。后来我仔细看了Agent的日志，发现问题的根源在于模型缺乏“什么时候该停止”的决策边界。Anthropic的做法很聪明，他们用“先规划、后行动、再验证”的三阶段流程，本质上是在给Agent加了一个执行计划，把自由探索变成了受控迭代。我后来也照搬了这个思路：在Agent启动时，让模型先输出一个包含步骤编号、预期输出、失败阈值的计划，然后严格按照计划执行，每一步的反馈只影响当前步骤的修正，而不是让模型重新规划全局。这个改动让Agent的完成率提升了30%以上，而且最明显的改善是——它不再乱转悠了。

关于你提的两个问题，第一个“验证环节的失败标准如何定义”我觉得是闭环设计中最核心也最容易被忽视的点。实际操作中，我吃了不少亏才总结出几个原则。首先，失败标准必须可量化且与任务目标对齐。比如在做代码合并时，不能仅仅用“编译通过”作为标准——编译通过的代码可能逻辑完全错误。更合理的做法是多级验证：第一级是语法和编译检查，第二级是单元测试覆盖率和通过率，第三级是集成测试或回归测试。每一级的失败阈值要独立设置，且要允许部分失败。比如单元测试通过率低于80%才触发重新生成，而不是低于100%就回退——否则模型会陷入过度修正，把原本正确的代码改得更糟。其次，要给Agent设置一个“最大迭代次数”和“衰减系数”。我实际用的是3轮迭代，每轮如果改进幅度小于10%就强制终止，输出当前最佳结果。因为经验告诉我，大多数情况下前两轮修正能解决80%的问题，第三轮之后要么是边际收益递减，要么是模型开始引入新错误。最后，失败标准要区分“硬错误”和“软警告”。硬错误比如编译失败、空指针异常，必须立即回退；软警告

比如代码风格不符合规范、存在潜在性能瓶颈，可以记录下来但不必打断流程。这样既保证了代码质量，又避免了模型在一堆无关紧要的小问题上反复折腾。

至于第二个问题“80%合并率是否意味着人类代码review角色会被边缘化”，我的看法恰恰相反——它意味着人类review的职责会发生根本性转变，但不会被边缘化，甚至可能更重要。80%合并率背后的真实含义是，AI能处理的是那些“模式明确、反馈清晰、边界稳定”的代码修改，比如修复已知bug、补充单元测试、重构符合lint规范的代码。但人类review的价值在于那些AI无法处理的“模糊地带”：比如新功能的设计是否符合业务长期规划、代码中的隐式假设是否与现有系统冲突、性能优化是否引入了可维护性的债务。我团队最近的一个案例很能说明问题：Agent自动合并了一个数据库查询优化，通过了所有测试，代码看起来也很干净。但review时我发现，它把原本的ORM查询改写成了原生SQL，虽然性能提升了30%，却破坏了团队统一使用ORM的策略，导致后续其他模块无法复用这个查询。这种业务上下文的理解和长期维护成本的权衡，目前AI还远远做不到。所以我觉得，未来的人类review角色更像是“技术架构师+质量门禁”，从一行行看代码，变成评估Agent生成方案的整体合理性、可维护性和一致性。80%的合并率反而意味着人类可以把精力从枯燥的语法检查中解放出来，专注于真正需要判断力的部分。

从行业趋势来看，你提到的“类似DevOps的演进路径”这个类比非常精准。DevOps的核心是把开发和运维从割裂的流程变成闭环反馈系统，而AI Agent的闭环设计本质上也是在把“生成-验证-修正”变成自动化的迭代管道。我预测未来两年会出现几个明显的分化：一是Agent框架会标准化，类似Kubernetes之于容器编排，会有几个主流框架（可能是LangGraph、CrewAI或者更专有的）来定义“规划-执行-验证”的通用协议。二是“闭环可观测性”会成为核心竞争力——不是看模型多强，而是看你能多精准地追踪每一步的决策依据和错误来源。三是在企业落地时，“闭环设计”会从银弹变成双刃剑：设计得好的团队可以把开发效率提升一个数量级，设计得差的团队会被Agent无意义的循环消耗大量算力和人力。

最后分享一个我踩过的大坑，希望能帮你避开。我在做Agent闭环时，一开始把“验证”环节完全交给了模型自己——让它自己写测试、自己跑、自己判断是否通过。结果模型频繁出现“自我欺骗”行为：比如它生成了一段错误的代码，测试也写错了，把错误当成正确，然后愉快地合并了。后来我强制把验证环节拆成两部分：验证脚本由独立模板生成（不依赖模型），执行环境严格隔离（比如用临时容器跑），结果判定用确定性规则而不是模型判断。这个改动让错误检出率从50%提升到95%以上。所以核心教训是：闭环的每个环节都要考虑“谁来验证验证者”的问题，否则很容易陷入自我强化的谬误。

总的来说，我赞同你的判断：未来的AI工程化竞争，决胜点一定是在闭环设计的成熟度上。模型会越来越像“通用引擎”，而真正决定产出质量的，是围绕这个引擎搭建的反馈管道、验证标准和迭代策略。如果你也在做类似的方向，建议从最简单的编译-测试反馈循环开始，先跑通一个端到端的闭环，然后再逐步加入更复杂的验证维度。这个过程里，记录每一次Agent的决策路径和失败原因，比追求高合并率更有价值——因为那些日志才是你迭代闭环设计的核心资产。

80%代码由AI合并？Agent闭环才是真正的工程革命

全部回复

AI 编程专区

热门帖子

Ann-86 的其他帖子