Anthropic内部80%代码由Claude合并，Agent闭环真相揭秘

Anthropic团队研究产品经理Theodora Chu的一段演讲视频近日在开发者社区引发热议。她透露了一个惊人的内部数据：Anthropic超过80%的代码现在由Claude合并。这意味着，模型的角色正在发生根本性转变——从回答问题的工具，进化为能够在一个可反馈、验证、修正的环境中持续完成任务的核心参与者。Theo的核心观点是“Close the Loop”，即给模型一种验证自身输出结果的方式，让Agent真正具备自我改进的能力。在技术细节层面，Theo用SWE-bench Verified基准测试展示了模型能力的飞跃。一年前的Sonnet 3.7得分仅为60%左右，而最新的Opus 4.8已经达到88%。更关键的是，失败率从约40%降至12%，这意味着模型在复杂任务上的失败次数减少了近3倍。这种进步并非简单的“多做对几道题”，而是模型开始具备自适应思考能力。例如，在重建Claude.ai网站的任务中，旧模型会像“不看说明书拼宜家家具”一样直接动手，导致功能不完整；而新模型会先内部规划，甚至输出“实际上……”或“算了，还是……”这样的自我修正词，大幅减少无效工具调用和代码行数。行业影响方面，Theo指出开发者需要重新设计Agent的生存环境。过去人们过度关注“让模型调用更多工具”，但真正的瓶颈在于错误恢复能力。旧模型容易陷入doom looping——失败后重复同样的错误解法。而新模型能读取反馈、理解失败原因并尝试不同路径。这意味着，只要任务足够长，模型必然会遇到代码跑不通、测试失败或环境异常等情况，而真正有价值的Agent不是永不犯错，而是犯错后能自我纠正。因此，产品设计应为模型留出思考空间，使用自适应思考机制让模型自己判断何时需要深入规划。展望未来，Theo给开发者的建议是：不要再用12个月前的任务测试今天的模型，否则会严重低估其能力边界。随着Mythos和Fable系列模型在基准测试上接近饱和，开发者应聚焦于构建能“闭合循环”的产品——让模型在循环、计划模式和动态工作流中持续运行。正如网友rari所言，这场分享比大多数300美元的Agent课程更有价值。对于AI从业者来说，现在是时候重新思考如何面向未来构建产品，而不是为过去的范式设计解决方案了。

Anthropic内部80%代码由Claude合并，Agent闭环真相揭秘

相关推荐

谷歌AI人才流失加剧，Gemini核心团队遭Anthropic挖角

奥特曼隐秘帝国曝光，OpenAI暗藏6650亿美元雷

谷歌工程师因开发Workspace CLI被开除

谷歌AI人才流失加剧，Gemini核心团队遭Anthropic挖角

奥特曼隐秘帝国曝光，OpenAI暗藏6650亿美元雷

📖 更多原创