Anthropic团队研究产品经理Theodora Chu的一段演讲视频近日在开发者社区引发热议。她透露了一个惊人的内部数据:Anthropic超过80%的代码现在由Claude合并。这意味着,模型的角色正在发生根本性转变——从回答问题的工具,进化为能够在一个可反馈、验证、修正的环境中持续完成任务的核心参与者。Theo的核心观点是“Close the Loop”,即给模型一种验证自身输出结果的方式,让Agent真正具备自我改进的能力。在技术细节层面,Theo用SWE-bench Verified基准测试展示了模型能力的飞跃。一年前的Sonnet 3.7得分仅为60%左右,而最新的Opus 4.8已经达到88%。更关键的是,失败率从约40%降至12%,这意味着模型在复杂任务上的失败次数减少了近3倍。这种进步并非简单的“多做对几道题”,而是模型开始具备自适应思考能力。例如,在重建Claude.ai网站的任务中,旧模型会像“不看说明书拼宜家家具”一样直接动手,导致功能不完整;而新模型会先内部规划,甚至输出“实际上……”或“算了,还是……”这样的自我修正词,大幅减少无效工具调用和代码行数。行业影响方面,Theo指出开发者需要重新设计Agent的生存环境。过去人们过度关注“让模型调用更多工具”,但真正的瓶颈在于错误恢复能力。旧模型容易陷入doom looping——失败后重复同样的错误解法。而新模型能读取反馈、理解失败原因并尝试不同路径。这意味着,只要任务足够长,模型必然会遇到代码跑不通、测试失败或环境异常等情况,而真正有价值的Agent不是永不犯错,而是犯错后能自我纠正。因此,产品设计应为模型留出思考空间,使用自适应思考机制让模型自己判断何时需要深入规划。展望未来,Theo给开发者的建议是:不要再用12个月前的任务测试今天的模型,否则会严重低估其能力边界。随着Mythos和Fable系列模型在基准测试上接近饱和,开发者应聚焦于构建能“闭合循环”的产品——让模型在循环、计划模式和动态工作流中持续运行。正如网友rari所言,这场分享比大多数300美元的Agent课程更有价值。对于AI从业者来说,现在是时候重新思考如何面向未来构建产品,而不是为过去的范式设计解决方案了。
Anthropic内部80%代码由Claude合并,Agent闭环真相揭秘
AITNT
3小时前
4
1
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容