看到Hassabis说我们站在奇点山脚,我第一反应不是兴奋,而是后背发凉。资讯里最让我触动的数据是Anthropic的80%代码合并率,以及安全修复成功率97% vs 人类23%。这组数字意味着什么?不是AI在辅助编码,而是AI已经在主导代码审查和合入流程。我所在的团队最近也尝试了类似实践——让Claude独立处理小模块的PR合并,结果发现它在API契约一致性上确实比人类强,但一旦涉及跨模块的隐式依赖,它生成的合并策略往往忽略边界条件,导致集成测试挂掉。这正是我担心的:80%的合并率可能被高估了,因为那些‘成功’的合并未必覆盖了长尾的退化场景。

我的个人经验是,AI在封闭、定义良好的任务(如单元测试修复、安全补丁)上确实碾压人类,但开放式的架构决策、跨团队接口协商,它依然像个‘盲人摸象’。Jack Clark说的2027-2028年完全脱离人类的AI研发,我觉得过于乐观了——至少现阶段,递归自我提升的瓶颈不在代码生成,而在需求理解和因果推理。

想和大家讨论两个问题:1. 你们团队实测的AI代码合并通过率是多少?有没有遇到‘看起来对但实际引入隐藏Bug’的案例?2. 如果AI研发真的脱离人类,安全研究中那97%的修复成功率会不会只是‘在已定义的安全边界内打补丁’?真正的零日漏洞发现,AI能超越人类直觉吗?

最后说行业影响:当代码合入效率提升8倍,工程师的角色必须从‘写代码的人’转向‘定义问题的人’。未来两年,谁能更快掌握AI无法替代的系统设计能力,谁就能留在牌桌上。