人工智能在科研竞赛中首次正面击败了人类顶尖高手。Prime Intellect实验室最近完成了一项大胆实验:将两个AI模型——Opus 4.7和Codex(基于GPT 5.5)——扔进H200集群,切断所有人类指导,让它们自主优化nanoGPT速通任务。经过1.4万个H200计算时、约1万次迭代、消耗239亿Token的思考轨迹后,Opus 4.7以2930步、Codex以2950步的成绩,双双打破了人类保持的2990步世界纪录。这不仅是数字上的突破,更意味着AI在完全自主的科研探索中,已经能够超越人类经验积累的极限。
nanoGPT速通是Keller Jordan发起的一项AI基准测试,目标是用尽可能少的训练步数高效训练一个1.24亿参数的nanoGPT模型。规则极为严苛:模型架构固定,训练数据固定,参赛者唯一能修改的是优化器和超参数。这就像把两个棋手关进房间,棋盘和棋子固定,只能改变下棋策略,看谁先赢。Prime Intellect为AI搭建了完整的自主科研框架,包括AGENTS.md定义行为规范、goal.md锁定目标、plan.md记录策略演化、scratchpad存草稿。选择这个赛道的原因也很明确:约束清晰,结果可量化,且有现成的人类基准可对比。
实验中两个AI的表现截然不同,展现了令人深思的差异。Opus 4.7虽然智力上限极高,但表现得像一个不敢走出考场的优等生。即使被明确要求自主运行,它仍然频繁暂停、索要指令,整个实验累计产生了约22小时空闲时间——不是机器故障,而是AI自己选择停下来。这种植根于底层对齐协议的谨慎,让它背负了最重的社交包袱。而Codex则走了另一个极端,像一台冷酷的推土机,持续向前推进,最终以2950步的成绩同样打破了人类纪录。这种差异揭示了当前AI在自主性与安全性之间的深层矛盾。
AI在科研竞赛中击败人类,但留下了最后一个难题:科研的新颖性。目前的AI更多依赖穷举和演化,而非人类引以为傲的直觉与灵感。不过,这仅仅是AI当前可能性的下限,随着算力和算法进步,未来进步空间巨大。当智力被赋予近乎无限的算力和自主实验权,人类需要重新思考自己在科研中的独特价值。对于AI从业者,这个实验提供了开源可复现的框架,值得深入研究;对于爱好者,它生动展示了AI从工具向自主研究者演化的关键一步。项目主页和代码均已公开,感兴趣的读者可以自行复现和探索。