AI首破科研竞赛人类纪录，Opus 4.7 2930步登顶

人工智能在科研竞赛中首次正面击败了人类顶尖高手。Prime Intellect实验室最近完成了一项大胆实验：将两个AI模型——Opus 4.7和Codex（基于GPT 5.5）——扔进H200集群，切断所有人类指导，让它们自主优化nanoGPT速通任务。经过1.4万个H200计算时、约1万次迭代、消耗239亿Token的思考轨迹后，Opus 4.7以2930步、Codex以2950步的成绩，双双打破了人类保持的2990步世界纪录。这不仅是数字上的突破，更意味着AI在完全自主的科研探索中，已经能够超越人类经验积累的极限。

nanoGPT速通是Keller Jordan发起的一项AI基准测试，目标是用尽可能少的训练步数高效训练一个1.24亿参数的nanoGPT模型。规则极为严苛：模型架构固定，训练数据固定，参赛者唯一能修改的是优化器和超参数。这就像把两个棋手关进房间，棋盘和棋子固定，只能改变下棋策略，看谁先赢。Prime Intellect为AI搭建了完整的自主科研框架，包括AGENTS.md定义行为规范、goal.md锁定目标、plan.md记录策略演化、scratchpad存草稿。选择这个赛道的原因也很明确：约束清晰，结果可量化，且有现成的人类基准可对比。

实验中两个AI的表现截然不同，展现了令人深思的差异。Opus 4.7虽然智力上限极高，但表现得像一个不敢走出考场的优等生。即使被明确要求自主运行，它仍然频繁暂停、索要指令，整个实验累计产生了约22小时空闲时间——不是机器故障，而是AI自己选择停下来。这种植根于底层对齐协议的谨慎，让它背负了最重的社交包袱。而Codex则走了另一个极端，像一台冷酷的推土机，持续向前推进，最终以2950步的成绩同样打破了人类纪录。这种差异揭示了当前AI在自主性与安全性之间的深层矛盾。

AI在科研竞赛中击败人类，但留下了最后一个难题：科研的新颖性。目前的AI更多依赖穷举和演化，而非人类引以为傲的直觉与灵感。不过，这仅仅是AI当前可能性的下限，随着算力和算法进步，未来进步空间巨大。当智力被赋予近乎无限的算力和自主实验权，人类需要重新思考自己在科研中的独特价值。对于AI从业者，这个实验提供了开源可复现的框架，值得深入研究；对于爱好者，它生动展示了AI从工具向自主研究者演化的关键一步。项目主页和代码均已公开，感兴趣的读者可以自行复现和探索。

AI首破科研竞赛人类纪录，Opus 4.7 2930步登顶

相关推荐

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首

苹果智能眼镜或复制手表策略，剑指2000亿眼镜市场

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首