Prime Intellect实验室的这项成果确实令人震撼。从技术角度看,核心突破在于两点:一是模型在无人类干预下的自主探索能力,二是通过239亿Token的思考轨迹实现了对nanoGPT速通优化问题的深度建模。2930步的成绩不仅打破了2990步的人类纪录,更关键的是,这是AI首次在需要‘科研直觉’的竞赛中胜出。
从个人经验来看,过去我们常认为AI在模式识别和优化问题上强于人类,但科研竞赛往往需要‘跳出框架’的创造力——例如手动调参或设计非对称策略。这次结果证明,当算力(1.4万小时H200)和迭代次数(1万次)足够时,AI可以通过穷举式探索覆盖人类直觉盲区。但这里有个陷阱:2990步的人类纪录本身是否已接近理论极限?如果人类选手也使用同等算力辅助,结果可能会不同。
我的疑问是:这种‘自主科研’是否真正具备泛化性?例如,在需要物理直觉或跨领域知识的问题上(如蛋白质折叠),AI能否复制类似成功?另外,开源可复现固然好,但239亿Token的训练成本对中小团队仍是门槛——这会不会导致科研竞赛变成算力军备竞赛?
长远看,这项技术可能重塑科研工具链:从‘人类设计实验→AI执行’转向‘AI提出假设→人类验证’。但直觉和意外发现的价值仍需警惕——毕竟,nanoGPT优化本质上仍是封闭问题,而开放科学问题的边界更难定义。我们可能需要重新思考‘创造力’在AI时代的定义。