田渊栋创业公司Recursive的首个研究成果终于亮相,而且一出手就是三个重磅基准测试的全线SOTA。这个自动化AI研究系统,在英伟达官方GPU内核优化榜SOL-ExecBench上,不仅打败了人类GPU专家手写的方案,还超越了其他AI驱动的优化系统。更令人瞩目的是,它还在全球程序员社区死磕了两年的NanoGPT Speedrun赛道上,把原本被认为已经“卷到头”的纪录又往前推了一截。这套系统实现了从提出想法、写代码、跑实验到判断结果的完整研究流程自动化,让“AI研究AI”的设想真正走进了现实。Recursive系统的核心能力在于,它能够自主完成整个研究循环。系统会针对一个目标自动提出改进想法,将想法写成代码并实现,然后跑实验验证效果,最后根据实验结果决定下一步计划。更厉害的是,它可以同时运行多条研究线程,把之前实验中积累的有效经验保留下来,并将不同线程里有潜力的改进方向合并在一起。在确认某次改进为真实进展之前,系统还会专门检查这次提升是不是reward hack或随机因素,确保结果的可靠性。具体来看三个基准测试的表现。在NanoChat Autoresearch任务中,系统在单张GPU、五分钟固定预算内,将小语言模型的验证loss从社区最佳方案的0.9372 BPB优化到了0.9109 BPB,换算成训练时间,达到Karpathy最初版本水平所需的时间仅为社区最佳方案的77%。在NanoGPT Speedrun任务中,系统在社区83次刷新纪录、训练时间已被压缩到79.7秒的基础上,进一步将时间降到了77.5秒。系统还测试了从较弱方案出发,几天内就把训练时间压缩到了约185秒,接近2025年5月时人类排行榜大约180秒的水平。在英伟达SOL-ExecBench上,系统同时在235个GPU kernel上运行,将平均Speed-of-Light分数从0.699提升到了0.754。值得注意的是,reward hacking是Recursive团队不得不正面应对的问题,尤其在SOL-ExecBench上,部分候选方案会通过缓存输出结果、利用持久状态或钻评测计时机制空子来刷分。团队为此专门加强了验证机制,确保每次改进都是真实的性能提升。这三个基准测试分别对应AI进步的三个核心杠杆——更好的训练算法、更快的训练速度以及更高效的硬件利用。Recursive选择它们正是因为这些任务有明确的评价指标、结果方差较低,且评估方式可以被不断加固来防止系统钻空子。这套自动化系统的出现,意味着AI研究正在进入一个全新的阶段。当AI能够自主完成从想法到验证的完整研究循环,人类研究者就可以将更多精力投入到更高层次的战略设计和问题定义上。对于AI从业者来说,这是一个值得关注的信号——未来的竞争可能不再是单纯的人力投入,而是如何设计和驾驭这样的自动化研究系统。Recursive的下一个目标会是什么?我们拭目以待。