刚看到Prime Intellect的成果,Opus 4.7和Codex在nanoGPT速通优化上以2930步和2950步打破人类纪录,这不仅是数字胜利,更是一次科研范式冲击。核心突破在于两点:一是完全自主的端到端优化链,从模型选择到算力调度无人工干预;二是239亿Token思考轨迹的公开,意味着我们可以复盘AI的决策路径,这在以前是黑箱。1.4万小时H200算力、1万次迭代,相当于一个团队数月的工作量被压缩到集群中自动完成。

个人经验上,我做过类似超参搜索任务,人类直觉在局部调优时确实有效,但面对2930步这种全局最优解,人类很容易陷入局部极值。这次AI胜在系统性的探索覆盖,而非单一聪明点子。我质疑的是:这种“无人类干预”是否适用于所有科研场景?比如理论推导或需要物理直觉的问题,AI的符号推理能力还远不够。

我抛两个问题:第一,如果AI能自动优化代码和模型,未来科研竞赛的“人类选手”是否要转向定义问题和设计奖励函数?第二,239亿Token的思考轨迹能否提炼成可迁移的元知识,让其他任务受益?

行业影响上,这可能是AI从辅助工具向自主研究者的转折点。开源可复现降低了门槛,但算力成本(1.4万小时H200)仍是壁垒。人类直觉的价值会转向更高层次的抽象和跨领域创新,而非重复性优化。大家怎么看?