科研全流程自动化一直是AI社区的梦想,但过去两年,Auto Research的能力评测大多停留在“一次答题”的层面。Agent能否在真实工程场景中,像人类研究员一样反复试错、持续优化?Einsia AI旗下Navers Lab近日发布的Frontier-Eng Bench,正是为回答这个问题而生。它不关心AI能否一次性给出正确答案,而是追问:在固定预算内,AI能把一个可行方案优化到多好?

Frontier-Eng定义了一种新评测范式——生成式优化(Generative Optimization)。Agent不再是“交一次答案”,而是进入完整的工程闭环:提出方案,运行程序或仿真器,获取详细反馈,再修改方案,如此循环往复。这恰恰是科研人员和工程师每天在做的事:不是拍脑袋给出最终答案,而是不断试、不断调、不断被现实打脸,再反过来修。为了构建真实可靠的评测系统,研究团队邀请了各工程领域的PhD和硕士生,将他们在实际工作中遇到的典型问题转化为安全、可验证的代码库。Frontier-Eng v1共涵盖47个任务,横跨5大工程方向:计算与量子信息、运筹与决策科学、机器人/控制/能源系统、光学与通信系统、物理科学与工程设计。任务类型包括GPU内核优化、电池快充策略、机械臂运动时间压缩、量子线路优化、数据中心控制、结构拓扑设计、作业车间调度、光学相位设计、单细胞分析和化学反应优化等。

Frontier-Eng在评测设计上明显吸取了过往基准“被钻空子”的教训。评测器和参考数据是只读的,Agent无法修改;候选方案在隔离环境中运行,无法直接触碰评分器;最终分数来自verifier自身输出的日志,而非Agent自行报告。这种设计确保了评测的公正性和可靠性,迫使Agent只能依靠硬实力。对于AI从业者而言,Frontier-Eng的价值在于它直接回应了Auto Research中最核心的痛点:如何将研究人员从繁琐的迭代调优中解放出来。当Agent能真正接过“看反馈、调代码、逼近最优”的过程,科研效率将迎来质的飞跃。

展望未来,Frontier-Eng可能成为评估AI工程能力的重要标杆。对于AI开发者和研究者,建议关注该基准的评测结果,特别是不同Agent在跨领域任务上的表现差异。同时,也可以思考如何将生成式优化范式融入自己的研究或工程实践。毕竟,在真实世界里,持续迭代的能力往往比一次性的“正确答案”更有价值。随着更多团队参与这一评测,我们或许很快就能看到AI在工程优化领域带来真正的突破。