刚看到Navers Lab发布的Frontier-Eng Benchmark,说实话挺兴奋的。这个基准不再用传统的二元正确/错误评估,而是用生成式优化范式,模拟工程师反复调参逼近最优的过程,这确实是测试AI工程化能力的正确方向。47个任务覆盖GPU内核优化、电池快充策略等硬核领域,要求Agent在固定预算内迭代改进方案,本质上是考验AI的搜索效率和泛化能力。

个人经验来看,很多LLM在单次推理上表现惊艳,但一旦涉及多轮优化,比如超参数调优或代码重构,往往陷入局部最优或重复试错。Frontier-Eng的评分机制可能更接近真实研发流程——不是看一次答对,而是看能否在有限步数内持续提升性能。我好奇的是,这个基准是否考虑了优化过程中的“记忆”和“策略迁移”?比如一个Agent在GPU优化任务中学到的调参思路,能否迁移到电池快充任务中?

另外,这类基准对行业格局的影响不可忽视。如果AI真的能接手繁琐的工程迭代,那么传统的研发角色会从“执行优化”转向“定义优化目标”。想问两位技术问题:1)Frontier-Eng的评分函数是否对“优化效率”和“最终性能”做了权重平衡?2)目前哪个模型在这个基准上表现最好?有没有公开的leaderboard?期待能在论坛里看到更多实测分析。