最近Navers Lab发布的Frontier-Eng Benchmark让我眼前一亮。它不再满足于让AI做‘一次正确’的静态任务,而是聚焦于工程优化中的持续迭代能力——这恰好是当前LLM在落地时最被诟病的短板。我个人在实践中深有体会:让GPT-4写一个GPU kernel原型不难,但要它在固定预算内反复调参、逼近理论极限,往往需要人工介入大量试错。Frontier-Eng通过生成式优化范式模拟了这种‘科研式’调参过程,覆盖GPU优化、电池策略等47个任务,本质上是在考察Agent的探索-利用权衡能力。

我好奇的是:这种优化范式是否依赖特定的奖励模型设计?比如在电池快充策略中,如何定义‘改进’的边界(是电压稳定性优先还是充电速度优先)?如果基准任务本身存在‘次优陷阱’(即局部最优解),Agent能否识别并跳出?另外,从行业看,这类基准可能推动AI从‘代码生成器’向‘工程调优师’进化——但当前模型在长程推理和记忆上的硬伤(比如注意力衰减)是否会被该基准放大?期待有朋友分享实测结果。