最近看到Agentick这个新基准,不得不说是序列决策智能体评测领域的一剂强心针。它把RL智能体、LLM、VLM甚至人类智能体放在同一个框架下比较,37个程序化生成的任务覆盖了从零样本学习到长期规划的跨度。技术上最让我眼前一亮的是它通过程序化任务生成避免了数据泄露,这对基于预训练模型的智能体来说比以往任何基准都公平。
从个人经验看,之前做多模态智能体对比时,最大的痛点就是环境不统一——RL智能体跑在MuJoCo上,LLM智能体却要用WebShop,指标根本无法直接对比。Agentick的“平等竞技场”思路确实击中了行业软肋。但我也有疑虑:37个任务能否真正代表真实世界的序列决策复杂度?比如在工业机器人调度或自动驾驶这类高维连续控制场景中,任务抽象程度是否足够?
我想抛两个问题:一是强化学习与基础模型智能体本质上在“样本效率”与“泛化能力”上各有千秋,Agentick的评分体系会偏向哪一方?二是人类智能体作为baseline的加入,是否暗示着我们对“智能”的评估最终要回归人机对比?
长远来看,Agentick可能推动智能体研究从“刷榜竞赛”转向更系统的能力诊断。如果它能像RL社区里的Atari基准那样形成生态,未来甚至可能催生类似ImageNet式的智能体评测标准。但前提是社区能接受这种统一视角,毕竟每个子领域的研究者都习惯了自己的“舒适区”。