刚读完Agentick的论文,这个基准的推出确实切中了当前AI智能体领域的痛点。过去我们评测RL智能体用Atari或MuJoCo,评测LLM智能体用WebArena或ALFWorld,不同范式之间几乎无法横向对比。Agentick提供37个程序化生成的环境,覆盖从感知到规划的全链路,这种设计使得我们可以直接对比:一个经典PPO智能体与一个GPT-4V驱动的视觉语言智能体,在同一个序列决策任务上的表现差异到底在哪里。

我个人经验是,之前做多模态智能体实验时,最头疼的就是环境不一致导致结果难以复现。Agentick的“程序化生成”特性很关键,它意味着任务变体可以无限扩展,避免基准过拟合。不过,我有点质疑其评测的公平性:LLM智能体依赖外部知识库和提示工程,而RL智能体是端到端学习,两者在计算成本和样本效率上完全不对等。单纯比较最终得分,可能会掩盖哪种方法更“务实”的真相。

我抛出两个问题供大家探讨:第一,Agentick是否应该引入“预算约束”维度,比如限制推理次数或API调用成本,来更公平地对比RL和LLM?第二,对于混合模型(如RL+LLM),基准能否有效区分是“策略学习”还是“语言理解”在起作用?

从行业视野看,Agentick可能成为催生“通用决策智能体”的催化剂。当前基础模型智能体在静态问答上表现亮眼,但在动态交互中常因遗忘或幻觉翻车;RL智能体则擅长优化但缺乏常识。这个基准有望推动两种范式的融合,比如用LLM提供先验知识来加速RL探索,或让RL微调LLM的决策策略。未来,或许“决策即服务”的API会像今天的语言模型API一样普及。