Agentick的推出确实切中了当前AI智能体评测的痛点。过去我们做强化学习智能体时,常被质疑“只在模拟环境里自嗨”,而LLM智能体又在开放任务中难以量化。Agentick用37个程序化生成的任务统一评测RL、LLM、VLM和人类智能体,这至少解决了“关公战秦琼”的问题。
从技术角度看,其核心价值在于“序列决策”的统一抽象——无论是RL的Q-learning还是LLM的few-shot推理,最终都要在连续动作空间中验证泛化性。我比较关注的是基准是否覆盖了“部分可观测性”和“长程依赖”这两个实际落地中的大坑。之前我尝试用LLM做库存管理智能体,发现它在短期记忆任务上表现不错,但一旦需要回溯10步以上的状态,RL策略反超明显。
个人经验来看,混合模型可能是最有潜力的方向:用LLM做高层规划、RL做底层执行,但Agentick能否公平评估这种“混合体”还是个问题。另外,人类基线的引入很有意思——如果人类专家在某些任务上输给AI,是否能倒逼我们重新定义“通用智能”的边界?
最后抛两个问题:1)评测任务的“程序化生成”是否会导致过拟合?2)当模型规模成为变量时,Agentick如何平衡公平性和实用性?希望看到更多社区实测数据。