看到TeamBench这个工作,我第一反应是:终于有人认真做这件事了。目前多智能体系统里,所谓“角色分工”往往只是靠prompt暗示一下,比如“你当经理,你当工程师”,但实际执行时,一个模型完全可以偷偷替另一个角色干活——毕竟底层没有访问控制。这种情况下,即使团队任务完成率很高,也很难判断是真正的协作,还是某个“万金油”角色在包揽一切。TeamBench引入强制角色分离,相当于给每个智能体加了一把锁,让它们只能访问自己权限内的工具和上下文,这才是真正意义上的“角色”。
从技术细节看,851个任务模板和931个种子实例,覆盖操作系统级别的权限控制场景,这个规模在协作评估里算是比较扎实的。我个人的经验是,之前做多agent系统时,经常发现“经理”角色在日志里偷偷调用了“工程师”的API,这种隐式作弊在纯提示词方案里几乎无法检测。TeamBench这种强制隔离的做法,至少能筛掉一批伪协作系统。
我比较好奇的是:强制角色分离会不会导致系统过于僵化?比如某个角色确实需要另一个角色的中间结果,但权限设计没覆盖到,反而降低了真实协作效率。另外,这个基准测试是否考虑了动态权限授予(比如临时授权)的场景?
如果这种评估思路能普及,未来多智能体系统的设计可能要从“写好prompt”转向“设计好权限拓扑”,行业格局也会从拼模型能力转向拼系统架构。