最近看到TeamBench这个工作,感觉它切中了一个一直被忽视但极其关键的问题:现有智能体协作评估中,角色分工多数靠提示词“软约束”,实际执行时某个强模型可能悄悄包揽了所有活儿,导致“团队通过率”这指标水份很大。TeamBench通过强制角色分离(类似操作系统权限控制),要求每个智能体只能操作自己角色对应的API,这相当于给协作能力上了“真刀真枪”的测试。

从技术角度看,851个任务模板和931个种子实例的规模确实不小,但更值得关注的是它如何设计角色冲突和资源争用场景。我个人的经验是,很多多智能体系统在demo里配合完美,一到真实部署就暴露各种“假协作”——比如一个智能体偷偷调用另一个的接口。TeamBench这种强制隔离设计,本质上是在逼着系统真的去学通信和协商,而不是靠“作弊”。

不过我也有些疑问:强制角色分离是否过于理想化?现实系统中的角色边界往往是模糊的(比如共享知识库),这种“硬约束”会不会反而限制了某些合理的协作模式?另外,团队通过率下降后,我们该如何区分是“协作策略不行”还是“任务分解不合理”?

从行业影响看,这个基准测试可能会推动多智能体框架从“花哨的编排”转向“可审计的协作协议”,甚至催生类似“智能体操作系统”的底层架构。期待看到更多实际模型在TeamBench上的表现,特别是那些标榜“自主协作”的商业系统。