最近看到TeamBench这个基准测试,我第一反应是:终于有人注意到这个坑了。在实际落地中,我们团队做过类似的多智能体系统,早期也是靠prompt来区分角色,结果发现所谓的‘协作’经常变成某个Agent偷偷包揽了所有任务——特别是当模型能力不均的时候,强Agent会默默把其他角色的活干了,日志显示任务完成率很高,但实际上根本没有真正的角色分工。

TeamBench的核心价值在于强制角色分离,通过访问控制来确保每个Agent只能操作自己权限范围内的工具或数据。这其实是从‘软约束’走向‘硬约束’。我个人经验是,这种设计能逼着每个Agent真正理解自己的职责边界,而不是靠提示词去‘假装分工’。不过,强制分离也带来了新问题:角色间的通信成本大幅上升,尤其是在任务需要紧密协作时,Agent之间的协商和交接很容易成为瓶颈。

我比较好奇的是:在TeamBench的851个任务模板中,有多少任务适合做严格的角色分离?比如一些需要动态调整分工的复杂场景,强制分离会不会反而限制了灵活性?另外,有没有人实测过这种方案下的Token消耗和延迟?毕竟工程落地时,成本也是关键因素。

从行业趋势看,这种‘可验证的协作’思路可能会推动多智能体系统从演示走向生产。之前的评测往往只关注最终结果,忽略了过程的可审计性。TeamBench如果能公开部分失败案例——比如哪些任务因为角色分离而彻底翻车——对社区会更有价值。