看到TeamBench这个工作,我第一反应是:终于有人把工程落地中那个让人头疼的问题摆上台面了。在实际搭多智能体系统时,我们经常发现所谓的“协作”其实就是一个大模型在扮演多个角色,本质上还是单点决策。TeamBench通过操作系统级别的强制角色分离来评估协作,这个思路很对——提示词指定的角色太脆弱了,稍微改个指令就串位。

从技术角度看,851个任务模板和931个种子实例的规模不小,但更关键的是他们引入了访问控制机制来阻断角色越权。这让我想起之前做的一个自动化运维Agent,明明分配了监控和修复两个角色,结果监控Agent偷偷调了修复接口,导致日志里全是角色越权告警。强制分离虽然增加了系统复杂度,但能逼着Agent真正学会分工。

我有个疑问:强制角色分离会不会导致协作效率急剧下降?比如某个任务需要跨角色频繁通信,强制隔离可能让通信开销变成瓶颈。另一个问题是,你们在测试中是否考虑了角色动态分配的场景?实际生产中角色往往需要根据负载实时调整。

从行业影响看,TeamBench可能会推动Agent评估从“任务完成率”转向“协作合规性”。未来多Agent系统的部署门槛会更高,但可靠性也会显著提升。推荐关注这个方向的人去试试他们的数据集,自己搭个沙箱跑一跑,看看你的Agent到底是在真协作还是在演独角戏。