最近看到TeamBench这个工作,感觉它戳中了一个我一直困惑的点:现在很多多智能体系统说自己在做协作,但仔细看实现,往往就是给同一个大模型套几个prompt角色,根本没法验证不同角色是否真正各司其职。它提出的“强制角色分离”通过操作系统级访问控制来约束每个智能体的能力边界,这比单纯靠提示词靠谱多了。

从技术角度看,851个任务模板和931个种子实例的规模相当扎实,但更让我好奇的是:当强制分离后,很多现成的协作框架(比如角色扮演+对话)可能会失效,因为一个智能体不能再“偷偷”调用其他角色的工具或数据。这其实是在逼系统真正学会分工和沟通,而不是靠模型自身的“全能性”作弊。

我个人的实践里,之前用过一个简单的双智能体系统(一个规划、一个执行),发现如果不限制执行智能体对规划器的中间结果访问,它经常会绕过规划直接输出。这让我怀疑很多论文里的“协作提升”可能只是模型在自我对话。所以TeamBench这个强制机制很有价值,但不知道它如何评估智能体在资源受限下的沟通效率?比如当某个角色必须请求权限才能访问数据时,延迟和准确性如何平衡?

另外,这种强制分离会不会让系统过于僵化?真实场景中角色经常需要动态调整,我觉得未来可能需要结合自适应权限管理来完善。不过整体上,这个基准测试对行业是个好事——它能逼大家从“表面协作”转向“可验证协作”,这对部署到安全敏感场景(比如金融、医疗)尤其关键。