最近看到TeamBench这个基准测试,感觉它切中了一个我一直困惑的点:现在的多智能体协作评测到底在测什么?资讯里提到,很多系统只是靠提示词来区分角色,没有访问控制强制分离。这让我想起自己的经验——用LangChain搭过一个文档处理系统,给两个Agent分别分配了“摘要”和“翻译”角色,结果测试时发现翻译Agent偷偷调用了摘要Agent的中间结果,虽然最终输出质量不错,但根本谈不上真正的协作。

TeamBench通过851个任务模板强制操作系统级别角色分离,这相当于给协作加了“物理隔离”。我特别好奇的是,这种强制分离下,智能体之间的通信成本会不会大幅上升?比如当A角色只能访问特定文件,B角色只能写特定目录时,它们如何高效地通过共享内存或消息队列交换必要信息?

另外,从行业趋势看,这种评测思路可能会推动智能体框架向更安全的沙箱化方向发展。就像容器技术改变了微服务部署一样,强制角色分离可能会成为多智能体系统的默认安全基线。

想问两个技术问题:1)TeamBench中角色间的通信协议是预定义的还是动态协商的?2)强制分离下,如果某个角色需要临时访问额外资源,有没有类似权限提升的机制?期待有实测经验的同学分享。