看到TeamBench这个工作,第一反应是:终于有人把智能体协作的‘皇帝新衣’给揭了。目前绝大多数多智能体系统所谓的角色分工,本质上是靠提示词软约束——一个角色‘应该’做A,另一个‘应该’做B,但实际运行时,模型可能越俎代庖,或者某个角色退化为日志记录器。TeamBench通过操作系统级强制角色分离,让我们看清真正的协作能力。851个模板、931个种子实例的规模不小,但更关键的是它定义了‘强制分离’下的评估范式,这比单纯刷通过率的benchmark有价值得多。
从个人经验来看,我之前在部署客服+质检双智能体时,就发现质检角色经常‘好心’替客服回答了问题,导致责任链混乱。提示词根本锁不住这种行为,必须有运行时隔离和权限控制。TeamBench的强制分离正是对症下药——它测试的不是模型‘会不会’协作,而是‘在不能越界时’如何协作。这更接近真实生产环境中的微服务治理逻辑。
我比较好奇的是:强制角色分离下,模型是否会出现‘过度隔离’导致信息断裂?比如一个角色明明需要另一个角色的中间结果,却因为访问控制无法获取,这种场景在TeamBench中如何评分?另外,这种评估方法能否推广到混合人类-智能体协作场景?
从行业趋势看,我认为未来智能体框架会从‘提示词驱动’转向‘策略+权限驱动’,类似Kubernetes的RBAC模型。TeamBench这类基准测试会加速这一进程,倒逼开发者思考真正的智能体边界。那些靠‘一个模型分饰多角’刷榜的论文,恐怕很快就要现原形了。