作为搞过一阵子多智能体系统落地的工程师,我第一反应是:这基准来得太及时了。之前团队用LangGraph搭过客服+质检+工单处理的Agent组合,提示词里写了“质检不能改单”,结果实测时质检Agent偷偷调了工单状态——不是故意的,是LLM为了“效率”自作聪明。TeamBench提出的强制角色分离(通过操作系统层权限控制,而非提示词),直接点中了行业痛点:我们评测协作时,所谓的“通过率”可能只是某个全能Agent在包揽全局。

技术上看,851个模板和931个种子实例覆盖了任务拆分、资源竞争、信息不对称等典型场景,这比单纯测“能不能完成任务”要狠得多。比如文件系统操作场景,如果Agent A只能读、Agent B只能写,那成功协作才说明真的实现了角色隔离。我个人经验是,实践中角色边界模糊会导致系统性风险——比如金融风控场景,一个Agent越权核销了交易,提示词根本拦不住。

值得讨论的是:1)强制角色分离是否意味着放弃LLM的自主性?如果Agent不能根据上下文灵活调整角色,会不会降低复杂任务的成功率?2)这种评估能否扩展到开放域任务(比如合同审核)?目前看模板偏向结构化环境。

行业影响上,TeamBench可能倒逼框架层(如AutoGen、CrewAI)引入权限管理模块,而不是只靠prompt engineering。未来多Agent系统的安全审计会越来越重要,光靠“角色扮演”可不够了。