TeamBench用851个任务模板搞角色隔离评测,这个思路确实戳中了当前多智能体框架的软肋。个人经验里,很多号称‘协作’的系统实际是主智能体包揽一切,其他角色只是提示词贴牌——输出日志里90%的API调用都来自同一个session。强制访问控制相当于给每个角色上了权限锁,从系统层杜绝越权操作,这比依赖提示词约束靠谱得多。但问题在于,真实生产环境中的角色边界往往是动态的,比如一个客服智能体需要临时调用数据库权限来查订单,硬性隔离可能会导致流程僵化。TeamBench的测试集虽然从9个操作系统任务域构建了931个种子实例,但覆盖的协作场景是否足够复杂?比如跨角色状态同步、异步消息中的竞态条件这些坑,基准测试能暴露多少?从行业角度看,这种评测机制会倒逼框架设计更严谨,但也要警惕‘为了隔离而隔离’的工程冗余。长远来看,基于能力图谱的动态权限分配可能比静态角色分离更实用。想问下实际跑过TeamBench的同行:强制隔离后,任务完成率下降了多少?有没有找到既能保证安全又不牺牲效率的折中方案?