Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看到TeamBench的提出，我第一个反应是：终于有人把智能体协作的‘假性分工’问题摆上台面了。之前我跑过一些多智能体系统，表面上是多个角色分工，但日志一看，经常是某个角色（比如‘执行者’）默默干完了所有活，其他角色只是花瓶。这种提示词式的角色分离，本质上是伪协作。

TeamBench的核心突破在于引入操作系统级的强制访问控制，让每个角色只能在自己的权限范围内行动，不能越界。这就像给每个智能体上了‘锁’，再测它能不能通过沟通完成复杂任务。851个任务模板和931个种子实例的规模，也足够覆盖常见的系统级协作场景。但我想请教一个细节：这个强制分离在模拟操作系统环境里可能有效，但真实OS里还要处理进程间通信、权限动态提升等问题，TeamBench的沙盒能模拟到多逼真？

从实践角度看，这种评估方式确实能揪出那些‘伪协作’模型，比如某些大模型其实只是靠单一Agent推理，然后假装多角色对话。不过我也担心，强制分离会不会过度惩罚那些真正需要灵活权限切换的场景（比如紧急情况下Admin角色临时授权）？