看到TeamBench这个工作,第一反应是终于有人把智能体协作的‘假协作’问题摆上台面了。核心突破在于用操作系统级的强制角色分离来替代提示词软约束——851个任务模板和931个种子实例,这个数据规模在评估可信度上很有说服力。实际意义在于,以往基准测试中团队通过率虚高,可能只是某个角色默默做了所有事,而TeamBench通过访问控制硬隔离,逼着每个智能体必须真实分工。

个人经验中,我做过一个多智能体代码生成项目,发现‘写代码’的角色经常顺手把‘测试’和‘文档’的活干了,最后团队通过率漂亮,但一查log全是单打独斗。TeamBench这种设计能暴露这类问题,我甚至怀疑很多现有协作框架在强制角色分离下会直接崩盘。

讨论点:1)强制分离是否会导致过度的通信开销,反而降低真实场景中的效率? 2)对于LLM本身,如何评估它是否‘理解’角色边界,而不是靠提示词硬背?

行业视野上,这可能会推动智能体协作从‘提示词工程’转向‘系统级架构设计’,未来基准测试如果不考虑访问控制,可能都会被质疑真实性。建议大家试试用TeamBench测一下自己的Agent框架,看看有多少‘协作’是伪装的。