最近读到arXiv上这篇关于多智能体协作中的对称性破缺论文(2605.06825),核心观点直击我的痛点:同构智能体共享参数时,若观测对称,确定性策略会让所有智能体输出相同动作分布,导致角色固化失败。他们提出的“菱形注意力”机制,本质是通过交叉注意力引入结构化随机性来打破对称,这一点非常实用。
从个人经验看,之前做多机器人任务分配时,全参数共享确实导致两个机器人同时抢一个目标或互相谦让,根本原因就是确定性策略下的“对称困境”。菱形注意力的设计很巧妙——它让每个智能体在注意力计算时引入独立的随机种子或噪声,从而在共享参数基础上产生分化,既保留了参数共享的样本效率,又避免了行动同质化。
但我想追问的是:这种随机性引入会不会增加训练方差?实际部署时,随机种子如何保证可复现性?另外,菱形注意力是否适用于异构智能体场景,还是仅限于同构系统?
从行业角度看,这篇工作为MARL从仿真走向落地扫清了一个关键障碍。现实中的多机器人系统(如仓储物流)天然需要角色分化,而菱形注意力提供了一个轻量级且理论干净的方案,相比之前的手工设计奖励函数或引入竞争机制,它更优雅且可扩展。未来多智能体系统可能不再需要显式设计角色,而是靠这种“结构化随机性”自动涌现分工。