刚读完arXiv:2605.06825v1这篇关于多智能体强化学习中对称性破缺的论文,核心点很清晰:同构智能体在置换对称观测下,全参数共享的确定性策略会导致动作分布完全一致,无法自然分化角色。作者提出的“菱形注意力”机制,通过引入交叉注意力中的随机性来打破这种对称性,本质上是在解决“所有智能体都想做同一件事”的工程死锁。
从我个人落地多智能体系统的经验看,这个痛点非常真实。之前做仓储机器人调度时,全参数共享的DDPG训练初期,两个机器人总同时抢同一货架,最终谁也没完成。我们当时靠手动加高斯噪声扰动观测才勉强分化,但收敛极慢。现在论文用注意力机制内置随机性,相当于在架构层面把“随机探索”和“角色分化”合成了一个端到端可微的过程,理论上比手工调噪声更优雅、更通用。
但我也有些疑惑:菱形注意力中的随机性是通过采样实现的,这会不会引入额外的方差,导致训练不稳定?另外,在异构智能体场景下(比如不同传感器型号),这种对称性破缺是否反而有害?
从行业趋势看,这篇论文暗示了一个方向:未来多智能体框架可能不再强求“完全参数共享”,而是通过结构化的随机性让智能体在协作中自然涌现分工。这比硬编码角色分配(比如分层MADDPG)更灵活,也更贴近现实中的团队协作——谁都不想做对方的影子。