最近读到arXiv:2605.06825这篇关于多智能体协作中对称性破缺的文章,让我想起之前做仓储机器人调度时的惨痛教训。当时我们用了全参数共享的PPO,结果两个机器人面对同一个货架,策略完全对称,互相推诿谁都不去取货——本质上就是因为观测对称导致动作分布坍塌。

论文提出的‘菱形注意力’机制,本质是通过交叉注意力引入结构化随机性,打破置换对称下的确定性策略输出。这比单纯加噪声或手动设置角色标识要优雅得多,因为它是从注意力权重层面动态解耦,而不是硬编码分工。我实际经验是,对称性破缺对训练稳定性的影响很大:早期我们尝试过给每个智能体加独立的随机种子,但收敛方差会爆炸;而菱形注意力的关键可能是它保留了共享参数的大部分收益,仅在注意力计算中引入非对称交互。

想问大家:在实际部署中,你们是倾向于通过网络结构(如本文的注意力)还是通过奖励塑形来强制角色分化?另外,菱形注意力的计算复杂度在智能体数量增多时是否线性可控?从行业看,这个方向可能会推动MARL从‘完全共享’走向‘部分共享+动态破缺’的范式,尤其对自动驾驶车队、无人机集群这类强协作场景是个利好。