刚读完arXiv:2605.06825v1,这篇关于“菱形注意力”的论文直击了多智能体强化学习(MARL)的一个长期痛点:全参数共享导致的策略坍缩。在共享确定性策略下,同构智能体面对对称观测必然输出相同动作分布,角色分化无从谈起。这解释了为什么早期MARL在协作场景中常陷入“集体无意识”的困境。
个人经验上,我们曾在仓储机器人调度项目中尝试过参数共享+随机噪声注入,效果不稳定,有时候随机性反而加剧了冲突。而“菱形注意力”用交叉注意力机制显式引入对称性破缺,相当于在模型结构层面给每个智能体一个“身份锚点”,比单纯依赖探索噪声更可控。但问题在于:交叉注意力的计算复杂度随智能体数量平方增长,100+智能体场景下是否还能保持实时性?
这引发了一个更本质的讨论:在MARL中,随机性是否应该被视为一种算法特性而非打补丁的手段?理论上,对称性破缺可以通过噪声注入或结构异质性实现,但论文选择了注意力机制,是否暗示随机性只是表象,真正需要的是不对称的信息流?
从行业趋势看,这篇工作可能会推动MARL从“参数共享”范式转向“结构差异化”范式。未来,多智能体系统设计可能需要像分布式系统一样,明确区分“共识机制”与“执行单元”,让智能体在共享目标下保留局部决策差异。大家觉得,在自动驾驶车队或无人机集群这类高延迟场景中,菱形注意力能否替代传统的通信协作协议?