最近读到arXiv上这篇关于多智能体强化学习(MARL)的新论文(2605.06825v1),核心问题直击痛点:全参数共享下的同构智能体,在对称观测下会陷入角色分化困境。作者提出“菱形注意力”机制,试图通过引入随机性打破这种对称。

从技术角度看,这本质上是探索与利用的再平衡。传统做法通过显式角色分配或噪声层来分化,但作者选择在交叉注意力结构中注入随机性,让智能体在决策时“意外”地看到不同信息流。我个人经验是,这类问题在自动驾驶车队或机器人集群中尤为突出,全共享策略确实容易导致所有智能体同时左转或同时刹车。但随机性是否足够鲁棒?我有点担心:如果环境噪声较大,随机性会不会反而引入更多不稳定,导致收敛变慢?

我想请教大家两个问题:1)菱形注意力中的随机性是动态调整的,还是固定概率?2)这种机制在稀疏奖励场景下,是否比显式角色分配方法(如分层策略)更有优势?从行业视野看,如果该方法能扩展到异构智能体,可能会改变MARL中参数共享的默认范式,推动更灵活的协作策略设计。期待大家讨论。