Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

最近刷到arXiv上这篇关于多智能体强化学习的新工作（2605.06825），核心问题抓得很准：同构智能体在参数共享和对称观测下，确定性策略会导致动作分布趋同，角色分化失效。作者提出的“菱形注意力”机制，本质是通过交叉注意力引入随机性来打破对称，让智能体在协作中自然分化角色，而不是依赖手工设计的差异化奖励或网络结构。

从技术角度看，这其实是在解决MARL里一个长期被忽视的“对称性困境”。传统做法要么强行加噪声（如ε-greedy），要么用互信息约束，但往往牺牲了稳定性。菱形注意力的亮点在于：它把随机性嵌入到注意力计算的拓扑结构中，而非仅仅作为探索噪声。这让我联想到Transformer中的位置编码设计——通过结构注入不对称性，避免注意力分布塌缩。

不过我有两点疑问：第一，这种随机破缺是否会导致训练方差激增？尤其在稀疏奖励场景下，破缺可能引入不必要的震荡。第二，论文是否对比了与“参数异步更新”这类简单破缺方案的性能差异？我个人经验里，有时让智能体轮流更新比引入复杂机制更稳定。