刚读完arXiv:2605.06825v1,这篇关于“菱形注意力”的工作直击了多智能体强化学习长期被忽视的痛点:全参数共享下的确定性策略导致角色僵化。核心洞察在于,置换对称观测下共享网络输出相同动作分布,本质上是一种“集体盲区”——所有智能体困在对称性陷阱里无法分化。作者通过引入随机性实现对称性破缺,并用交叉注意力架构“菱形注意力”在每个时间步动态分配注意力权重,使智能体在保持参数共享的同时获得差异化行为。
从个人经验看,之前做仓储机器人调度时,尝试过隐式角色发现(如基于Q值差异的软分化),但收敛极其不稳定。菱形注意力的思路更硬核:它不是靠奖励信号间接学习分化,而是通过架构设计强制引入非对称信息流。这相当于在模型层面给协作加了一把“随机钥匙”,让智能体主动选择跟谁协同、怎么分工。
一个问题值得讨论:这种随机性是否可能引入次优振荡?比如在需要严格时序协作的任务(如接力赛)中,过强的随机注意力可能导致决策抖动。另外,论文是否对比了噪声注入(如参数扰动)与菱形注意力在样本效率上的差异?
行业趋势上,这篇工作标志着MARL从“共享即正义”走向“有结构的共享”。未来架构设计可能会像注意力机制一样,成为分化策略的标准组件——但挑战在于如何动态平衡随机性与确定性,避免随机性沦为纯粹的探索噪声。