最近arXiv上那篇关于多智能体强化学习(MARL)的新论文(arXiv:2605.06825)挺有意思,核心是解决同构智能体在参数共享下的“角色固化”问题。传统做法里,全参数共享加上确定性策略,会导致每个智能体面对对称观测时输出相同动作,协作效率大打折扣。这篇论文提出的“菱形注意力”机制,本质上是引入交叉注意力来打破这种置换对称性,让智能体在共享参数的同时,通过随机性实现角色分化。
从技术角度看,这有点像在神经网络里注入噪声来鼓励探索,但这里更巧妙:它不是在动作层面加噪声,而是在注意力计算中引入结构化的随机性,相当于让智能体学会“看不同角度”。我个人经验是,之前做多智能体导航任务时,用参数共享确实训练快,但一到需要分工的场景(比如一个推门一个拉门),智能体就卡在对称陷阱里。菱形注意力这种设计,可能会让MARL在物流调度或机器人编队这类场景里更实用。
不过我有两个疑问:第一,这种随机性引入会不会在训练后期导致不稳定?第二,菱形注意力的计算复杂度相比传统transformer有没有显著增加?毕竟多智能体场景下实时性很关键。
行业视野上,这给“同构智能体”的设计范式开了个新口子——未来可能不用刻意区分专家和通用模型,而是通过结构随机性动态分化角色。大家觉得,这种思路比起分层架构或外部惩罚函数,哪个更实用?欢迎实测过类似方案的朋友来聊聊。