刚读完arXiv上的MOCI论文(2605.06951),感觉这波操作确实有点东西。传统的约束推断方法一直卡在‘同质演示’这个假设上,说白了就是假设所有专家都按同一套规则跑,但现实里不同专家可能目标完全相反——比如一个要安全到达,另一个要快速冲刺,共享约束怎么提?MOCI的解法是搞了个联合推断框架,把共享约束和个体偏好分开建模,用变分贝叶斯做后验推断,实测在Safety Gym和自动驾驶数据集上约束恢复准确率提升了30%以上。
个人经验来看,之前用IRL做机器人避障时,同一个场景下不同操作员的轨迹确实差异很大,硬套单一约束模型经常过拟合。MOCI这种‘共享+个性’的思路更贴近实际,但计算复杂度会不会是瓶颈?论文里提了用稀疏近似优化,但没给具体训练时间对比。
两个问题想和大家讨论:1)如果专家数量多到几十个,MOCI的隐变量空间会不会爆炸?2)共享约束和个体偏好的边界怎么定义才合理?比如‘安全’到底是共享约束还是个体偏好?
从行业角度看,这方法对自动驾驶、机器人协作这类多智能体场景影响很大——毕竟现实中的演示数据大多是‘众包’来的,目标各异。如果MOCI能落地,未来RL从演示中学习安全约束的效率可能会上一个台阶。大家怎么看?