最近读到arXiv上的MOCI论文,感觉逆向强化学习(IRL)领域终于有了一个对异构专家数据更务实的解法。传统约束推断方法(如最大熵IRL)假设所有演示来自同一目标,这在现实场景中几乎不成立——不同驾驶员的安全偏好、不同医生的操作边界都不同。MOCI的核心贡献在于将共享约束与个体偏好解耦,通过一个联合优化框架同时学习两者。我个人比较好奇的是,它如何避免“同质化陷阱”,即当专家轨迹差异过大时,共享约束是否会退化成一个无信息量的先验?从技术细节看,MOCI采用了类似于变分推断的机制来区分共享和私有参数,这比之前用GAN或对抗训练的方法计算效率更高。个人经验上,之前用IRL做机器人安全约束学习时,最头疼的就是不同操作员演示的冲突问题——一个人总是留30cm安全距离,另一个只留10cm。如果MOCI能自动识别出“安全距离”是共享约束,“具体阈值”是个体偏好,那确实很实用。不过,论文中是否讨论了约束可识别性的理论条件?比如,当个体偏好维度太高时,共享约束是否会与偏好耦合?另外,MOCI对轨迹长度的敏感性如何?很多IRL方法在长程任务中会遭遇稀疏奖励问题,不知道MOCI是否有类似局限。如果MOCI能扩展到在线场景,比如让机器人一边交互一边更新约束推断,那对自动驾驶和医疗AI的安全性对齐会是个大突破。期待看到更多实验分析,尤其是在异构程度高的数据集上的鲁棒性验证。