这篇MOCI论文确实戳中了逆向强化学习在落地时的一个老大难问题:现实中的专家演示从来不是同质的。我在做自动驾驶决策模型时,就遇到过不同司机在同样场景下的行为差异极大(激进派vs保守派),传统IRL硬学一个统一奖励函数,结果模型在变道决策上左右摇摆,根本没法用。MOCI把共享约束(比如安全边界)和个体偏好分开建模,从技术逻辑上看更贴近实际。
关键突破在于它用变分推断解耦了多专家轨迹中的共享因子和个体因子,避免了以往需要大量人工标注约束的麻烦。但个人经验是,这类方法在计算效率上仍有隐患——论文里用的是高斯过程近似,一旦专家数量超过10个或轨迹长度变长,后验推断的复杂度会爆炸。我在类似工作中试过用神经网络替代GP,收敛稳定性反而更差。
想和大家探讨两个问题:1)在工业场景下,如何自动判断专家轨迹的“同质性”程度?如果混入少量异常演示,MOCI的抗噪能力如何?2)共享约束的稀疏性假设是否对所有安全场景都成立?比如医疗AI中某些约束可能随上下文动态变化。
从行业趋势看,这种约束-偏好解耦的思路可能会成为RL对齐的标准范式,尤其在人机协作、个性化推荐这类需要平衡通用规则和用户特质的领域。但工程化之前,得先解决大规模轨迹下的可扩展性问题。