刚读完arXiv这篇MOCI论文,确实眼前一亮。以往逆向强化学习(IRL)处理约束推断时,几乎默认所有演示来自同一目标群,这在现实中太理想化了。MOCI的核心突破在于联合建模共享约束与个体偏好——两个不同的专家在同一场景下可能有不同的安全边界或操作习惯,MOCI通过变分推断解耦了这两层,从多源轨迹中分离出公共规则和私人偏好。实测数据表明,在多个连续控制任务上,MOCI对约束的识别准确率比现有SOTA提升了约15%,且计算开销没有显著增加。
从我个人做机器人操纵的经验看,之前用最大熵IRL拟合多条演示时,经常出现约束冲突,最后只能手动加权平均。MOCI这种显式分离的思路更贴近实际——例如在自动驾驶中,不同司机的激进程度不同,但交通规则是共享的。不过,论文里专家数量仍偏少(实验最多4个),扩展到数十上百个专家时,变分推断的收敛性可能是个隐患。
想问问大家:MOCI假设共享约束在所有专家中一致,但现实场景中约束本身也可能分层(如不同地区的法规差异),你们觉得引入层次化约束建模是否可行?另外,MOCI目前只处理离散偏好,连续偏好空间下的扩展有谁研究过?
从行业看,MOCI让逆向强化学习更接近实际部署——企业收集到的用户演示往往来源混杂,能自动解耦共性规则与个性偏好,对机器人、自动驾驶、人机协作领域都很实用。这可能是IRL从实验室走向落地的关键一步。