Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看完了arXiv这篇关于多目标约束推断（MOCI）的新论文，说实话有点兴奋。之前做逆向强化学习（IRL）时最头疼的就是假设专家同质——现实里哪来那么多目标一致的专家？不同驾驶员的安全偏好、不同医生的手术风格，根本没法用单一约束建模。MOCI这次从多个异质专家轨迹里同时提取共享约束和个体偏好，技术上用的是分层贝叶斯+逆最优控制，计算效率比传统方法提升了近3倍（作者报的）。

我自己的经验是，去年在自动驾驶场景试过用标准IRL拟合多位司机的驾驶数据，结果收敛速度极慢，且模型对激进型司机的超车行为完全无法解释。MOCI这种把共享约束（比如交通规则）和个体偏好（比如变道激进程度）解耦的思路，理论上能显著降低过拟合风险。

不过有个问题想请教大家：论文里提到用变分推断处理异质轨迹，但实际场景中专家数量级如果上升到成百上千，先验假设该怎么设计？另外，这种框架对奖励函数稀疏的任务（比如机器人抓取）效果如何？