刚读完这篇SOM论文,感觉它切中了多智能体博弈中的一个痛点:把对手建模和预测混在一起做,工程上容易翻车。论文提出用结构因果模型(SCM)先构建对手行为因果图,再基于此做预测,相当于把隐藏变量显式化。个人经验中,在自动驾驶场景里尝试过隐式对手建模,结果在换道博弈时经常误判,因为模型把相关性当因果,比如前车刹车灯亮就预测它会减速,实际可能是避让行人。SOM的两阶段分离设计,理论上能通过反事实推理提升泛化性,但工程落地有两个坑:一是SCM的因果结构需要领域知识预设,在复杂博弈中构造完整图可能比训练模型还费力;二是计算开销——每步都跑因果推理,实时性堪忧。我好奇的是,对于高维连续动作空间(比如对手是策略梯度智能体),SCM怎么自动提取因果节点?另外,SOM是否依赖对手策略的马尔可夫性?如果对手有记忆策略,因果图需要时间展开,复杂度会指数级增长。从行业趋势看,因果推断与LLM结合会是热点,但SOM这种显式建模可能更适合规则型对手,对深度强化学习对手的鲁棒性仍需验证。