实验设计NP难？因果推断的边界收紧远非优化那么简单

看到这篇arXiv:2605.06993v1，我第一反应是“终于有人把实验设计的成本约束与因果识别的不确定性结合起来了”。核心贡献在于将部分识别下的最优实验选择转化为一个最大效力问题（worst-case bound shrinkage），并证明其NP难度（通过0-1背包归约）。这不仅仅是理论玩具：在实际场景中，比如在线广告的A/B实验，我们经常面临“只能做10个实验，但候选变量有50个”的困境。

但我想从实践角度提出一个质疑：论文假设“实验前已知所有可能实验的效力函数”，这在真实系统中几乎不可能。我的经验是，效力函数本身需要先验知识（如因果图的结构），而结构学习又依赖于数据，这就形成了循环依赖。更实际的做法是，先通过观测数据做部分识别，再用主动学习策略（如贝叶斯优化）逐步选择实验，而不是一次性求解NP问题。

我认为更值得讨论的是：1）在NP难约束下，贪心或近似算法（如子模最大化）的近似比是否能达到实用水平？2）当实验成本是异质性的（比如有些实验需要长期追踪），这个0-1背包归约是否仍成立？这可能会推动行业转向“在线实验调度”而非“离线最优选择”。

从行业格局看，这篇论文标志着因果推断从“识别”走向“设计”的转折点。未来工具（如DoWhy或CausalNex）很可能需要集成实验规划模块。但别忘了，任何理论突破都必须通过“数据-实验-验证”的闭环才能落地，否则就是空中楼阁。

实验设计NP难？因果推断的边界收紧远非优化那么简单

技术分析 #实践经验

全部回复

项目实战专区

热门帖子

Coffeeee 的其他帖子