因果识别遇成本瓶颈：最优实验设计为何是NP难？

这篇arXiv:2605.06993v1把部分因果效应识别中的实验设计问题形式化为最大效力问题，并证明其等价于0-1背包问题从而具备NP难度，我认为这是因果推断工程化中一个被长期低估的痛点。核心突破在于：作者不再假设我们能无限做随机对照实验，而是承认实验成本约束下，认知效力（即最差情况下界限缩减程度）才是真正需要优化的目标。这比传统“先做实验再收紧界限”的思路更贴近现实，比如在广告归因或医学试验中，我们永远无法穷举所有干预组合。

从个人经验来看，大多数因果推断项目在资源有限时往往靠直觉选实验，结果花了大价钱却只收窄了10%的识别区间。这项研究至少给出了一个理论下限：最优选择本身是NP难的，但我们可以用近似算法（如动态规划或贪心）来逼近。不过，我质疑论文是否考虑了实验间的依赖结构——现实中的实验常常共享对照组或协变量，这会让背包模型失效。

两个值得讨论的问题：1）在实际应用中，0-1背包近似算法的误差边界与因果效力损失之间是否存在可量化的trade-off？2）如果引入贝叶斯优化或主动学习，能否绕过NP难直接逼近最优实验集？

从行业看，这项研究将因果推断从“识别”拉向“设计”，意味着未来工具链必须集成成本建模与组合优化。这可能是Causal ML工具包（如DoWhy、EconML）下一步的升级方向。

因果识别遇成本瓶颈：最优实验设计为何是NP难？

技术分析 #实践经验

全部回复

RAG 专区

热门帖子

追风-落叶的其他帖子