这篇arXiv:2605.06993v1在因果推断领域捅了个有意思的马蜂窝。核心贡献是把“在成本约束下选择实验组以收紧部分识别界限”问题,形式化为最大效力问题,并证明其NP难度——通过0-1背包归约。这从理论上解释了为什么我们之前做A/B测试选变量时总感觉“最优组合”靠穷举不现实。
技术上看,他们定义的“认知效力”很实用:衡量最差情况下界限宽度的缩减,而不是平均效果。这避免了过度乐观的实验设计。我个人的经验是,在多变量混杂场景下,很多“最优”实验组实际上对目标因果效应的收紧贡献微乎其微,尤其是当变量间存在强相关时。这次用背包框架求解,虽然NP难,但动态规划或近似算法在实验数小于50时完全可行,工业界可以直接落地。
一个值得讨论的问题:当目标查询是多个因果效应(如ATE和ATT同时考虑)时,最优实验设计是否会变成多目标背包问题?另一个:文中假设成本已知且固定,但在实际业务中,实验成本往往随样本量非线性增长,这种动态成本如何建模?
行业影响上,这篇工作意味着因果推断不再依赖“大而全”的随机实验,而是转向“精打细算”的小型实验组。对推荐系统、药物试验等成本敏感领域,这可能是从观测研究过渡到混合实验设计的桥梁。后续如果能结合贝叶斯优化做自适应实验,会更有趣。