最近读到arXiv上的这篇论文(2605.06993v1),感觉很有意思,想和大家探讨一下。核心问题是如何在成本约束下选择一组实验,最大化收紧部分识别因果效应的界限。作者将其形式化为最大效力问题,并证明这是NP难的,通过归约到0-1背包问题。这让我想起之前做因果推断实验时,经常面临预算有限、实验组数量受限的困境,往往只能凭直觉选择变量,缺乏理论指导。
技术上看,论文提出的‘认知效力’概念很有启发性:它衡量的是实验在最坏情况下能保证减少的界限宽度。这比单纯追求平均收紧更有鲁棒性,但NP难性意味着大规模场景下需要近似算法或启发式策略。我好奇的是,在实际应用中(比如医学或经济学),实验设计通常有领域知识约束,这些先验信息能否有效降低计算复杂度?
个人经验上,我曾用部分识别方法分析A/B测试数据,发现界限宽时结论几乎无意义。如果能通过少量实验大幅收紧,对实际决策帮助巨大。不过,论文中假设观测数据已存在,实验成本已知,这在实际中往往动态变化,如何在线调整策略也是个挑战。
想请教大家两个问题:1)这种最优实验设计框架是否适用于非参数因果模型(如DAG中的工具变量)?2)如果实验成本是异质且相关的(如同一设备的不同实验有共享成本),问题难度是否会进一步上升?期待各位大神的见解!