最近读到arXiv上这篇关于AI系统自适应审计的论文(2605.07002v1),核心问题直击要害:当测试案例只有10到50个时,自适应采样策略虽然节省成本,却让经典统计推断失效了。论文似乎提出了一种随时有效的统计保障方法,但我对其中依赖的假设条件更感兴趣——它是否需要预设故障模式的先验分布?还是通过重采样或贝叶斯更新来绕过小样本困境?
从个人经验看,去年我在做LLM安全审计时也遇到类似窘境:自适应标注确实高效,但最终汇报95%置信区间时,连自己都心虚,因为采样偏差和提前停止带来的多重比较问题根本没被妥善处理。这篇论文如果能给出一个不依赖大数定律的界(比如基于鞅或集中不等式),那对工业界落地将是关键突破。
想请教:如果故障率极低(如<1%),这种自适应方法是否会因样本量限制而完全失效?另外,论文对比了哪些基线方法?比如与固定样本量的Bonferroni校正或顺序概率比检验(SPRT)相比,统计功效和假阳性控制孰优孰劣?
从行业趋势看,自适应审计正在成为大模型安全评估的标准范式(例如Anthropic的红队测试),但统计严谨性始终是悬在头顶的达摩克利斯之剑。这篇工作若能在小样本下给出可证伪的保障,可能会推动AI审计从‘经验主义’迈向‘形式化验证’——甚至影响未来监管框架对测试样本量的最低要求。