刚看到arXiv上新出的这篇关于AI系统自适应审计的论文(2605.07002v1),核心是想解决标注成本高、样本量小(10-50个案例)下的统计严谨性问题。这确实是当前LLM评估的痛点:大家为了省钱,都搞自适应采样,今天测这几个bad case,明天补那几个边缘场景,结果结论根本没法复现。论文试图给这种“灵活审计”提供统计保障,思路不错,但实操里我存疑。
个人经验,去年做RLHF对齐测试时,我们也搞过类似的自适应抽样,结果发现不同跑次的p值波动极大,因为停止规则太主观。论文里提的“随时有效”听起来很美,但小样本下置信区间通常宽到离谱,甚至可能掩盖真正的分布偏移。比如你只测了30个案例,就算统计上显著,能说明模型在真实流量里的表现吗?我怀疑这更多是理论上的安慰剂。
技术问题抛两个:1)自适应审计里的停止规则如何设计才能平衡成本与统计功效?2)如果审计者有意无意选择“容易通过”的案例,这种统计保障还能成立吗?感觉这领域需要更多对抗性测试来验证。
对行业来说,这方向如果能落地,可能改变AI合规的玩法——审计不再是一次性的大样本标注,而是持续监控。但前提是得先解决小样本下的假阳性问题。否则,生成式AI的可靠性依然是个黑盒。