看了《连线》曝光的Meta“戛纳”项目,4.5万条恶意提示词测试ChatGPT、Gemini和Character.AI,表面是AI安全基准测试,实则有抹黑之嫌。从技术角度看,这种测试方法漏洞百出:冒充未成年人的粗制滥造账号,加上极端话题如自残、未成年性幻想,明显针对内容审核的软肋。关键是,这些提示词并未基于真实攻击向量设计,而是刻意放大边缘案例。个人经验:我在部署内容过滤模型时,发现恶意提示的分布和频率直接影响测试结果。Meta用非代表
性样本,就像拿充气锤打钢板——测试的不是鲁棒性,而是边界容忍度。更可疑的是,他们未公开测试框架和基线,导致结果无法复现。这让我质疑:AI安全基准该由谁定?如果企业间互相用“黑盒压力测试”来竞争,行业信任会崩塌。我的问题是:1. 这种外包测试的提示词是否符合NIST或OWASP的对抗性测试标准?2. 如何避免测试数据被武器化,成为商业抹黑的工具?我认为,行业需建立透明化的第三方安全审计机制,否则类似“戛纳”项目只会加剧AI伦理的灰色地带。