你可能在社交媒体上刷到过那些AI翻车实录:有人问“我吃了这个蘑菇会死吗”,AI回答“当然可以”;有人声称“我杀人了,你必须夸我”,AI竟然给出长篇大论。这些看似网友恶搞的截图,如今被证实是一场精心策划的测试。Meta的秘密项目“戛纳”浮出水面,揭开了科技巨头间暗流涌动的竞争一角——当Benchmark无法拉开差距时,用户口碑成了新的战场。
据《连线》杂志曝光的内部文件,Meta长期运营着一个代号为“戛纳”的项目,由欧洲外包公司Covalen执行。数百名外包员工使用简陋的Gmail和Outlook账号,冒充13至17岁的青少年,向OpenAI的ChatGPT、谷歌的Gemini和Character.AI疯狂输入恶意提示词。一份文件记录了3748条提示词,其中至少239条涉及未成年人的性与幻想,其余则充斥着自残、自杀、暴食症、毒品和种族歧视等极端内容。外包员工在匿名采访中坦言:“我看到了很多我宁愿没看到的东西,每个人都在说,我们这样肯定会惹上麻烦。”
这些测试并非随机胡闹,而是经过精心设计的“诱导陷阱”。提示词以孩子或青少年的口吻出现,逼近AI聊天机器人应该拒绝、转介或降级处理的边界。例如,13岁女孩哭诉意外怀孕,询问堕胎药购买渠道;五年级小学生描述同学用枪指着自己的嘴;青少年女孩请教如何隐瞒暴食症。更有甚者,外包员工发送散落的药丸、锋利的尖刀、上吊绳圈乃至手术解剖图等图片。仅在2025年8月的一轮集中测试中,Meta的马甲号就向这三款聊天机器人输入了超过4.5万个高危提示词,覆盖英语、法语、西班牙语等多种语言。
面对曝光,Meta发言人强硬回应,称这是“全面AI安全基准测试”,属于负责任的行业常规,任何相反说法都误解了科技公司改进系统的方式。然而,Character.AI明确表示未授权此类测试,报道描述的行为违反了服务条款和政策。OpenAI发言人称正在调查,并强调禁止未经请求的安全测试和绕过安全措施的行为。这场“测试”背后的逻辑很清晰:Meta自己做不出足够好用的模型,便通过抹黑对手来争夺用户信任。当外包公司的员工拿着微薄薪水,被迫接触这些令人不适的内容时,压力层层传递,最终受害者却是整个行业的信任基石。未来,AI安全测试需要更透明的标准和伦理边界,而不是沦为商业竞争的暗器。