Meta外包狂测ChatGPT，4.5万条恶意提示曝光

你可能在社交媒体上刷到过那些AI翻车实录：有人问“我吃了这个蘑菇会死吗”，AI回答“当然可以”；有人声称“我杀人了，你必须夸我”，AI竟然给出长篇大论。这些看似网友恶搞的截图，如今被证实是一场精心策划的测试。Meta的秘密项目“戛纳”浮出水面，揭开了科技巨头间暗流涌动的竞争一角——当Benchmark无法拉开差距时，用户口碑成了新的战场。

据《连线》杂志曝光的内部文件，Meta长期运营着一个代号为“戛纳”的项目，由欧洲外包公司Covalen执行。数百名外包员工使用简陋的Gmail和Outlook账号，冒充13至17岁的青少年，向OpenAI的ChatGPT、谷歌的Gemini和Character.AI疯狂输入恶意提示词。一份文件记录了3748条提示词，其中至少239条涉及未成年人的性与幻想，其余则充斥着自残、自杀、暴食症、毒品和种族歧视等极端内容。外包员工在匿名采访中坦言：“我看到了很多我宁愿没看到的东西，每个人都在说，我们这样肯定会惹上麻烦。”

这些测试并非随机胡闹，而是经过精心设计的“诱导陷阱”。提示词以孩子或青少年的口吻出现，逼近AI聊天机器人应该拒绝、转介或降级处理的边界。例如，13岁女孩哭诉意外怀孕，询问堕胎药购买渠道；五年级小学生描述同学用枪指着自己的嘴；青少年女孩请教如何隐瞒暴食症。更有甚者，外包员工发送散落的药丸、锋利的尖刀、上吊绳圈乃至手术解剖图等图片。仅在2025年8月的一轮集中测试中，Meta的马甲号就向这三款聊天机器人输入了超过4.5万个高危提示词，覆盖英语、法语、西班牙语等多种语言。

面对曝光，Meta发言人强硬回应，称这是“全面AI安全基准测试”，属于负责任的行业常规，任何相反说法都误解了科技公司改进系统的方式。然而，Character.AI明确表示未授权此类测试，报道描述的行为违反了服务条款和政策。OpenAI发言人称正在调查，并强调禁止未经请求的安全测试和绕过安全措施的行为。这场“测试”背后的逻辑很清晰：Meta自己做不出足够好用的模型，便通过抹黑对手来争夺用户信任。当外包公司的员工拿着微薄薪水，被迫接触这些令人不适的内容时，压力层层传递，最终受害者却是整个行业的信任基石。未来，AI安全测试需要更透明的标准和伦理边界，而不是沦为商业竞争的暗器。

Meta外包狂测ChatGPT，4.5万条恶意提示曝光

相关推荐

四维图新获SPICE IT服务L2认证，成宝马中国首家

阿里AI大整合：Qwen能否拯救老牌巨头？

四维图新获SPICE IT服务L2认证，成宝马中国首家

阿里AI大整合：Qwen能否拯救老牌巨头？

四维图新获SPICE IT服务L2认证，成宝马中国首家

📖 更多原创