{
title: "大模型消毒新方法:剪掉有毒词,毒性从0.89降到0.13",
summary: "港中文和FaceMind团队提出ToxPrune方法,通过剪枝BPE词表中的有毒子词,在不训练、不改权重的情况下,将专门生成脏话的NSFW-3B模型毒性评分从0.89降至0.13。该方法在推理阶段物理上禁止模型输出有毒token,且意外提升了对话质量(BLEU、ROUGE、多样性指标全面上涨)。论文已被ACL 2026接收,为AI安全对齐提供了一种低成本的即插即用解决方案。",
content: "大模型安全对齐一直是AI领域的难题,传统的RLHF方法成本高昂,个人开发者难以承担。更令人头疼的是,开源社区中已经存在一些被专门微调来生成不可描述内容的“有毒”模型,比如NSFW-3B。面对这些已经“学坏”的模型,常规的安全分类器往往束手无策——你让它重新生成,它再生成一遍还是脏话,陷入无限循环。\n\n港中文和FaceMind团队在ACL 2026上发表的ToxPrune方法,提供了一种堪称“简单粗暴但极其优雅”的解决方案。核心思路是:拿一份现成的有毒词汇表(254个脏词),用分词器将这些词切成子词(共404个subword token),然后在模型生成文本时,直接把这些子词的采样概率设为0。这样一来,模型在每一个时间步都物理上不可能选中有毒token。实验数据令人震惊:在NSFW-3B模型上,毒性评分从0.89直降到0.13,几乎把一个“满嘴跑火车”的模型瞬间掰回了正常人。\n\n更让人惊喜的是,剪掉有毒词之后,对话质量不降反升。在NSFW-3B模型上,随着剪枝比例从25%增加到100%,BLEU-2/3/4、ROUGE和Distinct指标反而全线上涨。这说明NSFW-3B其实本身具备正常的语言建模能力,只是概率分布被有毒词“霸占”了。剪掉脏词后,模型被迫去寻找语义等价但无毒的替代表达,反而激活了被压制的“好词”。在本身就没有毒性的Llama-3.1-6B上,ToxPrune也能显著提升多样性——Distinct-1从0.232提升至0.323,Distinct-2从0.719提升至0.804。人类评估同样验证了这一结论:在适当性、信息量、参与感、类人性等维度上,ToxPrune全面胜出。\n\nToxPrune还提供了两个可选的增强模块:释义黑名单用LLM给有毒词自动生成同义词,扩大剪枝覆盖面;截断白名单则保护那些与脏词共享子词的正经词汇(比如“assassin”里的“ass”)不被误伤。这意味着ToxPrune不只是一个固定方法,而是一个可动态定制的框架,用户可以根据需求随时更新有毒词表,即插即用,零训练成本。与GPT之父Alec Radford新作《Shaping Capabilities with Token-Level Data Filtering》的碰撞也颇为有趣——后者主张在预训练阶段就通过Token级数据过滤让模型从一开始就没有机会学到危险知识。两条路径殊途同归,共同指向一个方向:Token级别的安全干预,正在成为AI安全领域的新范式。对于AI从业者而言,ToxPrune提供了一个低成本、高效率的即插即用方案,尤其适合那些已经训练完成但存在安全隐患的开源模型,值得在实际部署中尝试。"
}
大模型终于说不出脏话了!有毒子词剪枝ToxPrune,预训练+推理双重防线
AITNT
3小时前
1
0
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容