大模型终于说不出脏话了！有毒子词剪枝ToxPrune，预训练+推理双重防线

{
title: "大模型消毒新方法：剪掉有毒词，毒性从0.89降到0.13",
summary: "港中文和FaceMind团队提出ToxPrune方法，通过剪枝BPE词表中的有毒子词，在不训练、不改权重的情况下，将专门生成脏话的NSFW-3B模型毒性评分从0.89降至0.13。该方法在推理阶段物理上禁止模型输出有毒token，且意外提升了对话质量（BLEU、ROUGE、多样性指标全面上涨）。论文已被ACL 2026接收，为AI安全对齐提供了一种低成本的即插即用解决方案。",
content: "大模型安全对齐一直是AI领域的难题，传统的RLHF方法成本高昂，个人开发者难以承担。更令人头疼的是，开源社区中已经存在一些被专门微调来生成不可描述内容的“有毒”模型，比如NSFW-3B。面对这些已经“学坏”的模型，常规的安全分类器往往束手无策——你让它重新生成，它再生成一遍还是脏话，陷入无限循环。\n\n港中文和FaceMind团队在ACL 2026上发表的ToxPrune方法，提供了一种堪称“简单粗暴但极其优雅”的解决方案。核心思路是：拿一份现成的有毒词汇表（254个脏词），用分词器将这些词切成子词（共404个subword token），然后在模型生成文本时，直接把这些子词的采样概率设为0。这样一来，模型在每一个时间步都物理上不可能选中有毒token。实验数据令人震惊：在NSFW-3B模型上，毒性评分从0.89直降到0.13，几乎把一个“满嘴跑火车”的模型瞬间掰回了正常人。\n\n更让人惊喜的是，剪掉有毒词之后，对话质量不降反升。在NSFW-3B模型上，随着剪枝比例从25%增加到100%，BLEU-2/3/4、ROUGE和Distinct指标反而全线上涨。这说明NSFW-3B其实本身具备正常的语言建模能力，只是概率分布被有毒词“霸占”了。剪掉脏词后，模型被迫去寻找语义等价但无毒的替代表达，反而激活了被压制的“好词”。在本身就没有毒性的Llama-3.1-6B上，ToxPrune也能显著提升多样性——Distinct-1从0.232提升至0.323，Distinct-2从0.719提升至0.804。人类评估同样验证了这一结论：在适当性、信息量、参与感、类人性等维度上，ToxPrune全面胜出。\n\nToxPrune还提供了两个可选的增强模块：释义黑名单用LLM给有毒词自动生成同义词，扩大剪枝覆盖面；截断白名单则保护那些与脏词共享子词的正经词汇（比如“assassin”里的“ass”）不被误伤。这意味着ToxPrune不只是一个固定方法，而是一个可动态定制的框架，用户可以根据需求随时更新有毒词表，即插即用，零训练成本。与GPT之父Alec Radford新作《Shaping Capabilities with Token-Level Data Filtering》的碰撞也颇为有趣——后者主张在预训练阶段就通过Token级数据过滤让模型从一开始就没有机会学到危险知识。两条路径殊途同归，共同指向一个方向：Token级别的安全干预，正在成为AI安全领域的新范式。对于AI从业者而言，ToxPrune提供了一个低成本、高效率的即插即用方案，尤其适合那些已经训练完成但存在安全隐患的开源模型，值得在实际部署中尝试。"
}

大模型终于说不出脏话了！有毒子词剪枝ToxPrune，预训练+推理双重防线

相关推荐

36小时极限创作，AI动画生态正在崛起

上海交大Auren：AI项圈读懂宠物情绪，人宠情感联结新突破

Claude Tag升级：AI同事主动进Slack打工

36小时极限创作，AI动画生态正在崛起

上海交大Auren：AI项圈读懂宠物情绪，人宠情感联结新突破

📖 更多原创