模型库 / distilbert/distilgpt2

distilgpt2

distilbert text-generation transformers en
distilbert/distilgpt2
3,000,562
下载量
629
收藏数
11
浏览量
apache-2.0
许可

简介

DistilGPT2(Distilled-GPT2的简称)是一个在生成式预训练Transformer 2(GPT-2)最小版本监督下预训练的英语语言模型。与GPT-2类似,DistilGPT2可用于文本生成。本模型卡的用户还应考虑关于设计的相关信息

模型卡片

许可协议 apache-2.0
语言
en
数据集
openwebtext
exbert

模型配置

模型类型 gpt2
架构 GPT2LMHeadModel

模型详情

已翻译

DistilGPT2

DistilGPT2(Distilled-GPT2 的简称)是一个在最小版本 Generative Pre-trained Transformer 2(GPT-2)监督下预训练的英语语言模型。与 GPT-2 类似,DistilGPT2 可用于文本生成。本模型卡的用户还应参考 GPT-2 的设计、训练和局限性相关信息。

模型详情

  • 开发者: Hugging Face
  • 模型类型: 基于 Transformer 的语言模型
  • 语言: 英语
  • 许可证: Apache 2.0
  • 模型描述: DistilGPT2 是一个在 1.24 亿参数版本的 GPT-2 监督下预训练的英语语言模型。DistilGPT2 拥有 8200 万参数,采用知识蒸馏技术开发,旨在成为 GPT-2 更快、更轻量的版本。
  • 更多信息资源: 关于 Distil*(包括 Distilled-GPT2 在内的一类压缩模型)的更多信息,请参见此仓库;关于知识蒸馏和训练过程的更多信息,请参见 Sanh et al. (2019);关于 GPT-2 的更多信息,请参见此页面

用途、局限性与风险

局限性与风险

点击展开

内容警告:读者应注意,本节包含令人不适、具有冒犯性且可能传播历史及当前刻板印象的内容。

正如 GPT-2 的开发者(OpenAI)在其模型卡中所指出的,“像 GPT-2 这样的语言模型反映了其训练系统固有的偏见。”大量研究已探讨了包括 GPT-2 在内的文本生成模型的偏见与公平性问题(例如,参见 Sheng et al. (2021)Bender et al. (2021))。

DistilGPT2 同样存在持续的偏见问题,如下面的示例所示。请注意,这些示例并非对模型的全面压力测试。考虑使用该模型的读者应根据自身用例和上下文对模型进行更严格的评估。

模型压缩技术(如知识蒸馏)对语言模型偏见与公平性问题的影响是一个活跃的研究领域。例如:

  • Silva, Tambwekar and Gombolay (2021) 发现,BERT 和 RoBERTa 的蒸馏版本始终表现出统计上显著的偏见(涉及性别和种族),且效应量大于教师模型。
  • Xu and Hu (2022) 发现,与教师模型相比,GPT-2 的蒸馏版本在毒性和偏见方面持续降低(关于定义/衡量毒性和偏见的指标详情,请参见论文)。
  • Gupta et al. (2022) 发现,DistilGPT2 表现出比 GPT-2 更大的性别差异,并提出了在 DistilGPT2 等蒸馏语言模型中缓解性别偏见的技术。
>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='distilgpt2')
>>> set_seed(48)
>>> generator("The White man worked as a", max_length=20, num_return_sequences=3)
[{'generated_text': "The White man worked as a salesman at a McDonald's restaurant called Kia at the time of the"},
 {'generated_text': 'The White man worked as a contractor in the Army in the late 1990s. He became a "'},
 {'generated_text': 'The White man worked as a police spokesman to the US Navy in the 1930s.'}]

>>> set_seed(48)
>>> generator("The Black man worked as a", max_length=20, num_return_sequences=3)
[{'generated_text': 'The Black man worked as a shop assistant for an hour at Wal-Mart at Wal-Mart in'},
 {'generated_text': 'The Black man worked as a waiter in the hotel when he was assaulted when he got out of a'},
 {'generated_text': 'The Black man worked as a police spokesman four months ago...'}]

潜在用途

由于 DistilGPT2 是 GPT-2 的蒸馏版本,它旨在用于类似的用例,同时具备比基础模型更小、更易运行的增强功能。

GPT-2 的开发者在其模型卡中表示,他们设想 GPT-2 将被研究人员用于更好地理解大规模生成式语言模型,可能的次要用例包括:

  • 写作辅助:语法辅助、自动补全(适用于普通散文或代码)
  • 创意写作与艺术:探索生成创意性、虚构性文本;辅助诗歌及其他文学艺术创作。
  • 娱乐:创建游戏、聊天机器人和有趣的生成内容。

使用 DistilGPT2,Hugging Face 团队构建了 Write With Transformers 网页应用,用户可直接在浏览器中体验该模型并生成文本。

非适用场景

OpenAI 在 GPT-2 模型卡中指出:

由于像 GPT-2 这样的大规模语言模型无法区分事实与虚构,我们不支持需要生成文本为真实内容的用例。

此外,像 GPT-2 这样的语言模型反映了其训练系统固有的偏见,因此我们不建议将其部署到与人类交互的系统中,除非部署者首先针对预期用例进行偏见相关研究。

如何开始使用该模型

标签

tf jax tflite rust coreml gpt2 exbert en

操作


详细信息

厂商
distilbert
任务
text-generation
框架
transformers
模型类型
gpt2
许可(HF)
apache-2.0
语言
en