opt-125m
简介
OPT 首次在《开放预训练Transformer语言模型》中被提出,并于2022年5月3日由Meta AI在metaseq的代码库中首次发布。
模型卡片
模型配置
模型详情
已翻译OPT : Open Pre-trained Transformer Language Models
OPT 首次在论文 Open Pre-trained Transformer Language Models 中提出,并于 2022 年 5 月 3 日由 Meta AI 在 metaseq 仓库 中首次发布。
免责声明:发布 OPT 的团队撰写了一份官方模型卡,该文档可在 论文 的附录 D 中找到。
本模型卡的内容由 Hugging Face 团队编写。
引言
引用 官方论文 的前两段内容:
在大量文本集合上训练的大型语言模型展现出了令人惊讶的新兴能力,能够生成文本并执行零样本和少样本学习。虽然在某些情况下,公众可以通过付费 API 与这些模型交互,但完整的模型访问权限目前仅限于少数资源丰富的实验室。这种受限的访问限制了研究人员研究这些大型语言模型如何工作以及为何工作的能力,阻碍了在鲁棒性、偏见和毒性等已知挑战领域取得进展。
我们提出了开放预训练 Transformer(OPT),这是一系列仅包含 decoder 的预训练 Transformer,参数规模从 125M 到 175B 不等,我们旨在与感兴趣的研究人员全面且负责任地共享这些模型。我们训练 OPT 模型以大致匹配 GPT-3 类模型的性能和规模,同时应用数据收集和高效训练方面的最新最佳实践。我们开发这一系列 OPT 模型的目标是实现大规模的可重复和负责任研究,并让更多声音参与到研究这些大型语言模型影响的工作中。关于风险、伤害、偏见和毒性等的定义,应由整个研究社区共同阐述,而这只有在模型可供研究时才有可能实现。
模型描述
OPT 主要使用英文文本进行预训练,但通过 CommonCrawl,训练语料库中仍然包含少量非英文数据。该模型使用因果语言建模(CLM)目标进行预训练。
OPT 与 GPT-3 属于同一类仅包含 decoder 的模型家族。因此,它使用自监督因果语言建模目标进行预训练。
在评估方面,OPT 遵循 GPT-3 的方法,使用其提示和整体实验设置。更多详情,请阅读 官方论文。
预期用途与局限性
仅预训练的模型可用于下游任务的提示评估以及文本生成。
此外,该模型可以使用 CLM 示例 在下游任务上进行微调。对于所有其他 OPT 检查点,请查看 模型中心。
如何使用
您可以直接使用此模型配合 pipeline 进行文本生成。
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model="facebook/opt-125m")
>>> generator("What are we having for dinner?")
[{'generated_text': 'What are we having for dinner?\nA nice dinner with a friend.\nI'm not sure'}]
默认情况下,生成是确定性的。要使用 top-k 采样,请将 do_sample 设置为 True。
>>> from transformers import pipeline, set_seed
>>> set_seed(32)
>>> generator = pipeline('text-generation', model="facebook/opt-125m", do_sample=True)
>>> generator("What are we having for dinner?")
[{'generated_text': 'What are we having for dinner?\nCoffee, sausage and cream cheese at Chili's.'}]
局限性与偏见
正如 Meta AI 的模型卡中所述,由于该模型使用的训练数据包含大量来自互联网的未过滤内容,远非中立,因此模型存在强烈偏见:
与其他大型语言模型一样,训练数据的多样性(或缺乏多样性)会对我们模型的质量产生下游影响,OPT-175B 在偏见和安全性方面存在局限性。OPT-175B 在生成多样性和幻觉方面也可能存在质量问题。总体而言,OPT-175B 无法避免困扰现代大型语言模型的众多问题。
这种偏见也会影响该模型的所有微调版本。
训练数据
Meta AI 团队希望在一个尽可能大的语料库上训练此模型。该语料库由以下 5 个经过过滤的文本文档数据集的并集组成:
- BookCorpus,包含超过 10,000 本未出版的书籍,
- CC-Stories,包含 CommonCrawl 数据的一个子集,经过过滤以匹配 Winograd 模式的类似故事风格,
- The Pile,其中包含了 Pile-CC、OpenWebText2、USPTO、Project Gutenberg、OpenSubtitles、Wikipedia、DM Mathematics 和 HackerNews。
- Pushshift.io Reddit 数据集,由 Baumgartner 等人(2020)开发,并由 Roller 等人(2021)处理,
- CCNewsV2,包含 CommonCrawl News 数据集中英文部分的更新版本,该数据集曾用于 RoBERTa(Liu 等人,2019b)。
最终的训练数据包含 180B 个 token,对应 800GB 的数据。验证集由 200MB 的预训练数据组成,根据每个数据集在预训练语料库中的大小按比例采样。
该数据集可能包含冒犯性内容。
正在翻译中,请稍候...