模型库 / EleutherAI/pythia-160m

pythia-160m

EleutherAI text-generation transformers en
EleutherAI/pythia-160m
3,095,627
下载量
42
收藏数
9
浏览量
apache-2.0
许可

简介

*Pythia Scaling Suite* 是一组为促进可解释性研究而开发的模型集合(详见论文)。该套件包含两组共八个模型,参数量分别为70M、160M、410M、1B、1.4B、2.8B、6.9B和12B。每个参数量对应两个模型:一个在Pile数据集上训练,另一个在P

模型卡片

许可协议 apache-2.0
语言
en
数据集
pile
pytorch causal-lm pythia

模型配置

模型类型 gpt_neox
架构 GPTNeoXForCausalLM

模型详情

已翻译

Pythia Scaling Suite 是一套为促进可解释性研究而开发的模型集合(参见论文)。它包含两组共八个模型,规模分别为 70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B。每种规模都有两个模型:一个在 Pile 数据集上训练,另一个在经过去重处理后的 Pile 数据集上训练。所有 8 种规模的模型都在完全相同的数据上、以完全相同的顺序进行训练。我们还为每个模型提供了 154 个中间 checkpoint,以分支形式托管在 Hugging Face 上。

Pythia 模型套件是特意为促进大型语言模型的科学研究(尤其是可解释性研究)而设计的。尽管未将下游性能作为设计目标,但我们发现这些模型达到或超越了同类及同等规模模型(如 OPT 和 GPT-Neo 套件中的模型)的性能。

关于早期版本和命名约定的详细信息。

此前,我们向公众发布了 Pythia 套件的早期版本。然而,我们决定重新训练该模型套件以修正一些超参数差异。本模型卡列出了这些变更;进一步讨论请参见 Pythia 论文附录 B。我们发现两个 Pythia 版本在基准测试性能上没有差异。旧模型仍可获取,但如果您刚开始使用 Pythia,我们建议使用重新训练后的套件。
此为当前版本。

请注意,Pythia 套件中的所有模型已于 2023 年 1 月重命名。为清晰起见,本模型卡中提供了新旧名称对照表,以及精确的参数数量。

Pythia-160M

模型详情

  • 开发者:EleutherAI
  • 模型类型:基于 Transformer 的语言模型
  • 语言:英语
  • 了解更多:关于训练流程、配置文件及使用方法的详细信息,请参见 Pythia 的 GitHub 仓库。更多评估和实现细节请参见论文
  • 库:GPT-NeoX
  • 许可证:Apache 2.0
  • 联系方式:如需咨询此模型相关问题,请加入 EleutherAI Discord,并在 #release-discussion 频道中提问。在 EleutherAI Discord 中提问前,请先阅读现有的 Pythia 文档。一般联系请发送邮件至:contact@eleuther.ai
Pythia 模型 非嵌入参数数量 层数 模型维度 注意力头数 批次大小 学习率 等效模型
70M 18,915,328 6 512 8 2M 1.0 x 10-3
160M 85,056,000 12 768 12 2M 6.0 x 10-4 GPT-Neo 125M, OPT-125M
410M 302,311,424 24 1024 16 2M 3.0 x 10-4 OPT-350M
1.0B 805,736,448 16 2048 8 2M 3.0 x 10-4
1.4B 1,208,602,624 24 2048 16 2M 2.0 x 10-4 GPT-Neo 1.3B, OPT-1.3B
2.8B 2,517,652,480 32 2560 32 2M 1.6 x 10-4 GPT-Neo 2.7B, OPT-2.7B
6.9B 6,444,163,072 32 4096 32 2M 1.2 x 10-4 OPT-6.7B
12B 11,327,027,200 36 5120 40 2M 1.2 x 10-4
Pythia 套件的工程细节。给定规模的去重与未去重模型具有相同的超参数。“等效”模型具有完全相同的架构和相同数量的非嵌入参数。

用途与限制

预期用途

Pythia 的主要预期用途是研究大型语言模型的行为、功能和局限性。该套件旨在为进行科学实验提供一个受控环境。我们还为每个模型提供了 154 个 checkpoint:初始的 step0、10 个对数间隔的 checkpoint step{1,2,4...512},以及从 step1000step143000 的 143 个均匀间隔的 checkpoint。这些 checkpoint 以分支形式托管在 Hugging Face 上。请注意,分支 143000 与每个模型 main 分支上的模型 checkpoint 完全一致。

您也可以进一步微调并适配 Pythia-160M 用于部署,只要您的使用

标签

gpt_neox causal-lm pythia en dataset:EleutherAI/pile arxiv:2304.01373 arxiv:2101.00027 arxiv:2201.07311

操作


详细信息

厂商
EleutherAI
任务
text-generation
框架
transformers
模型类型
gpt_neox
许可(HF)
apache-2.0
语言
en