pythia-160m

EleutherAI text-generation transformers en

EleutherAI/pythia-160m

3,095,627

下载量

42

收藏数

35

浏览量

apache-2.0

许可

简介

*Pythia Scaling Suite* 是一组为促进可解释性研究而开发的模型集合（详见论文）。该套件包含两组共八个模型，参数量分别为70M、160M、410M、1B、1.4B、2.8B、6.9B和12B。每个参数量对应两个模型：一个在Pile数据集上训练，另一个在P

模型卡片

许可协议 apache-2.0

语言

en

数据集

pile

pytorch causal-lm pythia

模型配置

模型类型 gpt_neox

架构 GPTNeoXForCausalLM

模型详情

已翻译

Pythia Scaling Suite 是一套为促进可解释性研究而开发的模型集合(参见论文)。它包含两组共八个模型，规模分别为 70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B。每种规模都有两个模型：一个在 Pile 数据集上训练，另一个在经过去重处理后的 Pile 数据集上训练。所有 8 种规模的模型都在完全相同的数据上、以完全相同的顺序进行训练。我们还为每个模型提供了 154 个中间 checkpoint，以分支形式托管在 Hugging Face 上。

Pythia 模型套件是特意为促进大型语言模型的科学研究（尤其是可解释性研究）而设计的。尽管未将下游性能作为设计目标，但我们发现这些模型达到或超越了同类及同等规模模型（如 OPT 和 GPT-Neo 套件中的模型）的性能。

关于早期版本和命名约定的详细信息。

此前，我们向公众发布了 Pythia 套件的早期版本。然而，我们决定重新训练该模型套件以修正一些超参数差异。本模型卡列出了这些变更；进一步讨论请参见 Pythia 论文附录 B。我们发现两个 Pythia 版本在基准测试性能上没有差异。旧模型仍可获取，但如果您刚开始使用 Pythia，我们建议使用重新训练后的套件。
此为当前版本。

请注意，Pythia 套件中的所有模型已于 2023 年 1 月重命名。为清晰起见，本模型卡中提供了新旧名称对照表，以及精确的参数数量。

Pythia-160M

模型详情

开发者：EleutherAI
模型类型：基于 Transformer 的语言模型
语言：英语
了解更多：关于训练流程、配置文件及使用方法的详细信息，请参见 Pythia 的 GitHub 仓库。更多评估和实现细节请参见论文。
库：GPT-NeoX
许可证：Apache 2.0
联系方式：如需咨询此模型相关问题，请加入 EleutherAI Discord，并在 #release-discussion 频道中提问。在 EleutherAI Discord 中提问前，请先阅读现有的 Pythia 文档。一般联系请发送邮件至：contact@eleuther.ai。

Pythia 模型	非嵌入参数数量	层数	模型维度	注意力头数	批次大小	学习率	等效模型
70M	18,915,328	6	512	8	2M	1.0 x 10-3	—
160M	85,056,000	12	768	12	2M	6.0 x 10-4	GPT-Neo 125M, OPT-125M
410M	302,311,424	24	1024	16	2M	3.0 x 10-4	OPT-350M
1.0B	805,736,448	16	2048	8	2M	3.0 x 10-4	—
1.4B	1,208,602,624	24	2048	16	2M	2.0 x 10-4	GPT-Neo 1.3B, OPT-1.3B
2.8B	2,517,652,480	32	2560	32	2M	1.6 x 10-4	GPT-Neo 2.7B, OPT-2.7B
6.9B	6,444,163,072	32	4096	32	2M	1.2 x 10-4	OPT-6.7B
12B	11,327,027,200	36	5120	40	2M	1.2 x 10-4	—
Pythia 套件的工程细节。给定规模的去重与未去重模型具有相同的超参数。“等效”模型具有完全相同的架构和相同数量的非嵌入参数。

用途与限制

预期用途

Pythia 的主要预期用途是研究大型语言模型的行为、功能和局限性。该套件旨在为进行科学实验提供一个受控环境。我们还为每个模型提供了 154 个 checkpoint：初始的 step0、10 个对数间隔的 checkpoint step{1,2,4...512}，以及从 step1000 到 step143000 的 143 个均匀间隔的 checkpoint。这些 checkpoint 以分支形式托管在 Hugging Face 上。请注意，分支 143000 与每个模型 main 分支上的模型 checkpoint 完全一致。

您也可以进一步微调并适配 Pythia-160M 用于部署，只要您的使用

pythia-160m

简介

模型卡片

模型配置

模型详情

Pythia-160M

模型详情

用途与限制

预期用途

标签

操作

详细信息