TinyLlama-1.1B-Chat-v1.0

TinyLlama text-generation transformers en

TinyLlama/TinyLlama-1.1B-Chat-v1.0

2,953,734

下载量

1580

收藏数

37

浏览量

apache-2.0

许可

简介

TinyLlama项目旨在**在3万亿个token上预训练一个11亿参数的Llama模型**。通过适当的优化，我们仅需使用16块A100-40G GPU，就能在"短短"90天内完成这一目标🚀🚀。训练已于2023年9月1日开始。

模型卡片

许可协议 apache-2.0

语言

en

数据集

SlimPajama-627B starcoderdata ultrachat_200k ultrafeedback_binarized

模型配置

模型类型 llama

架构 LlamaForCausalLM

模型详情

已翻译

TinyLlama-1.1B

https://github.com/jzhang38/TinyLlama

TinyLlama 项目旨在在 3 万亿个 token 上预训练一个 1.1B 参数的 Llama 模型。通过适当的优化，我们仅需使用 16 块 A100-40G GPU，就能在"短短"90 天内完成这一目标 🚀🚀。训练已于 2023 年 9 月 1 日开始。

我们采用了与 Llama 2 完全相同的架构和 tokenizer。这意味着 TinyLlama 可以即插即用地应用于许多基于 Llama 构建的开源项目。此外，TinyLlama 非常紧凑，仅有 1.1B 参数。这种紧凑性使其能够满足众多对计算和内存占用有严格限制的应用需求。

本模型

本模型是在 TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T 基础上微调得到的对话模型。我们遵循 HF 的 Zephyr 的训练方案。 该模型"首先在 UltraChat 数据集的一个变体上进行微调，该数据集包含由 ChatGPT 生成的各种合成对话。然后，我们使用 🤗 TRL's 的 DPOTrainer，在 openbmb/UltraFeedback 数据集上进一步对齐模型，该数据集包含 64k 个 prompt 以及由 GPT-4 排序的模型生成结果。"

如何使用

你需要 transformers>=4.34。
更多信息请查看 TinyLlama GitHub 页面。

# Install transformers from source - only needed for versions 
# You are a friendly chatbot who always responds in the style of a pirate.
# 
# How many helicopters can a human eat in one sitting?
# 
# ...