flan-t5-base
简介
0. TL;DR 1. Model Details 2. Usage 3. Uses 4. Bias, Risks, and Limitations 5. Training Details 6. Evaluation 7. Environmental Impact 8. Citation 9. Model Card Authors
模型卡片
模型配置
模型详情
已翻译FLAN-T5 base 模型卡片
目录
摘要
如果你已经了解 T5,那么 FLAN-T5 在所有方面都表现更优。在相同参数数量下,这些模型在超过 1000 个额外任务上进行了微调,覆盖了更多语言。
正如摘要开头几行所述:
Flan-PaLM 540B 在多个基准测试中达到了最先进的性能,例如在 five-shot MMLU 上达到 75.2%。我们还公开发布了 Flan-T5 检查点,即使与更大的模型(如 PaLM 62B)相比,这些检查点也展现出强大的 few-shot 性能。总体而言,指令微调是一种提升预训练语言模型性能和可用性的通用方法。
免责声明:本模型卡片中的内容由 Hugging Face 团队撰写,部分内容复制自 T5 模型卡片。
模型详情
模型描述
- 模型类型: 语言模型
- 语言(NLP): 英语、西班牙语、日语、波斯语、印地语、法语、中文、孟加拉语、古吉拉特语、德语、泰卢固语、意大利语、阿拉伯语、波兰语、泰米尔语、马拉地语、马拉雅拉姆语、奥里亚语、旁遮普语、葡萄牙语、乌尔都语、加利西亚语、希伯来语、韩语、加泰罗尼亚语、泰语、荷兰语、印度尼西亚语、越南语、保加利亚语、菲律宾语、高棉语、老挝语、土耳其语、俄语、克罗地亚语、瑞典语、约鲁巴语、库尔德语、缅甸语、马来语、捷克语、芬兰语、索马里语、他加禄语、斯瓦希里语、僧伽罗语、卡纳达语、壮语、伊博语、科萨语、罗马尼亚语、海地语、爱沙尼亚语、斯洛伐克语、立陶宛语、希腊语、尼泊尔语、阿萨姆语、挪威语
- 许可证: Apache 2.0
- 相关模型: 所有 FLAN-T5 检查点
- 原始检查点: 所有原始 FLAN-T5 检查点
- 更多信息资源:
- 研究论文
- GitHub 仓库
- Hugging Face FLAN-T5 文档(类似 T5)
使用方法
以下是在 transformers 中使用该模型的一些示例脚本:
使用 PyTorch 模型
在 CPU 上运行模型
点击展开
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-base")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-base")
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
在 GPU 上运行模型
点击展开
# pip install accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-base")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-base", device_map="auto")
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
使用不同精度在 GPU 上运行模型
FP16
点击展开
# pip install accelerate
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-base")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-base", device_map="auto", torch_dtype=torch.float16)
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
INT8
点击展开
# pip install bitsandbytes accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-base")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-base", device_map="auto", load_in_8bit=True)
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
应用场景
直接使用与下游使用
作者在原始论文的模型卡片中写道:
主要用途是语言模型研究,包括:零样本 NLP 任务和上下文 few-shot 学习 NLP 任务(如推理和问答)的研究;推进公平性和安全性研究,以及理解当前大型语言模型的局限性
更多详情请参阅研究论文。
超出范围的使用
需要更多信息。
偏见、风险与局限性
本节以下信息复制自模型的官方模型卡片:
根据 Rae 等人(2021)的研究,包括 Flan-T5 在内的语言模型可能被用于有害的语言生成。在未针对特定应用进行安全性和公平性评估之前,Flan-T5 不应直接用于任何应用。
伦理考量与风险
Flan-T5 是在一个大型文本数据语料库上进行微调的,该语料库未经过显式内容过滤或现有偏见评估。因此,模型本身可能容易生成类似的不当内容或复制底层数据中固有的偏见。
已知局限性
Flan-T5 尚未在真实世界应用中进行测试。
敏感用途:
Flan-T5 不应用于任何不可接受的用例,例如生成辱骂性言论。
训练细节
训练数据
该模型在多种任务的混合数据上进行训练,包括下表中描述的任务(来自原始论文,图 2):

训练过程
根据 t
正在翻译中,请稍候...