distilbert-base-uncased-finetuned-sst-2-english
简介
目录 - 模型详情 - 模型入门指南 - 用途 - 风险、局限性与偏见 - 训练
模型卡片
模型配置
模型详情
已翻译DistilBERT base uncased finetuned SST-2
目录
模型详情
模型描述: 本模型是 DistilBERT-base-uncased 在 SST-2 数据集上微调后的检查点。
该模型在开发集上达到了 91.3 的准确率(作为对比,Bert bert-base-uncased 版本达到了 92.7 的准确率)。
- 开发方: Hugging Face
- 模型类型: 文本分类
- 语言: 英语
- 许可证: Apache-2.0
- 父模型: 关于 DistilBERT 的更多详情,我们建议用户查阅此模型卡片。
- 更多信息资源:
- 模型文档
- DistilBERT 论文
如何使用该模型
单标签分类示例:
import torch
from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
tokenizer = DistilBertTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
model = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predicted_class_id = logits.argmax().item()
model.config.id2label[predicted_class_id]
用途
直接使用
本模型可用于主题分类。您可以直接使用原始模型进行掩码语言建模或下一句预测,但其主要用途是在下游任务上进行微调。请查看模型库以寻找您感兴趣任务的微调版本。
误用与超范围使用
该模型不应被用于故意制造敌对或排斥他人的环境。此外,该模型并未经过训练以生成关于人物或事件的真实或准确表述,因此使用该模型生成此类内容超出了其能力范围。
风险、局限性与偏见
基于一些实验,我们观察到该模型可能会产生针对少数群体的偏见预测。
例如,对于像 This film was filmed in COUNTRY 这样的句子,当输入中没有任何信息表明存在如此强烈的语义偏移时,该二分类模型会根据国家名称给出截然不同的正面标签概率(如果国家是法国,概率为 0.89;但如果国家是阿富汗,概率仅为 0.08)。在此 colab 中,Aurélien Géron 绘制了一张有趣的地图,展示了每个国家对应的这些概率。
我们强烈建议用户根据自身用例深入探究这些方面,以评估本模型的风险。我们推荐从以下偏见评估数据集入手:WinoBias、WinoGender、Stereoset。
训练
训练数据
作者使用了以下斯坦福情感树库(sst2)语料库进行模型训练。
训练过程
微调超参数
- learning_rate = 1e-5
- batch_size = 32
- warmup = 600
- max_seq_length = 128
- num_train_epochs = 3.0
正在翻译中,请稍候...
标签
操作
详细信息
- 厂商
- distilbert
- 任务
- text-classification
- 框架
- transformers
- 模型类型
- distilbert
- 许可(HF)
- apache-2.0
- 语言
- en