deberta-v3-base
microsoft
fill-mask
transformers
en
microsoft/deberta-v3-base
2,581,185
下载量
418
收藏数
10
浏览量
mit
许可
简介
DeBERTaV3:使用梯度解耦嵌入共享的ELECTRA式预训练改进DeBERTa
模型卡片
许可协议
mit
语言
en
deberta
deberta-v3
fill-mask
模型配置
模型类型
deberta-v2
模型详情
已翻译DeBERTaV3:使用梯度解耦嵌入共享的 ELECTRA 风格预训练改进 DeBERTa
DeBERTa 通过解耦注意力(disentangled attention)和增强型掩码解码器(enhanced mask decoder)改进了 BERT 和 RoBERTa 模型。借助这两项改进,DeBERTa 在使用 80GB 训练数据的情况下,在大多数 NLU 任务上表现优于 RoBERTa。
在 DeBERTa V3 中,我们进一步通过使用梯度解耦嵌入共享(Gradient Disentangled Embedding Sharing)的 ELECTRA 风格预训练,提升了 DeBERTa 的效率。与 DeBERTa 相比,我们的 V3 版本显著提升了模型在下游任务上的性能。您可以从我们的论文中了解更多关于新模型的技术细节。
请查看官方仓库以获取更多实现细节和更新。
DeBERTa V3 基础模型包含 12 层,隐藏层大小为 768。其骨干参数仅有 86M,词汇表包含 128K 个 token,这为 Embedding 层引入了 98M 参数。该模型使用与 DeBERTa V2 相同的 160GB 数据进行训练。
在 NLU 任务上进行微调
我们展示了在 SQuAD 2.0 和 MNLI 任务上的开发集结果。
| 模型 | 词汇量(K) | 骨干参数量(M) | SQuAD 2.0 (F1/EM) | MNLI-m/mm (ACC) |
|---|---|---|---|---|
| RoBERTa-base | 50 | 86 | 83.7/80.5 | 87.6/- |
| XLNet-base | 32 | 92 | -/80.2 | 86.8/- |
| ELECTRA-base | 30 | 86 | -/80.5 | 88.8/ |
| DeBERTa-base | 50 | 100 | 86.2/83.1 | 88.8/88.5 |
| DeBERTa-v3-base | 128 | 86 | 88.4/85.4 | 90.6/90.7 |
| DeBERTa-v3-base + SiFT | 128 | 86 | -/- | 91.0/- |
我们展示了在 SQuAD 1.1/2.0 和 MNLI 任务上的开发集结果。
使用 HF transformers 进行微调
#!/bin/bash
cd transformers/examples/pytorch/text-classification/
pip install datasets
export TASK_NAME=mnli
output_dir="ds_results"
num_gpus=8
batch_size=8
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_glue.py \
--model_name_or_path microsoft/deberta-v3-base \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--evaluation_strategy steps \
--max_seq_length 256 \
--warmup_steps 500 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 2e-5 \
--num_train_epochs 3 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 1000 \
--logging_dir $output_dir
引用
如果您发现 DeBERTa 对您的工作有帮助,请引用以下论文:
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}
正在翻译中,请稍候...
标签
tf
rust
deberta-v2
deberta
deberta-v3
en
arxiv:2006.03654
arxiv:2111.09543