模型库 / microsoft/deberta-v3-base

deberta-v3-base

microsoft fill-mask transformers en
microsoft/deberta-v3-base
2,581,185
下载量
418
收藏数
10
浏览量
mit
许可

简介

DeBERTaV3:使用梯度解耦嵌入共享的ELECTRA式预训练改进DeBERTa

模型卡片

许可协议 mit
语言
en
deberta deberta-v3 fill-mask

模型配置

模型类型 deberta-v2

模型详情

已翻译

DeBERTaV3:使用梯度解耦嵌入共享的 ELECTRA 风格预训练改进 DeBERTa

DeBERTa 通过解耦注意力(disentangled attention)和增强型掩码解码器(enhanced mask decoder)改进了 BERT 和 RoBERTa 模型。借助这两项改进,DeBERTa 在使用 80GB 训练数据的情况下,在大多数 NLU 任务上表现优于 RoBERTa。

DeBERTa V3 中,我们进一步通过使用梯度解耦嵌入共享(Gradient Disentangled Embedding Sharing)的 ELECTRA 风格预训练,提升了 DeBERTa 的效率。与 DeBERTa 相比,我们的 V3 版本显著提升了模型在下游任务上的性能。您可以从我们的论文中了解更多关于新模型的技术细节。

请查看官方仓库以获取更多实现细节和更新。

DeBERTa V3 基础模型包含 12 层,隐藏层大小为 768。其骨干参数仅有 86M,词汇表包含 128K 个 token,这为 Embedding 层引入了 98M 参数。该模型使用与 DeBERTa V2 相同的 160GB 数据进行训练。

在 NLU 任务上进行微调

我们展示了在 SQuAD 2.0 和 MNLI 任务上的开发集结果。

模型 词汇量(K) 骨干参数量(M) SQuAD 2.0 (F1/EM) MNLI-m/mm (ACC)
RoBERTa-base 50 86 83.7/80.5 87.6/-
XLNet-base 32 92 -/80.2 86.8/-
ELECTRA-base 30 86 -/80.5 88.8/
DeBERTa-base 50 100 86.2/83.1 88.8/88.5
DeBERTa-v3-base 128 86 88.4/85.4 90.6/90.7
DeBERTa-v3-base + SiFT 128 86 -/- 91.0/-

我们展示了在 SQuAD 1.1/2.0 和 MNLI 任务上的开发集结果。

使用 HF transformers 进行微调

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-base \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 500 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 2e-5 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

引用

如果您发现 DeBERTa 对您的工作有帮助,请引用以下论文:

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}

标签

tf rust deberta-v2 deberta deberta-v3 en arxiv:2006.03654 arxiv:2111.09543

操作


详细信息

厂商
microsoft
任务
fill-mask
框架
transformers
模型类型
deberta-v2
许可(HF)
mit
语言
en