deberta-v3-base

microsoft fill-mask transformers en

microsoft/deberta-v3-base

2,581,185

下载量

418

收藏数

37

浏览量

mit

许可

简介

DeBERTaV3：使用梯度解耦嵌入共享的ELECTRA式预训练改进DeBERTa

模型卡片

许可协议 mit

语言

en

deberta deberta-v3 fill-mask

模型配置

模型类型 deberta-v2

模型详情

已翻译

DeBERTaV3：使用梯度解耦嵌入共享的 ELECTRA 风格预训练改进 DeBERTa

DeBERTa 通过解耦注意力（disentangled attention）和增强型掩码解码器（enhanced mask decoder）改进了 BERT 和 RoBERTa 模型。借助这两项改进，DeBERTa 在使用 80GB 训练数据的情况下，在大多数 NLU 任务上表现优于 RoBERTa。

在 DeBERTa V3 中，我们进一步通过使用梯度解耦嵌入共享（Gradient Disentangled Embedding Sharing）的 ELECTRA 风格预训练，提升了 DeBERTa 的效率。与 DeBERTa 相比，我们的 V3 版本显著提升了模型在下游任务上的性能。您可以从我们的论文中了解更多关于新模型的技术细节。

请查看官方仓库以获取更多实现细节和更新。

DeBERTa V3 基础模型包含 12 层，隐藏层大小为 768。其骨干参数仅有 86M，词汇表包含 128K 个 token，这为 Embedding 层引入了 98M 参数。该模型使用与 DeBERTa V2 相同的 160GB 数据进行训练。

在 NLU 任务上进行微调

我们展示了在 SQuAD 2.0 和 MNLI 任务上的开发集结果。

模型	词汇量(K)	骨干参数量(M)	SQuAD 2.0 (F1/EM)	MNLI-m/mm (ACC)
RoBERTa-base	50	86	83.7/80.5	87.6/-
XLNet-base	32	92	-/80.2	86.8/-
ELECTRA-base	30	86	-/80.5	88.8/
DeBERTa-base	50	100	86.2/83.1	88.8/88.5
DeBERTa-v3-base	128	86	88.4/85.4	90.6/90.7
DeBERTa-v3-base + SiFT	128	86	-/-	91.0/-

我们展示了在 SQuAD 1.1/2.0 和 MNLI 任务上的开发集结果。

使用 HF transformers 进行微调

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-base \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 500 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 2e-5 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

引用

如果您发现 DeBERTa 对您的工作有帮助，请引用以下论文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}