Bio_ClinicalBERT

emilyalsentzer fill-mask transformers en

emilyalsentzer/Bio_ClinicalBERT

2,251,720

下载量

428

收藏数

33

浏览量

mit

许可

简介

《公开可用的临床BERT嵌入》论文包含四种独特的临床BERT模型：基于BERT-Base（`cased_L-12_H-768_A-12`）或BioBERT（`BioBERT-Base v1.0 + PubMed 200K + PMC 270K`）初始化，并在所有MIMIC笔记或仅出院小结上进行训练。

模型卡片

许可协议 mit

语言

en

fill-mask

模型配置

模型类型 bert

模型详情

已翻译

ClinicalBERT - Bio + Clinical BERT 模型

Publicly Available Clinical BERT Embeddings 论文包含四个独特的 clinicalBERT 模型：使用 BERT-Base (cased_L-12_H-768_A-12) 或 BioBERT (BioBERT-Base v1.0 + PubMed 200K + PMC 270K) 初始化，并在所有 MIMIC 笔记或仅出院小结上进行训练。

本模型卡片描述的是 Bio+Clinical BERT 模型，该模型从 BioBERT 初始化，并在所有 MIMIC 笔记上训练。

预训练数据

Bio_ClinicalBERT 模型在 MIMIC III 的所有笔记上训练，该数据库包含来自马萨诸塞州波士顿贝斯以色列医院 ICU 患者的电子健康记录。有关 MIMIC 的更多详情，请参见此处。NOTEEVENTS 表中的所有笔记均被纳入（约 8.8 亿词）。

模型预训练

笔记预处理

MIMIC 中的每条笔记首先使用基于规则的章节分割器进行分节（例如，出院小结笔记被分割为"现病史"、"家族史"、"简要住院病程"等章节）。然后使用 SciSpacy（en core sci md tokenizer）将每个章节分割为句子。

预训练流程

模型使用 Google 的 BERT 仓库中的代码在 GeForce GTX TITAN X 12 GB GPU 上进行训练。模型参数使用 BioBERT（BioBERT-Base v1.0 + PubMed 200K + PMC 270K）初始化。

预训练超参数

我们使用 batch size 为 32、最大序列长度为 128、学习率为 5 · 10⁻⁵ 来预训练模型。在所有 MIMIC 笔记上训练的模型共训练了 150,000 步。用于复制输入数据并应用不同 mask 的 dup factor 设置为 5。所有其他默认参数均被使用（具体来说，masked language model 概率 = 0.15，每个序列的最大预测数 = 20）。

如何使用模型

通过 transformers 库加载模型：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")

有问题？

请在 clinicalBERT 仓库上提交 Github issue，或发送邮件至 ealsentzer@stanford.edu 咨询任何问题。