模型库 / emilyalsentzer/Bio_ClinicalBERT

Bio_ClinicalBERT

emilyalsentzer fill-mask transformers en
emilyalsentzer/Bio_ClinicalBERT
2,251,720
下载量
428
收藏数
8
浏览量
mit
许可

简介

《公开可用的临床BERT嵌入》论文包含四种独特的临床BERT模型:基于BERT-Base(`cased_L-12_H-768_A-12`)或BioBERT(`BioBERT-Base v1.0 + PubMed 200K + PMC 270K`)初始化,并在所有MIMIC笔记或仅出院小结上进行训练。

模型卡片

许可协议 mit
语言
en
fill-mask

模型配置

模型类型 bert

模型详情

已翻译

ClinicalBERT - Bio + Clinical BERT 模型

Publicly Available Clinical BERT Embeddings 论文包含四个独特的 clinicalBERT 模型:使用 BERT-Base (cased_L-12_H-768_A-12) 或 BioBERT (BioBERT-Base v1.0 + PubMed 200K + PMC 270K) 初始化,并在所有 MIMIC 笔记或仅出院小结上进行训练。

本模型卡片描述的是 Bio+Clinical BERT 模型,该模型从 BioBERT 初始化,并在所有 MIMIC 笔记上训练。

预训练数据

Bio_ClinicalBERT 模型在 MIMIC III 的所有笔记上训练,该数据库包含来自马萨诸塞州波士顿贝斯以色列医院 ICU 患者的电子健康记录。有关 MIMIC 的更多详情,请参见此处NOTEEVENTS 表中的所有笔记均被纳入(约 8.8 亿词)。

模型预训练

笔记预处理

MIMIC 中的每条笔记首先使用基于规则的章节分割器进行分节(例如,出院小结笔记被分割为"现病史"、"家族史"、"简要住院病程"等章节)。然后使用 SciSpacy(en core sci md tokenizer)将每个章节分割为句子。

预训练流程

模型使用 Google 的 BERT 仓库 中的代码在 GeForce GTX TITAN X 12 GB GPU 上进行训练。模型参数使用 BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K)初始化。

预训练超参数

我们使用 batch size 为 32、最大序列长度为 128、学习率为 5 · 10⁻⁵ 来预训练模型。在所有 MIMIC 笔记上训练的模型共训练了 150,000 步。用于复制输入数据并应用不同 mask 的 dup factor 设置为 5。所有其他默认参数均被使用(具体来说,masked language model 概率 = 0.15,每个序列的最大预测数 = 20)。

如何使用模型

通过 transformers 库加载模型:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")

更多信息

请参考原始论文 Publicly Available Clinical BERT Embeddings(NAACL Clinical NLP Workshop 2019)以获取更多详情以及在 NLI 和 NER 任务上的表现。

有问题?

请在 clinicalBERT 仓库 上提交 Github issue,或发送邮件至 ealsentzer@stanford.edu 咨询任何问题。

标签

tf jax bert en arxiv:1904.03323 arxiv:1901.08746 license:mit endpoints_compatible

操作


详细信息

厂商
emilyalsentzer
任务
fill-mask
框架
transformers
模型类型
bert
许可(HF)
mit
语言
en