Bio_ClinicalBERT
简介
《公开可用的临床BERT嵌入》论文包含四种独特的临床BERT模型:基于BERT-Base(`cased_L-12_H-768_A-12`)或BioBERT(`BioBERT-Base v1.0 + PubMed 200K + PMC 270K`)初始化,并在所有MIMIC笔记或仅出院小结上进行训练。
模型卡片
模型配置
模型详情
已翻译ClinicalBERT - Bio + Clinical BERT 模型
Publicly Available Clinical BERT Embeddings 论文包含四个独特的 clinicalBERT 模型:使用 BERT-Base (cased_L-12_H-768_A-12) 或 BioBERT (BioBERT-Base v1.0 + PubMed 200K + PMC 270K) 初始化,并在所有 MIMIC 笔记或仅出院小结上进行训练。
本模型卡片描述的是 Bio+Clinical BERT 模型,该模型从 BioBERT 初始化,并在所有 MIMIC 笔记上训练。
预训练数据
Bio_ClinicalBERT 模型在 MIMIC III 的所有笔记上训练,该数据库包含来自马萨诸塞州波士顿贝斯以色列医院 ICU 患者的电子健康记录。有关 MIMIC 的更多详情,请参见此处。NOTEEVENTS 表中的所有笔记均被纳入(约 8.8 亿词)。
模型预训练
笔记预处理
MIMIC 中的每条笔记首先使用基于规则的章节分割器进行分节(例如,出院小结笔记被分割为"现病史"、"家族史"、"简要住院病程"等章节)。然后使用 SciSpacy(en core sci md tokenizer)将每个章节分割为句子。
预训练流程
模型使用 Google 的 BERT 仓库 中的代码在 GeForce GTX TITAN X 12 GB GPU 上进行训练。模型参数使用 BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K)初始化。
预训练超参数
我们使用 batch size 为 32、最大序列长度为 128、学习率为 5 · 10⁻⁵ 来预训练模型。在所有 MIMIC 笔记上训练的模型共训练了 150,000 步。用于复制输入数据并应用不同 mask 的 dup factor 设置为 5。所有其他默认参数均被使用(具体来说,masked language model 概率 = 0.15,每个序列的最大预测数 = 20)。
如何使用模型
通过 transformers 库加载模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")
更多信息
请参考原始论文 Publicly Available Clinical BERT Embeddings(NAACL Clinical NLP Workshop 2019)以获取更多详情以及在 NLI 和 NER 任务上的表现。
有问题?
请在 clinicalBERT 仓库 上提交 Github issue,或发送邮件至 ealsentzer@stanford.edu 咨询任何问题。
正在翻译中,请稍候...