bert中文预训练模型_[中文医疗预训练模型] MC-BERT
Conceptualized Representation Learning for Chinese Biomedical Text Mining
作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua
作者單位:Alibaba Group
項目地址:https://github.com/alibaba-research/ChineseBLUE
預訓練模型:mc_bert_base.tar.gz
總結:生物醫學領域的中文預訓練以及評測基準數據集。
擬解決的問題:如何檢索生物醫學領域知識;如何在模型預訓練中利用生物醫學領域的知識。
2. 方法
(1)Whole Entity Masking
解決的問題:遮蓋類似于”腹痛“的醫療實體,將這種醫療知識顯式地注入模型中。
步驟:
1)使用實體命名識別預測醫療實體;
2)使用中文醫療知識圖譜后處理實體。
(2)Whole Span Masking
解決的問題:醫療實體還不足夠,醫療文本中存在類似”肚子有一點痛“,”腹部一陣一陣痛“,它們也與”腹痛“具有類似的含義。
步驟:
1)使用Autophrase提取短語;
2)從Alibaba Cognitive Concept Graph檢索通用的醫療短語;
3)訓練了一個二分類器,用于分類出Autophrase提取出的醫學短語。
(3)整體流程總結
1)生成醫療實體,使用醫療知識圖譜提純醫療實體;
2)使用Autophrase生成短語;
3)使用規則以及fastText增強和提純短語;
4)以15%的幾率進行Whole Entity/Span Masking;
5)用BERT-base的模型參數進行初始化,然后進行預訓練。
3. 實驗
(1)預訓練數據
預訓練數據來自于中文醫療問答、中文醫療百科和中文電子病歷。
(2)下游任務
下游任務數據來自于新發布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。
(3)實驗結果
與Baseline相比,在所有任務上都有著不同程度的提升:
消融實驗,移除whole entity/span masking都會影響模型的效果:
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的bert中文预训练模型_[中文医疗预训练模型] MC-BERT的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: crt中 新建的连接存储在哪_连接昌邑路
- 下一篇: uboot启动流程概述_关于RISCV启