オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】PubMedBERT

この記事の読者

深層学習・ディープラーニングの手法の1つである「PubMedBERT」について知りたい.


キーワード・知ってると理解がしやすい

  • BERT

yhayato1320.hatenablog.com


まとめ編 yhayato1320.hatenablog.com

Index

PubMed とは

BERT のように、大規模なデータ量で事前学習 / Pre Training することで、 様々な NLP のタスクの精度が向上した.
だがしかし、事前学習 / Pre Training で利用するデータセットには、 ニュース記事や Web サイトの記事などの一般的なドメインコーパス(大量な文章のデータセット)を 進んで利用している.

これらの作業はある一つの仮定の元行われている.
それは、「ある特定のドメインについてのタスクの事前学習 / Pre Training でも、
一般的なドメインの事前学習を行うことが良い」というもの.


この論文では、ラベル情報があまり手に入らず、
ファインチューニングでの教師あり学習に利用できるデータが少ないドメインの場合、
事前学習の時点から、そのドメインのデータを教師なし学習として利用することで精度が向上することを示した.

その検証のために、生物医学のベンチマーク(データセットとタスク)を利用する.


図中の上のフロー(Mixed-Domain Pretraining)が、一般的なドメインのデータで事前学習し、
ある特定のドメインのデータでファインチューニングするケース.
図中の下のフロー(Domain-Specific Pretraining from Scratch)が、事前学習からある特定のドメインのデータを利用しているケース.

BERT との変更点

ある特定のドメインのデータから事前学習を開始するにあたって、変更する箇所ある.

  • 固有表現抽出(NER) での名称の設定など

参考

  • Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing