この記事の読者
深層学習・ディープラーニングの手法の1つである「PubMedBERT」について知りたい.
キーワード・知ってると理解がしやすい
- BERT
まとめ編 yhayato1320.hatenablog.com
Index
PubMed とは
BERT のように、大規模なデータ量で事前学習 / Pre Training することで、
様々な NLP のタスクの精度が向上した.
だがしかし、事前学習 / Pre Training で利用するデータセットには、 ニュース記事や Web サイトの記事などの一般的なドメインのコーパス(大量な文章のデータセット)を 進んで利用している.
一般的なドメインの事前学習を行うことが良い」というもの.
だがしかし、事前学習 / Pre Training で利用するデータセットには、 ニュース記事や Web サイトの記事などの一般的なドメインのコーパス(大量な文章のデータセット)を 進んで利用している.
これらの作業はある一つの仮定の元行われている.
それは、「ある特定のドメインについてのタスクの事前学習 / Pre Training でも、一般的なドメインの事前学習を行うことが良い」というもの.
この論文では、ラベル情報があまり手に入らず、
ファインチューニングでの教師あり学習に利用できるデータが少ないドメインの場合、
事前学習の時点から、そのドメインのデータを教師なし学習として利用することで精度が向上することを示した.
その検証のために、生物医学のベンチマーク(データセットとタスク)を利用する.
図中の上のフロー(Mixed-Domain Pretraining)が、一般的なドメインのデータで事前学習し、
ある特定のドメインのデータでファインチューニングするケース.
図中の下のフロー(Domain-Specific Pretraining from Scratch)が、事前学習からある特定のドメインのデータを利用しているケース.
BERT との変更点
ある特定のドメインのデータから事前学習を開始するにあたって、変更する箇所ある.
- 固有表現抽出(NER) での名称の設定など