Index

Index
PubMed とは
- BERT との変更点
参考

PubMed とは

BERT のように、大規模なデータ量で事前学習 / Pre Training することで、様々な NLP のタスクの精度が向上した.
だがしかし、事前学習 / Pre Training で利用するデータセットには、ニュース記事や Web サイトの記事などの一般的なドメインのコーパス(大量な文章のデータセット)を進んで利用している.

これらの作業はある一つの仮定の元行われている.

それは、「ある特定のドメインについてのタスクの事前学習 / Pre Training でも、
一般的なドメインの事前学習を行うことが良い」というもの.

この論文では、ラベル情報があまり手に入らず、
ファインチューニングでの教師あり学習に利用できるデータが少ないドメインの場合、
事前学習の時点から、そのドメインのデータを教師なし学習として利用することで精度が向上することを示した.

その検証のために、生物医学のベンチマーク(データセットとタスク)を利用する.

図中の上のフロー(Mixed-Domain Pretraining)が、一般的なドメインのデータで事前学習し、
ある特定のドメインのデータでファインチューニングするケース.
図中の下のフロー(Domain-Specific Pretraining from Scratch)が、事前学習からある特定のドメインのデータを利用しているケース.

BERT との変更点

ある特定のドメインのデータから事前学習を開始するにあたって、変更する箇所ある.

固有表現抽出(NER) での名称の設定など

参考

Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing
- [2020 Microsoft Research]
- Abstract
- 1. Introduction
- arxiv.org

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】PubMedBERT

Index

PubMed とは

BERT との変更点

参考