この記事の読者

深層学習・ディープラーニングの手法の１つである「RoBERTa」について知りたい.

Index

RoBERTa とは

発表論文のタイトルのとおり、BERTをロバストにするアプローチ.

Robustly Optimized BERT Approach

BERT の事前学習 / Pre Training の研究の紹介.

ハイパーパラメータと学習データサイズの評価の研究

利用する BERT のネットワークアーキテクチャは変更しない.

比較するための、ベンチマークのベースはこれ.

$BERT_{BASE}\ (L=12,\ H=768,\ A=12,\ 110M params)$

BERT のマスク付き言語モデルの学習では、マスクの位置に依存してしまう.

学習のEpoch ごとに、同じデータでもマスクの位置を変える.

40 epoch のうち、10 epoch ずつマスクの位置が異なるデータを使うことで、 4 つのマスクキングされた学習データを利用できる.

BERT では、2 つの方法で、教師なしデータを使って、事前学習を行っていた.

「マスク付き言語モデル」では、文章の一部を隠し、その箇所を周りの文章から予測する.

「Next Sentence Prediction」では、連結された2つの文章を入力としたとき、それらの文章が関連があるかどうかをクラス分類するタスクで学習を行う.

この「Next Sentence Prediction」を廃止することで、精度の向上が見られた.

ニューラル機械翻訳の研究でも、バッチサイズを大きくした結果、学習率を適切に上げることで、学習速度と精度の両方の向上が報告されている.

オリジナルの BERT では、256 のシーケンスバッチで、1M ステップで学習.

この計算コストは、以下の学習の計算コストと同等.

この3つのケースで精度比較したところ、バッチ数を増やしたケースの方が精度がよくなった.