- Transformer #まとめ編
Index
ELECTRA とは
BERT などの (教師なし) 事前学習 / Pre Training に使われるマスク付き言語モデル /Masked language modeling (MLM)
は、大量の計算が必要.
そこで、Replaced Token Detection というよりサンプリング効率のよい事前学習を提案.
MLM のように、単語トークンを [MASK] トークンに置き換えるのではなく、
Generator がそれっぽい文章になるように単語を置き換えることで、入力を変化させる.
(MLM では、[MASK] トークンにした場所の単語を予測するが、、、)
その次に、入力されたトークンが変化させられたトークンかどうかを判別する(Discriminator)学習を行う.
参考
- ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
- [2020]
- Abstract
- arxiv.org
Web サイト
- 【 BERT後継モデル? 】BERTにGANの枠組みを取り入れたElectraが、RoBERTaの1/4の学習データで、RoBERTaと同じ精度を達成!Electraの仕組みを徹底解説!