オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】ELECTRA

Index

ELECTRA とは

BERT などの (教師なし) 事前学習 / Pre Training に使われるマスク付き言語モデル /Masked language modeling (MLM) は、大量の計算が必要.

そこで、Replaced Token Detection というよりサンプリング効率のよい事前学習を提案.

MLM のように、単語トークンを [MASK] トークンに置き換えるのではなく、 Generator がそれっぽい文章になるように単語を置き換えることで、入力を変化させる.

(MLM では、[MASK] トークンにした場所の単語を予測するが、、、) その次に、入力されたトークンが変化させられたトークンかどうかを判別する(Discriminator)学習を行う.

Generator が生成した偽物トークンと、本物トークンを、Discriminator が判断する構造は、GAN に近い?

参考

  • ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

Web サイト

  • 【 BERT後継モデル? 】BERTにGANの枠組みを取り入れたElectraが、RoBERTaの1/4の学習データで、RoBERTaと同じ精度を達成!Electraの仕組みを徹底解説!