- Transformer #まとめ編
XLNet とは
BERT のような、Auto Encoder Model は、文章全体から学習するような (MLM + Attention など) 事前学習を行うことで、
Auto Regression Model のような Language Model (言語モデル) の事前学習より優れたパフォーマンスを示した.
しかし、このような事前学習は、マスクの位置に依存するため、位置を決定するための微調整を行う必要がある.
XLNet は、Auto Encoder Model の長所と短所から、一般的な Auto Regression Model である XLNet を提案.
Auto Regression Model / 自己回帰モデル
文章全体からの予測
- Auto Regression Formulation を導入して、BERT の問題点を解決
さらに、Transformer-XL の事前学習のアイディアを取り入れる.
- Transformer-XL
参考
- XLNet: Generalized Autoregressive Pretraining for Language Understanding
Web サイト
- XLNetを理解する