Transformer #まとめ編
- yhayato1320.hatenablog.com

XLNet とは

BERT のような、Auto Encoder Model は、文章全体から学習するような (MLM + Attention など) 事前学習を行うことで、 Auto Regression Model のような Language Model (言語モデル) の事前学習より優れたパフォーマンスを示した.

しかし、このような事前学習は、マスクの位置に依存するため、位置を決定するための微調整を行う必要がある.

XLNet は、Auto Encoder Model の長所と短所から、一般的な Auto Regression Model である XLNet を提案.