Index
DeBERTa
- BERT #まとめ編
DeBERTaV3 / 2021
- DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing
- [2021]
- arxiv.org
参考
DeBERTa: Decoding-enhanced BERT with Disentangled Attention
- [2020]
- arxiv.org
Web サイト
RoBERTaとDeBERTaの違いを整理
日本語DeBERTaモデルの構築
Post
https://t.co/8GG9cWURLd
— akira (@AkiraTOSEI) February 22, 2021
文書の相対位置を示す行列を分離して計算させることでより位置を考慮させるdisentangled attentionと、decoderにtokenの絶対位置情報を与えるEnhanced Mask Decoderを組み合わせたDeBERTaを提案。SuperGLUEにおいて人間を超えるスコアを示す。 pic.twitter.com/ehCrBISGP9