- Transformer #まとめ編
Index
Sparse Transformer とは
Transformer の課題として、入力の系列が増えると、二次関数的に計算コストやパラメータ、メモリが増えてしまうこと.
これは、Scaled Dot Product Attention の計算が原因.
これは、Scaled Dot Product Attention の計算が原因.
この論文では、Transformer の、入力に対する、計算量を にまで、下げる.
そのために、Sparse Factorizations を導入する.
また、この論文では、以下の手法を紹介し、
- Transformer をより深いネットワークにするための、ネットワークアーキテクチャ.
- メモリを節約するための、Attention の計算方法.
- Fast Attention Kernels
これらの変更を加えたネットワークアーキテクチャを Sparse Transformer と呼ぶ.
Factorized Self Attention
Sparse Transformer では、いくつかのステップを経て、Self Attention を分離(軽量化)する.
どこを見ている
PixelCNN のような、画像に対する Auto Regression Model を考える.
- PixelCNN
使う画像は、CIFAR-10 で、128 層の Self Attention で学習.
黒い部分はマスクされている部分.(情報として取得できない箇所.)
白いハイライトは、重要度が大きい部分.
参考
- Generating Long Sequences with Sparse Transformers
- [2019]
- Abstract
- 4 Factorized Self-Attention
- arxiv.org
Web サイト
- 【論文解説】Sparse Transformerを理解する