Index

Sparse Transformer とは

Transformer の課題として、入力の系列が増えると、二次関数的に計算コストやパラメータ、メモリが増えてしまうこと.

これは、Scaled Dot Product Attention の計算が原因. $O(n^{2})$

この論文では、Transformer の、入力に対する、計算量を $0(n \sqrt{n})$ にまで、下げる.

そのために、Sparse Factorizations を導入する.

また、この論文では、以下の手法を紹介し、

これらの変更を加えたネットワークアーキテクチャを Sparse Transformer と呼ぶ.

Sparse Transformer では、いくつかのステップを経て、Self Attention を分離(軽量化)する.

PixelCNN のような、画像に対する Auto Regression Model を考える.

使う画像は、CIFAR-10 で、128 層の Self Attention で学習.

黒い部分はマスクされている部分.(情報として取得できない箇所.)

白いハイライトは、重要度が大きい部分.

Generating Long Sequences with Sparse Transformers
- [2019]
- Abstract
- 4 Factorized Self-Attention
- arxiv.org