オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Sparse Transformer

Index

Sparse Transformer とは

Transformer の課題として、入力の系列が増えると、二次関数的に計算コストやパラメータ、メモリが増えてしまうこと.

これは、Scaled Dot Product Attention の計算が原因.  O(n^{2})



この論文では、Transformer の、入力に対する、計算量を  0(n \sqrt{n}) にまで、下げる.

そのために、Sparse Factorizations を導入する.

また、この論文では、以下の手法を紹介し、

  1. Transformer をより深いネットワークにするための、ネットワークアーキテクチャ.
  2. メモリを節約するための、Attention の計算方法.
  3. Fast Attention Kernels

これらの変更を加えたネットワークアーキテクチャSparse Transformer と呼ぶ.

Factorized Self Attention

Sparse Transformer では、いくつかのステップを経て、Self Attention を分離(軽量化)する.

どこを見ている

PixelCNN のような、画像に対する Auto Regression Model を考える.

使う画像は、CIFAR-10 で、128 層の Self Attention で学習.



黒い部分はマスクされている部分.(情報として取得できない箇所.)

白いハイライトは、重要度が大きい部分.

参考

  • Generating Long Sequences with Sparse Transformers
    • [2019]
    • Abstract
    • 4 Factorized Self-Attention
    • arxiv.org

Web サイト