Attention まとめ yhayato1320.hatenablog.com
Index
Multi Head Attention
Multi Head Attention は、Transformer で利用されている仕組み.
Multi Head
Multi Head Attention は、Query、Key、Value の組みを複数用意しておき、 それぞれの組に対して、Attention 機構(Transformer では、Scaled Dot Product Attention)を適用し、 最後に出力を一つに集約するような手法.
Attention では、入力 に対し、行列 を適用して
Query、Key、Value の組を取得していた.
以下のように複数行列の組を用意し、
Query、Key、Value の組を複数作成することができる.
以下のように複数行列の組を用意し、
複数のAttention の出力 を取得後、ベクトルとして連結し、重み で行列変換する. 最終的な出力は以下のようになる.
計算の効率化
出力 を計算する前に、各組の出力 を計算してから、行列変換を行えば、行列計算をまとめられる.
参考
- BERTによる自然言語処理入門
- 3.1.2 Multi-Head Attention