用語定義

使用する変数や用語を以下ページで定義しております.
【深層学習】Attention #まとめ編 - オムライスの備忘録

Attention とは

ざっくりと

入力側のどこに注目するかを表現する仕組み、あるいは注目した入力データに従って出力を行う仕組み

やっていることは、

複数のベクトル (行列) があったとき、どのベクトルを重要視するかも含めて学習させる仕組み.
(「深層学習による自然言語処理」より)

基本的な処理

Query と Key をスコア関数に入力して重要度スコアを計算
Softmax 関数で割合化・確率化し重要度確率を計算
Value と重要度確率で、重み付き平均の計算を実施し、Value から有益な情報(コンテキストベクトル)を取得

Attention の目的

Attentionは、Query と Key が似ているかどうかで、行列のどの要素(ベクトル)を読み込むかどうかを制御している. 画像データの位置関係 (空間的に近いデータ点同士の方が強い関係性を持つ)や、時系列データの系列関係 (時系列的に近いデータ同士の方が強い関連性を持つ)を度外視して(空間的、時系列的に遠い情報でも重要かどうかを見ているため)、重要な情報同士をまとめることができる.
xtech.nikkei.com