オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】畳み込みニューラルネットワーク #概念編

Index

手書き数字認識

手書き数字認識というタスクを考える.



入力は手書き数字の画像で、出力は 0 ~ 9 の10クラスの事後確率.

ニューラルネットワークモデル

ニューラルネットワークモデル (NNモデル) の利用を前提に手法を検討する.

手書き画像のそれぞれには、もちろん微妙な違い(平行移動・縮小拡大・回転)があり、その違いに対して不変性・柔軟性・頑健性を必要とするので、NNモデルを前提に進める.

単純なアプローチ

単純なアプローチは全結合のネットワークへの入力として画像を扱うこと.

しかし、このアップローチは画像の重要な特性・情報を見落としている.

すなわち、距離の近いピクセル同士は相関・関連性が高く、距離の遠いピクセル同士は相関・関連性が低いということ.

畳み込みニューラルネットワーク

次のアプローチとして「畳み込みニューラルネットワーク(Convolutional Neural Network : CNN)」を考える.



CNN には3つ機構が含まれる.

  • 1 局所的受容野 (local receptive field)
    • 「畳み込み層」、「プーリング層 / 部分サンプリング層」における機構
  • 2 重み共有 (weight sharing)
    • 「畳み込み層」 における機構
  • 3 部分サンプリング (sub-sampling)
    • 「プーリング層 / 部分サンプリング層」における機構

局所的受容野 (local receptive field)

画像のある注目点について考えたとき、その注目点の近傍の点と関係が強く、離れるほど関係が弱くなっていくという考えのもと、 次のNNの層への入力を近傍のユニット群のみにするという機構.

この機構により、精度とパラメータ計算コスト効率を向上さている.

重み共有 (weight sharing)

画像の注目点ごとにパラメータを変えるのではなく、共有のパラメータを使うことで、パラメータ計算コストを向上させている.

部分サンプリング (sub-sampling)

CNN の「プーリング層 / 部分サンプリング層」に用いられている機構.

特徴量の統計量を計算することで、 画像のゆがみ (平行移動・縮小拡大・回転) に対して、影響を受けにくい不変性・柔軟性・頑健性をもつことが期待できる.

Channel 次元の増減

画像データは(Batch Size, Height, Width, Channel) の形式で利用されることが多い.

Height / Width が増減されることは、局所的な情報の抽出・要約を行っていることであり、 Channel の増加は、ある座標においての、RGB 以外での表現の仕方の模索である.

参考

書籍

Web サイト