オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】RMSProp / Root Mean Square Prop

yhayato1320.hatenablog.com

Index

RMSProp / Root Mean Square Prop

AdaGrad / Adaptive Gradient の課題

AdaGrad / Adaptive Gradient は、
変数  h に、過去の勾配の情報を、二乗和することで、更新(蓄積)していく.

yhayato1320.hatenablog.com

この方法では、学習を進めていくうちに、更新量が 0 になり、更新は行われなくなる.

これは、過去の全ての勾配の情報を集積していまっていたから.

改善点

このような課題を、過去の勾配の情報を均一に加算していくのではなく、
過去の情報よりも、直近の情報に重みを置く様に加算していく、
「指数移動平均」という加算方法を導入して、解決した手法.

更新アルゴリズム

更新アルゴリズム

 
\begin{align}
h\ &\leftarrow\ \alpha h\ +\ (1\ -\ \alpha)\ \displaystyle \frac{\partial L}{\partial W}\ \odot \displaystyle \frac{\partial L}{\partial W} \\
W\ &\leftarrow\ W\ -\ \mu \displaystyle \frac{1}{\sqrt{h\ +\ \epsilon}} \displaystyle \frac{\partial L}{\partial W}
\end{align}

 \mu は学習率  0 \leq \mu \leq 1
 \alpha は、どれだけ、直近の勾配に重きを置くかの割合パラメータ
 \epsilon は分母が 0 にならないための固定パラメータ  \epsilon_{n}\ =\ 10^{-6}


直近の勾配の履歴のみが影響するため、更新量が完全に消えてしまうことはない.

参考