Index
RMSProp / Root Mean Square Prop
AdaGrad / Adaptive Gradient の課題
AdaGrad / Adaptive Gradient は、
変数 に、過去の勾配の情報を、二乗和することで、更新(蓄積)していく.
この方法では、学習を進めていくうちに、更新量が 0 になり、更新は行われなくなる.
これは、過去の全ての勾配の情報を集積していまっていたから.
改善点
このような課題を、過去の勾配の情報を均一に加算していくのではなく、
過去の情報よりも、直近の情報に重みを置く様に加算していく、
「指数移動平均」という加算方法を導入して、解決した手法.
更新アルゴリズム
直近の勾配の履歴のみが影響するため、更新量が完全に消えてしまうことはない.
参考
ゼロから作るDeepLearning
- 6 学習に関するテクニック
- 6.1 パラメータの更新
- 6.1.5 AdaGrad
- 6.1 パラメータの更新
- 6 学習に関するテクニック
機械学習スタートアップシリーズ これならわかる深層学習入門
- 4 勾配降下法による学習
- 4.2 勾配降下法の課題
- 4.2.5 RMSprop
- 4.2 勾配降下法の課題
- 4 勾配降下法による学習