Index
Adam / Adaptive Moment Estimation とは
Momentum と AdaGrad (RMSProp) を合わせた手法.
指数移動平均
RMSProp 同様、減衰させるパラメータの更新式を定義する.
初期値は、 である.
これは、一見すると勾配の1次モーメントと2次モーメントのよい推定量のように見えるが、バイアスがある.
更新の初期はモーメントの推定値が 0 のほうに偏ってします.
不偏推定量
そこで、バイアスを補正し、できるだけ不偏推定量に近づくようにする.
これらの調整パラメータを用いて更新する.
更新アルゴリズム
参考
Adam: A method for stochastic optimization
- [2014]
- arxiv.org
Adam Can Converge Without Any Modification On Update Rules
- [2022]
- v5
- arxiv.org
書籍
ゼロから作るDeepLearning
- 6 学習に関するテクニック
- 6.1 パラメータの更新
- 6.1.6 Adam
- 6.1 パラメータの更新
-
- 6 学習に関するテクニック
機械学習スタートアップシリーズ これならわかる深層学習入門
- 4 勾配降下法による学習
- 4.2 勾配降下法の課題
- 4.2.7 Adam
- 4.2 勾配降下法の課題
- 4 勾配降下法による学習
Web サイト
- 実務で使えるニューラルネットワークの最適化手法