Index
平坦解 / Flat Minima
深層学習がうまくいく理由を説明する仮説のひとつ.
- 深層学習 #まとめ編
パラメータ空間で損失関数がとる曲面を考えたときに、「周辺が平坦な解」の汎化誤差は小さいという考え.
参考
Blessing of Nonconvexity in Deep Linear Models: Depth Flattens the Optimization Landscape Around the True Solution
- [2022]
- arxiv.org
Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction
- [2022]
- arxiv.org
When Do Flat Minima Optimizers Work?
- [2022]
- v5
- arxiv.org
Webサイト
- NeurIPS 2022 参加報告 後編