オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】平坦解 / Flat Minima

Index

平坦解 / Flat Minima

深層学習がうまくいく理由を説明する仮説のひとつ.

パラメータ空間で損失関数がとる曲面を考えたときに、「周辺が平坦な解」の汎化誤差は小さいという考え.

参考

  • Blessing of Nonconvexity in Deep Linear Models: Depth Flattens the Optimization Landscape Around the True Solution

  • Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction

  • When Do Flat Minima Optimizers Work?

Webサイト