Index
情報量
情報理論の分野から、パターン認識や機械学習テクニックの発展にも有用なことがわかっているいくつかの概念を考えよう.
エントロピー / Entropy
離散確率変数 を考え、
この変数に対するある特定の値を観測したときにどれだけの情報を受け取るかを考えよう.
情報の量は、 の値を得た際の「驚きの度合い」と見ることができる. 起こりそうもない事象が
起きたと知ったら、いつでも起きそうな事象が起きとことを知るよりも多くの情報を得たといえる.
したがって情報量を測る尺度は確率分布
に依存しており、確率
の単調な関数
で、
情報量を表すようなものを探す.
の形は、2つの事象
が無関係なら、両方を観測したときの情報が、それぞれを別に観測したときの情報量の和になる.
すなわち
となるべきであることに注意して求めることができる.
2つの無関係な事象は統計的に独立ならば が成り立つ. これらの関係から、
は
の対数
となることが考えられ、
となる. ここでマイナス記号は、低い確率で起きる事象 は大きな情報量に対応させるためであることに注意.
ここで、ある送信者が確率変数の値を受信者に送りたいとしよう. その操作で送られる情報の平均量は上の内容を
分布 に関して期待値を取ったものになり、
で与えられる.
これを確率変数 のエントロピー / Entropy とよぶ.
相互情報量
交差エントロピー / Cross Entropy
- 交差エントロピー / Cross Entropy
KL Divergence / 相対エントロピー
- KL Divergence
JS Divergence
応用
Batch Entropy / 2022
バッチエントロピーという新たな尺度を導入. それがディープニューラルネットワークの情報フローを定量化し、訓練可能性に不可欠であることを示す研究. 情報フローがゼロの層を持つネットワークは勾配降下法で最適化できないことを理論的および実験的に示した. これに対処するために、彼らは各層の情報フローを個別に最適化する Batch Entropy Regularization を提案. この正則化は、スキップ接続やバッチ正規化などのアーキテクチャの工夫がないバニラネットワークを含む、以前は訓練不可能だったネットワークを訓練可能にする効果が実証された.
- Improving the Trainability of Deep Neural Networks through Layerwise Batch-Entropy Regularization
- [2022]
- arxiv.org
https://t.co/mctpVg4bgq Batch Entropy Regularizer that makes untrainable networks train. Remove skip connection, normalization layers. Published at TMLR, Works on PaLM like transformers -- thanks to Lucid for the pointer!
— rohan anil (@_arohan_) August 17, 2022