オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【機械学習】情報量

Index

情報量

情報理論の分野から、パターン認識機械学習テクニックの発展にも有用なことがわかっているいくつかの概念を考えよう.

エントロピー / Entropy

離散確率変数  x を考え、 この変数に対するある特定の値を観測したときにどれだけの情報を受け取るかを考えよう.

情報の量は、 x の値を得た際の「驚きの度合い」と見ることができる. 起こりそうもない事象が 起きたと知ったら、いつでも起きそうな事象が起きとことを知るよりも多くの情報を得たといえる. したがって情報量を測る尺度は確率分布  p(x) に依存しており、確率  p(x) の単調な関数  h(x) で、 情報量を表すようなものを探す.

 h(\cdot) の形は、2つの事象  x,\ y が無関係なら、両方を観測したときの情報が、それぞれを別に観測したときの情報量の和になる. すなわち  h(x,\ y)\ =\ h(x)\ +\ h(y) となるべきであることに注意して求めることができる.

2つの無関係な事象は統計的に独立ならば  p(x,\ y)\ =\ p(x)\ \cdot\ p(y) が成り立つ. これらの関係から、 h(x) p(x) の対数 となることが考えられ、

 h(x)\ =\ - \log_{2} p(x)



となる. ここでマイナス記号は、低い確率で起きる事象  x は大きな情報量に対応させるためであることに注意.

ここで、ある送信者が確率変数の値を受信者に送りたいとしよう. その操作で送られる情報の平均量は上の内容を 分布  p(x) に関して期待値を取ったものになり、

 H(x)\ =\ \displaystyle \sum_{x}\ p(x)\ (- \log p(x))



で与えられる.

これを確率変数  xエントロピー / Entropy とよぶ.


\begin{eqnarray}
H(x)\ &=&\ - \displaystyle \sum_{x}\ p(x)\ \log p(x) \\
 \\
&=&\ - \displaystyle \int_{x}\ p(x)\ \log p(x)\ dx
\end{eqnarray}

相互情報量

交差エントロピー / Cross Entropy

KL Divergence / 相対エントロピー

JS Divergence

応用

Batch Entropy / 2022

バッチエントロピーという新たな尺度を導入. それがディープニューラルネットワークの情報フローを定量化し、訓練可能性に不可欠であることを示す研究. 情報フローがゼロの層を持つネットワークは勾配降下法で最適化できないことを理論的および実験的に示した. これに対処するために、彼らは各層の情報フローを個別に最適化する Batch Entropy Regularization を提案. この正則化は、スキップ接続やバッチ正規化などのアーキテクチャの工夫がないバニラネットワークを含む、以前は訓練不可能だったネットワークを訓練可能にする効果が実証された.

  • Improving the Trainability of Deep Neural Networks through Layerwise Batch-Entropy Regularization

参考

書籍

Web サイト