- GAN まとめ編
Index
Wasserstein GAN / W GAN
- Wasserstein GAN / W GAN
真のデータ分布の推定の話
そのために、我々は、パラメトリックファミリー(xx分布) / 擬似的な確率密度関数 を定義する.
そして、観測されたデータから最尤法を用いて、母数 (パラメータ) を推定することで、
にもっとも似たよう (近似された) を取得する.
そして、観測されたデータから最尤法を用いて、母数 (パラメータ) を推定することで、
にもっとも似たよう (近似された) を取得する.
ちなみに、この方法は、最尤法で、尤度を最大化するような母数 (パラメータ) を推定しているが、
結局は、 と との確率分布間の距離を表す Kullback Leibler Divergence を最小化することと同義である.
結局は、 と との確率分布間の距離を表す Kullback Leibler Divergence を最小化することと同義である.
- KL Divergence
しかし、画像の生成などでは、それが生成された画像に影響されてしまう.
データを理解するために利用したノイズが、生成では邪魔になってしまう.
データを理解するために利用したノイズが、生成では邪魔になってしまう.
そこで、真のデータ分布 を推定することをやめる.
代わりに固定の確率分布 から、確率変数 (潜在変数) を考える.
それを、関数 で、データ に変換する.
この関数は、ニューラルネットを想定.
つまり、データ で想定している確率分布 を表現する.
そして、ニューラルネットのパラメータ を変更することで、確率分布 を に近づける.
代わりに固定の確率分布 から、確率変数 (潜在変数) を考える.
それを、関数 で、データ に変換する.
この関数は、ニューラルネットを想定.
つまり、データ で想定している確率分布 を表現する.
そして、ニューラルネットのパラメータ を変更することで、確率分布 を に近づける.
この手法には、2 つの利点がある.
1 つは、低次元多様体に限定された分布を表すことができる.
つまり、自由に (柔軟に) 分布を表現できる.
2 つは、確率密度関数を理解する手順よりも、有効である
潜在変数としての、表現学習としての利用も可能である.
1 つは、低次元多様体に限定された分布を表すことができる.
つまり、自由に (柔軟に) 分布を表現できる.
2 つは、確率密度関数を理解する手順よりも、有効である
潜在変数としての、表現学習としての利用も可能である.
モデル分布と真の分布がどれだけ近いかを測定する方法を考える. (分布の類似度)
KL divergence など.
KL divergence など.
通常の距離と分布間の距離との大きな違いは、確率分布の 候補 (シーケンス) の収束への影響があること.
類似度 が、どの程度、正確に定義されているかによるが、
となる が存在する場合のみ収束する.
確率分布のシーケンス
確率分布
確率分布
類似度 が、どの程度、正確に定義されているかによるが、
となる が存在する場合のみ収束する.
参考
Web サイト
- Wasserstein GANの要約とメモ