こんな方におすすめ
深層学習・ディープラーニングの手法として使われている「pix2pix」の基本的な内容について知りたい.
この記事では、pix2pixの基礎概念のまとめを行う.
Index
pix2pix とは
以前、Cycle GAN を述べた.
同じ「スタイル変換 / Style Transfor」の手法で、同時期に発表された「pix2pix」がある.
Cycle GAN とよく比較されるのをみるので、述べる.
- Cycle GAN
同じ「スタイル変換 / Style Transfor」の手法で、同時期に発表された「pix2pix」がある.
- スタイル変換Style Transfor
Cycle GAN とよく比較されるのをみるので、述べる.
Conditional GAN の一種、テクニック.
- Conditional GAN
構成
通常の GAN 同様、Generator と Discriminator で構成されている.
Generator
Conditional GAN では、ラベル情報と画像情報を入力として、画像を出力する.
mnist だったら、「1」の画像と「1」というラベル情報を Generator に入力し、「1」の生成画像を出力させる.
ネットワークアーキテクチャは、論文ではU-Net が使われている.
Image-to-Image のアーキテクチャなら色々試す価値あり?、ResNet とか
Discriminator
Patch GAN と呼ばれる Discriminator のアーキテクチャが紹介されている.
- Patch GAN
Loss
主に2つの項目で構成されている.
- Adversarial Loss
- 通常のGAN と同様
- ラベル画像と生成画像の差分 (L1 ノルム)
- 生成される画像がラベル画像とかけ離れないようにするため
まとめ
- Conditional GAN のラベル情報を画像として適応することで、画像のスタイル変換を可能に
- Generator は、入力をラベル画像とノイズ(潜在変数)として、生成画像を出力する
- Discriminator は、ラベル画像情報と共に生成画像を入力し、本物 or 偽物を判断する
- 最適化する Loss は、2つで「Adversarial Loss」と「生成画像の妥当性」
参考
- Image-to-Image Translation with Conditional Adversarial Networks
- [2016]
- arxiv.org
Web サイト
- Pix2Pix:CGANによる画像変換