オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】pix2pix

こんな方におすすめ

深層学習・ディープラーニングの手法として使われている「pix2pix」の基本的な内容について知りたい.



この記事では、pix2pixの基礎概念のまとめを行う.

Index

pix2pix とは

以前、Cycle GAN を述べた.



同じ「スタイル変換 / Style Transfor」の手法で、同時期に発表された「pix2pix」がある.



Cycle GAN とよく比較されるのをみるので、述べる.



Conditional GAN の一種、テクニック.

pix2pix_paper

構成

通常の GAN 同様、Generator と Discriminator で構成されている.

構成

Generator

Conditional GAN では、ラベル情報と画像情報を入力として、画像を出力する.

mnist だったら、「1」の画像と「1」というラベル情報を Generator に入力し、「1」の生成画像を出力させる.

ネットワークアーキテクチャは、論文ではU-Net が使われている.

Image-to-Image のアーキテクチャなら色々試す価値あり?、ResNet とか

Discriminator

Patch GAN と呼ばれる Discriminator のアーキテクチャが紹介されている.

Loss

主に2つの項目で構成されている.

  • Adversarial Loss
    • 通常のGAN と同様
  • ラベル画像と生成画像の差分 (L1 ノルム)
    • 生成される画像がラベル画像とかけ離れないようにするため

まとめ

  • Conditional GAN のラベル情報を画像として適応することで、画像のスタイル変換を可能に
  • Generator は、入力をラベル画像とノイズ(潜在変数)として、生成画像を出力する
  • Discriminator は、ラベル画像情報と共に生成画像を入力し、本物 or 偽物を判断する
  • 最適化する Loss は、2つで「Adversarial Loss」と「生成画像の妥当性」

参考

  • Image-to-Image Translation with Conditional Adversarial Networks

Web サイト