オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【スタイル変換】pix2pix

  • こんな方におすすめ

深層学習・ディープラーニングの手法として使われている「pix2pix」の基本的な内容について知りたい。



この記事では、pix2pixの基礎概念のまとめを行います。

「これから、機械学習ディープラーニングの学習をしたいから、その基本となるpix2pixの理解を深めたい」という方に向けた記事になります。



  • キーワード・知ってると理解がしやすい
    • Conditional GAN

目次



以前、Cycle GAN をまとめてみましたが、同じ「スタイル変換」の手法で、同時期に発表された「pix2pix」があります。
Cycle GAN とよく比較されるのをみるので、まとめてみたいと思います。

yhayato1320.hatenablog.com

pix2pix とは

CVPR 2017 で発表された論文「Image-to-Image Translation with Conditional Adversarial Networks」で提案された手法。
タスクとしては、「画像のスタイル変換」に位置する。
論文のタイトルの通り「Conditional GAN」の一種、テクニック。

yhayato1320.hatenablog.com



pix2pix_paper

構成

通常の GAN 同様、Generator と Discriminator で構成されております。

構成

Generator

Conditional GAN では、ラベル情報と画像情報を入力として、画像を出力します。
(mnist でしたら、「1」の画像と「1」というラベル情報を Generator に入力し、「1」の生成画像を出力させます。)

ネットワークアーキテクチャは、論文ではU-Net が使われております。
(Image-to-Image のアーキテクチャなら色々試す価値ありそうですね、ResNet とか)

Discriminator

Patch GAN と呼ばれる Discriminator のアーキテクチャが紹介されてます。

yhayato1320.hatenablog.com

Loss

主に2つの項目で構成されてます。

  • Adversarial Loss
    • 通常のGAN と同様
  • ラベル画像と生成画像の差分 (L1 ノルム)
    • 生成される画像がラベル画像とかけ離れないようにするため

まとめ

  • Conditional GAN のラベル情報を画像として適応することで、画像のスタイル変換を可能に
  • Generator は、入力をラベル画像とノイズ(潜在変数)として、生成画像を出力する
  • Discriminator は、ラベル画像情報と共に生成画像を入力し、本物 or 偽物を判断する
  • 最適化する Loss は、2つで「Adversarial Loss」と「生成画像の妥当性」

参考

元論文 arxiv.org

blog.negativemind.com

f:id:yhayato1320:20210327223009j:plain