Index
Style CLIP
Text Driven の画像変換 / Image Transfer を行うマルチモーダルなアルゴリズム.
- マルチモーダル #まとめ編
Style GAN の潜在空間を利用して、生成される画像を操作する手法を提案する.
- Style GAN #まとめ編
意味のある潜在空間の操作を行うために、CLIP を導入する.
- CLIP #まとめ編
3 つの学習方法を提案.
- Latent Optimization
- Latent Mapper
- Global Direction
Text Driven Manipulation
この論文では、Text Driven の画像の編集 (Manipulation) を 3 つの手法を軸に紹介している.
この 3 つの方法には、StyleGAN の高品質な画像生成と
画像 (Vision) と言語 (Language) を同時に学習した CLIP の表現力を合わせた手法になっている.
Latent Optimization
ある特定の画像の「Style GAN の潜在空間 内の潜在変数」が、
CLIP で計算される損失を最小化するように最適化する.
最適化は、画像とテキストのペアごとに行われるため、処理に時間がかかる.
- 画像 / Vision
- 画像から変換された潜在変数 :
- 元の潜在変数 :
- Generator :
- 生成画像 :
- テキスト / Language
- CLIP により Encode された Text Embedding :
生成画像とテキストの類似度を計算.
元の潜在変数と乖離しないように制限.
再度、生成した画像との乖離をなくす.
Latent Mapper
Style GAN の Mapping Network は、潜在変数 を中間潜在変数 に変換・操作している点に着目する.
Latent Optimizer の欠点
Latent Optimization は、画像とテキストのペアに対して、専用の最適化を実行するため、用途が広い.
欠点としては、一つの画像のスタイル変換のための最適化に時間がかかること.
また、パラメータに敏感になりやすい.
Latent Mapper は、
任意の に対し、
特定の操作内容テキスト の編集操作 を推測するように、
Mapping Network を学習する.
Global Direction
Style GAN のスタイル空間 で計算される.
Latent Mapper の欠点
Latent Mapper は、推論時間が高速な手法だったが、細かい編集には向かない場合がある.
特定の編集のベクトル (Manipulation Step) の類似度が高いことがわかっている.
(「髪を黒に変える」という編集のベクトルと「髪を青に変える」という編集のベクトルの類似度が大きい等)
この点に着目して、
「編集内容のテキストの定型文のベクトル」を Style GAN のスタイル空間 / Style Space にて、マッピングする方法を検討する.
- Style Space
- : スタイル情報
- : スタイル情報 をもとに、生成された画像
ある属性 (髪、瞳、表情など) に対する編集内容を表すテキスト (髪をアフロに変える等) が与えらた場合に、
が他の属性に影響を与えることなく、その属性のみに変化した画像を生成するとように
を探すことが目的.
Global Direction の大まかなアイディアは、
- 編集内容のテキストを CLIP の Text Encoder を利用して、Embedding されたベクトル を取得する.
- このベクトルを スタイル空間 の画像の変化ベクトルにマッピングする.
CLIP の Embedding Space での、画像の多様体を で表し、
テキストの多様体を で表す.
だが、学習された CLIP 空間では、それらの多様体のベクトルは、ほぼ同一線上にある (コサイン類似度がおおきくなる)ように、 それぞれの Encoder が学習されている.
画像のペア と が与えられた場合、
それらの CLIP の Embedding Vector を と で表すことにする.
したがって、CLIP 空間での、2つの画像の差分 (変化ベクトル) は、 で表せる.
最初に、 として、CLIP 空間に Encoder されたテキストの編集内容が与えられ、
と の共線性・相関性を仮定すると、 を評価することで、
を決定できる.
Prompt Engineering
編集内容テキストの Embedding / Encoder の際にノイズを減らすために、
CLIP でも利用していた Prompt Engineering を利用する.
潜在変数の各チャネルとの関連性
次のこの論文の目的は、目的の編集のテキストベクトル と
同一線上にあると考えている画像の変化ベクトル と
スタイル空間 での生成画像の変化 を関連付けること.
この目的のために、スタイル空間 の各次元 (チャネル) の変化と、
CLIP 空間での画像の変化 の変化との間の関連性を評価する.
スタイル潜在変数 を複数生成し、
ランダムな値を足すことで、スタイル潜在変数の特定の次元 (チャネル) のみを動かす.
それらの画像を CLIP 空間に Embedding することで、得られる変化を で表すと、
スタイル空間の次元 (チャネル) と編集のテキストとの関連性は、
と の内積 (類似度) の平均として推定できる.
生成する画像のペアは、 で与えられ、
は、次元 (チャネル) 以外 0 の値が格納されている.
は変動の度合いのハイパーパラメータで、 のように設置される.
そして、各次元 (チャネル) との関連性 が閾値 を下回る次元 (チャネル) の変動は無視するようにする.
より高く設定すると、わかりやすい操作ができるが、視覚的な影響・画像の変化は減る.
参考
- StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
- [2021]
- Abstract
- 3 StyleCLIP Text-Driven Manipulation
- 4 Latent Optimization
- 5 Latent Mapper
- 6 Global Directions
- arxiv.org
Web サイト
- 【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery