オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】GLIDE

yhayato1320.hatenablog.com

Index

GLIDE

Diffusion Model を利用した画像の生成アルゴリズム.

2 つの異なるガイダンスで構成されている.

  1. CLIP ガイダンス
  2. Classifier Free ガイダンス
GLIDE : Guided Language to Image Diffusion for Generation and Editing.

Diffusion Model

生成モデルの仕組みに Diffusion Model を利用.

yhayato1320.hatenablog.com

Guided Diffusion

Diffusion Model の1 つで、条件付き確率を導入したモデル.

条件として入力される情報が、教師データ (=Guidance) の役割をしている.

 
\begin{align}
\hat{\mu}_{\theta}\ =\ &\mu_{\theta}\ (x_{t}\ |\ y) \\
&\ +\ s\ \cdot\ \Sigma\ (x_{t}\ |\ y)
\end{align}

Classifier-Free Guidance

分類器を利用しない、Guided Diffusion

CLIP (Classifier) Guidance

テキストと画像間の共同表現を学習する.

CLIP モデルは、画像エンコーダとキャプションエンコーダの 2 つで構成されている.

参考

  • GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

    • [2021 OpenAI]
    • Abstract
    • 1 Introduction
    • 2 Background
      • 2.1 Diffusion Models
      • 2.2 Guided Diffusion
      • 2.3 Classifier-free guidance
      • 2.4 CLIP Guidance
    • arxiv.org

  • Diffusion Models Beat GANs on Image Synthesis

    • [2021 OpenAI]
    • 4 Classifier Guidance
    • arxiv.org

Web サイト