オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】CLIPDraw

Index

CLIPDraw

テキストを入力として画像を生成する Text-to-Image のタスク.

CLIP を利用したアルゴリズム.

Architecture

Synthesis Though Optimization

「テキスト」と「ランダムに生成した画像」に対する誤差を逆伝播させながら 生成画像を最適化していくというアイデア.



逆伝播は学習するために利用するのではなく、画像の生成を最適化するために利用することになる.

つまり、事前学習済の CLIP モデルがあれば、追加で学習を行う必要がない.

参考

  • CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders
    • [2021]
    • 2 Related Work
      • Text-to-Image Synthesis
      • Synthesis Through Optimization
      • Vector Graphics
    • arxiv.org

Web サイト