Index
CLIPDraw
テキストを入力として画像を生成する Text-to-Image のタスク.
- Text-to-Image
CLIP を利用したアルゴリズム.
- CLIP #まとめ編
Architecture
Synthesis Though Optimization
「テキスト」と「ランダムに生成した画像」に対する誤差を逆伝播させながら
生成画像を最適化していくというアイデア.
- Visualizing Higher-Layer Features of a Deep Network
- Synthesizing the preferred inputs for neurons in neural networks via deep generator networks
- [2016]
- v5
- arxiv.org
- Inceptionism: Going deeper into neural networks
逆伝播は学習するために利用するのではなく、画像の生成を最適化するために利用することになる.
つまり、事前学習済の CLIP モデルがあれば、追加で学習を行う必要がない.
参考
- CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders
Web サイト
- NeurIPS 2022 参加報告 前編