オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Text to Image #まとめ編 #01

Index

Text to Image

Text から Image を生成する Vision-Language のマルチモーダルなタスク.

Diffusion Model を用いた手法をまとめる.

GLIDE / 2021

RDM / 2022

テキスト入力から画像を生成する際に、外部データベースにある「テキストに合致する画像群」を元に画像生成するという手法.



  • Semi-Parametric Neural Image Synthesis

DreamBooth / 2022

特定の被写体の画像数枚を拡散モデルに学習させることで、特定の被写体を生成する方法を提案.

特定の被写体をモデルに埋め込みながら、拡散モデルが持つ事前知識を忘れないようにすることで目的を達成.



Composable-Diffusion / 2022

ControlNets / 2023

拡散モデルを humanpose など様々な条件で制御できるようにした.

学習する条件部NNはゼロ重みで初期化した層で入力と出力を挟み、 固定の学習済み拡散モデルUNetの復号部に加える.

学習時プロンプトは半分の確率でドロップアウトし、条件部利用を促進させる.

T2I-Adapter / 2023

  • T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

  • huggingface.co

    • huggingface

Fair Diffusion / 2023

  • Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness

Hybrid Diffusion Model / HDM / 2023

  • Controlled and Conditional Text to Image Generation with Diffusion Prior

Directed Diffusion / 2023

  • Directed Diffusion: Direct Control of Object Placement through Attention Guidance

X&Fuse / 2023

  • X&Fuse: Fusing Visual Information in Text-to-Image Generation

VPD / 2023

Word-As-Image / 2023

  • Word-As-Image for Semantic Typography

ODISE / 2023

Text-to-Image Model Editing method / TIME / 2023

HiPer / 2023

  • Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion

P+ / 2023

DS-Fusion / 2023

ロゴの生成.

GlueGen / 2023

  • GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

MagicFusion / 2023

Anti-DreamBooth / 2023

Diffusion Classifier / 2023

Forget-Me-Not / 2023

  • Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models

SuTI / 2023

  • Subject-driven Text-to-Image Generation via Apprenticeship Learning

Diffusion SpaceTime Attn / 2023

  • Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis

Continual Diffusion / 2023

RAPHAEL / 2023

  • RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

タスク

Image Editing

Text-to-3D

3DFuse / 2023

工夫・テクニック

SVDiff / 2023

Fine Turning のテクニック.

  • SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

Local Prompt Mixing / 2023

Ablating Concepts / 2023

Discriminative Class Tokens / 2023

  • Discriminative Class Tokens for Text-to-Image Diffusion Models

Layout Guidance / 2023

参考

  • Text-to-Image Diffusion Models are Zero-Shot Classifiers

Web サイト

  • DiffusionによるText2Imageの系譜と生成画像が動き出すまで