オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Diffusion Model #まとめ編

Index

アルゴリズム

Diffusion Model を利用した Multimodal な手法をまとめる.

MM-Diffusion / 2022

  • MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

  • github.com

Unified Discrete Denoising Diffusion / UniD3 / 2022

  • Unified Discrete Diffusion for Simultaneous Vision-Language Generation

Tune-A-Video / 2022

MCM diffusion / 2023

Text + Image -> Image.

priorMDM / 2023

Text to Motion.

Uni Diffuser / 2023

x(画像)とy(言語)という2つのドメインに対して

  • Marginal: xやyだけの生成 (画像やテキスト生成)
  • Conditional: yを指定してxを生成、その逆 (text-to-imageとimage captioning)
  • Joint: xとyを同時に生成 (画像テキストペアの生成)


を全部扱う拡散モデル.



  • One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

Unified Multi-Modal Latent Diffusion / UMM-Diffusion / 2023

  • Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation

Text2Tex / 2023

Text-to-3D.

Vox-E / 2023

Text-to-3D.

Text2Video-Zero / 2023

Video 生成.

  • Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

AvatarCraft / 2023

Text to 3D (Avatar).

PODIA-3D / 2023

Text to 3D.

  • PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion

DreamPose / 2023

Video LDM / 2023

VideoLDMは潜在拡散モデルを使ってテキスト条件付の長時間、高解像度の動画生成を実現.

フレーム毎の生成を学習後(既存の拡散モデルも利用可能)、時間方向の層を途中に導入し、 途中フレームを補間を条件付き生成できるよう学習する、またビデオ単位の敵対的損失も利用する.



Latent-Shift / 2023

Generative Disco / 2023

  • Generative Disco: Text-to-Video Generation for Music Visualization

AudioLDM / 2023

CoDi / 2023



  • Any-to-Any Generation via Composable Diffusion

AudioToken / 2023

Text-to-Image