Index

Index
アルゴリズム
Text-to-Image

アルゴリズム

Diffusion Model を利用した Multimodal な手法をまとめる.

Diffusion Model #まとめ編
- yhayato1320.hatenablog.com
Multimodal #まとめ編
- yhayato1320.hatenablog.com

MM-Diffusion / 2022

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
- [2022]
- arxiv.org
github.com
- github

Unified Discrete Denoising Diffusion / UniD3 / 2022

Unified Discrete Diffusion for Simultaneous Vision-Language Generation
- [2023]
- arxiv.org

Tune-A-Video / 2022

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
- [2022]
- arxiv.org
- tuneavideo.github.io

MCM diffusion / 2023

Text + Image -> Image.

Modulating Pretrained Diffusion Models for Multimodal Image Synthesis
- [2023]
- arxiv.org
- mcm-diffusion.github.io

priorMDM / 2023

Text to Motion.

Human Motion Diffusion as a Generative Prior
- [2023]
- arxiv.org
- github.com
- priormdm.github.io

Uni Diffuser / 2023

x(画像)とy(言語)という２つのドメインに対して

Marginal: xやyだけの生成 (画像やテキスト生成)
Conditional: yを指定してxを生成、その逆 (text-to-imageとimage captioning)
Joint: xとyを同時に生成 (画像テキストペアの生成)

を全部扱う拡散モデル.

One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
- [2023]
- arxiv.org
- github.com

Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation
- [2023]
- arxiv.org

Text2Tex / 2023

Text-to-3D.

Text2Tex: Text-driven Texture Synthesis via Diffusion Models
- [2023]
- arxiv.org
- daveredrum.github.io

Vox-E / 2023

Text-to-3D.

Vox-E: Text-guided Voxel Editing of 3D Objects
- [2023]
- arxiv.org
- tau-vailab.github.io

Text2Video-Zero / 2023

Video 生成.

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
- [2023]
- arxiv.org
- github.com

AvatarCraft / 2023

Text to 3D (Avatar).

AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control
- [2023]
- arxiv.org
- avatar-craft.github.io

PODIA-3D / 2023

Text to 3D.

PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion
- [2023]
- arxiv.org
- gwang-kim.github.io

DreamPose / 2023

DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
- [2023]
- arxiv.org
- grail.cs.washington.edu
- github.com

Video LDM / 2023

VideoLDMは潜在拡散モデルを使ってテキスト条件付の長時間、高解像度の動画生成を実現.

フレーム毎の生成を学習後（既存の拡散モデルも利用可能）、時間方向の層を途中に導入し、途中フレームを補間を条件付き生成できるよう学習する、またビデオ単位の敵対的損失も利用する.

VideoLDMは潜在拡散モデルを使ってテキスト条件付の長時間、高解像度の動画生成を実現。フレーム毎の生成を学習後（既存の拡散モデルも利用可能）、時間方向の層を途中に導入し、途中フレームを補間を条件付き生成できるよう学習する、またビデオ単位の敵対的損失も利用する https://t.co/PX55UCH2k9
— Daisuke Okanohara / 岡野原大輔 (@hillbig) April 19, 2023

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
- [2023]
- arxiv.org
- research.nvidia.com

Latent-Shift / 2023

Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation
- [2023]
- arxiv.org
- latent-shift.github.io

Generative Disco / 2023

Generative Disco: Text-to-Video Generation for Music Visualization
- [2023]
- arxiv.org

AudioLDM / 2023

AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
- [2023]
- arxiv.org
- audioldm.github.io

CoDi / 2023

Any-to-Anyの生成を行う拡散モデルCoDiが出てますね。画像、動画、音、テキストから選んだ任意の組み合わせでX-to-Yという条件付き生成が可能です。https://t.co/elUbTvmuYw

大変面白く読んだのですが、関連研究の記述がしょぼ（げふんげふん）控えめなので、私の知る限りで多少補足してみました。 pic.twitter.com/kPGnmgoRh7
— mi141 (@mi141) May 24, 2023

Any-to-Any Generation via Composable Diffusion
- [2023]
- arxiv.org

AudioToken / 2023

AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
- [2023]
- arxiv.org
- pages.cs.huji.ac.il
- huggingface.co

Text-to-Image

Text-to-Image
- yhayato1320.hatenablog.com

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Diffusion Model #まとめ編

Index

アルゴリズム

MM-Diffusion / 2022

Unified Discrete Denoising Diffusion / UniD3 / 2022

Tune-A-Video / 2022

MCM diffusion / 2023

priorMDM / 2023

Uni Diffuser / 2023

Text2Tex / 2023

Vox-E / 2023

Text2Video-Zero / 2023

AvatarCraft / 2023

PODIA-3D / 2023

DreamPose / 2023

Video LDM / 2023

Latent-Shift / 2023

Generative Disco / 2023

AudioLDM / 2023

CoDi / 2023

AudioToken / 2023

Text-to-Image

Index

アルゴリズム

MM-Diffusion / 2022

Unified Discrete Denoising Diffusion / UniD3 / 2022

Tune-A-Video / 2022

MCM diffusion / 2023

priorMDM / 2023

Uni Diffuser / 2023

Unified Multi-Modal Latent Diffusion / UMM-Diffusion / 2023

Text2Tex / 2023

Vox-E / 2023

Text2Video-Zero / 2023

AvatarCraft / 2023

PODIA-3D / 2023

DreamPose / 2023

Video LDM / 2023

Latent-Shift / 2023

Generative Disco / 2023

AudioLDM / 2023

CoDi / 2023

AudioToken / 2023

Text-to-Image