Index
- Index
- アルゴリズム
- MM-Diffusion / 2022
- Unified Discrete Denoising Diffusion / UniD3 / 2022
- Tune-A-Video / 2022
- MCM diffusion / 2023
- priorMDM / 2023
- Uni Diffuser / 2023
- Unified Multi-Modal Latent Diffusion / UMM-Diffusion / 2023
- Text2Tex / 2023
- Vox-E / 2023
- Text2Video-Zero / 2023
- AvatarCraft / 2023
- PODIA-3D / 2023
- DreamPose / 2023
- Video LDM / 2023
- Latent-Shift / 2023
- Generative Disco / 2023
- AudioLDM / 2023
- CoDi / 2023
- AudioToken / 2023
- Text-to-Image
アルゴリズム
Diffusion Model を利用した Multimodal な手法をまとめる.
Diffusion Model #まとめ編
Multimodal #まとめ編
MM-Diffusion / 2022
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
- [2022]
- arxiv.org
Unified Discrete Denoising Diffusion / UniD3 / 2022
Tune-A-Video / 2022
- Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
- [2022]
- arxiv.org
- tuneavideo.github.io
MCM diffusion / 2023
Text + Image -> Image.
- Modulating Pretrained Diffusion Models for Multimodal Image Synthesis
- [2023]
- arxiv.org
- mcm-diffusion.github.io
priorMDM / 2023
Text to Motion.
- Human Motion Diffusion as a Generative Prior
Uni Diffuser / 2023
x(画像)とy(言語)という2つのドメインに対して
を全部扱う拡散モデル.
- Marginal: xやyだけの生成 (画像やテキスト生成)
- Conditional: yを指定してxを生成、その逆 (text-to-imageとimage captioning)
- Joint: xとyを同時に生成 (画像テキストペアの生成)
を全部扱う拡散モデル.
- One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
- [2023]
- arxiv.org
- github.com
Unified Multi-Modal Latent Diffusion / UMM-Diffusion / 2023
- Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation
- [2023]
- arxiv.org
Text2Tex / 2023
Text-to-3D.
- Text2Tex: Text-driven Texture Synthesis via Diffusion Models
- [2023]
- arxiv.org
- daveredrum.github.io
Vox-E / 2023
Text-to-3D.
- Vox-E: Text-guided Voxel Editing of 3D Objects
- [2023]
- arxiv.org
- tau-vailab.github.io
Text2Video-Zero / 2023
Video 生成.
- Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
- [2023]
- arxiv.org
- github.com
AvatarCraft / 2023
Text to 3D (Avatar).
- AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control
- [2023]
- arxiv.org
- avatar-craft.github.io
PODIA-3D / 2023
Text to 3D.
- PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion
- [2023]
- arxiv.org
- gwang-kim.github.io
DreamPose / 2023
- DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
Video LDM / 2023
VideoLDMは潜在拡散モデルを使ってテキスト条件付の長時間、高解像度の動画生成を実現.
フレーム毎の生成を学習後(既存の拡散モデルも利用可能)、時間方向の層を途中に導入し、 途中フレームを補間を条件付き生成できるよう学習する、またビデオ単位の敵対的損失も利用する.
フレーム毎の生成を学習後(既存の拡散モデルも利用可能)、時間方向の層を途中に導入し、 途中フレームを補間を条件付き生成できるよう学習する、またビデオ単位の敵対的損失も利用する.
VideoLDMは潜在拡散モデルを使ってテキスト条件付の長時間、高解像度の動画生成を実現。フレーム毎の生成を学習後(既存の拡散モデルも利用可能)、時間方向の層を途中に導入し、途中フレームを補間を条件付き生成できるよう学習する、またビデオ単位の敵対的損失も利用する https://t.co/PX55UCH2k9
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) April 19, 2023
- Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
- [2023]
- arxiv.org
- research.nvidia.com
Latent-Shift / 2023
- Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation
- [2023]
- arxiv.org
- latent-shift.github.io
Generative Disco / 2023
- Generative Disco: Text-to-Video Generation for Music Visualization
- [2023]
- arxiv.org
AudioLDM / 2023
- AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
- [2023]
- arxiv.org
- audioldm.github.io
CoDi / 2023
Any-to-Anyの生成を行う拡散モデルCoDiが出てますね。画像、動画、音、テキストから選んだ任意の組み合わせでX-to-Yという条件付き生成が可能です。https://t.co/elUbTvmuYw
— mi141 (@mi141) May 24, 2023
大変面白く読んだのですが、関連研究の記述がしょぼ(げふんげふん)控えめなので、私の知る限りで多少補足してみました。 pic.twitter.com/kPGnmgoRh7
- Any-to-Any Generation via Composable Diffusion
- [2023]
- arxiv.org
AudioToken / 2023
- AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
Text-to-Image
- Text-to-Image