Index
IV-VAE
Video Generation Model、特に Latent Video Diffusion Model / LVDM の改良. 既存の Video Variational Autoencoder (Video VAE) が抱える、事前に訓練された画像VAEからの初期化による時間圧縮能力の抑制や、因果構造の採用によるフレーム間の性能不均衡といった課題を指摘. これらの問題を解決するため、Keyframe-based Temporal Compression (KTC) とGroup Causal Convolution (GCConv) という新しいアーキテクチャを提案し、ビデオ再構成と生成のパフォーマンス向上を実現.
- VAE #まとめ編
Latent Video Diffusion Model / LVDM
Latent Video Diffusion Model (LVDM) は、近年、動画生成分野で大きな進歩を遂げているモデルの一種. これらのモデルは、OpenAI の Sora のような、映画レベルのビジュアルや世界のシミュレーターとしての可能性を示している. LVDM の核心的なアプローチは、潜在空間 (latent space) 上で拡散最適化手法 (diffusion optimization methods) を行うこと. Stable Video Diffusion (SVD)、Open-Sora、Open-Sora-Plan などが LVDM の具体的な例として挙げられる. LVDM において非常に重要な役割を果たすのが Variational Autoencoder (VAE). VAE の目的は、高次元のピクセルデータを低次元の潜在空間に圧縮すること. 動画の場合、VAE は元の動画を空間的な圧縮だけでなく、時間的な圧縮も伴いながら、低次元の潜在空間に連続的に符号化する. VAE の圧縮率や再構成品質は、LVDM が扱う動画コーパスの情報有効性を直接決定する. つまり、LVDM は、VAE によって圧縮された低次元の潜在空間上で拡散モデルによる生成プロセスを実行する. Latent Video Diffusion Model とは、Variational Autoencoder (VAE) を用いて高次元の動画データを低次元の潜在空間に圧縮し、その潜在空間上で拡散モデルを使って動画を生成する手法であり、効率性と安定性に優れている.
- Latent Video Diffusion Model / LVDM
改善点
Keyframe-based Temporal Compression / KTC)
Group Causal Convolution / GCConv
参考
- Improved Video VAE for Latent Video Diffusion Model
- [2024]
- arxiv.org