Index

Index
ModelScopeT2V
Architecture
参考

ModelScopeT2V

ModelScopeT2V は、与えられたテキスト $p$ の意味に沿った動画 $v^{pr}$ を出力する潜在動画拡散モデル / Latent Video Diffusion Model.

Latent Video Diffusion Model
- yhayato1320.hatenablog.com

Architecture

ModelScope Text-to-Video Technical Report

prompt $p$
output video $v^{pr}$
training video $v^{gt}$

このモデルのアーキテクチャは、以下の3つで構成されている.

VQGAN
Text Encoder
Denoising UNet

VQGAN

Visual Space (元の動画や生成された動画）と Latent Space (モデルが処理する中間表現) の間でデータを変換する. Encoder $E$ が視覚データを潜在空間に変換し、 Decoder $D$ が Latent Space のデータを Visual Space に戻す. 具体的には、Training Video $v^{gt}$ ( $F$ フレーム、RGB形式) を VQGAN の Encoder $E$ でエンコードし、潜在変数 $Z^{gt}_{0}$ を取得する. 推論時には、生成された潜在変数 $Z^{pr}_{0}$ を VQGAN Decoder $D$ でデコードして Output Video $v^{pr}$ を生成する.

Text Encoder $\tau$

プロンプト $p$ を Text Embedding $c$ に変換. このモデルでは、事前学習済みの CLIP ViT-H/14 の Text Encoder が使用されており、Text Embedding $c$ は最大トークン長 [tex: N{p}\ =\ 77] と埋め込み次元 [tex: N{c}\ =\ 768] を持つ.

Denoising UNet $\epsilon_{\theta}$

モデルの大部分のパラメーターが集中している Latent Video Diffusion Model の核となる部分. UNet は、初期ブロック、ダウンサンプリングブロック、時空間ブロック、アップサンプリングブロックなど、異なる種類のブロックで構成されている.

参考

ModelScope Text-to-Video Technical Report
- [2023]
- 3 Methodology
  - 3.1 ModelScopeT2V
    - Structure overview
    - Text conditioning mechanism
    - Denoising UNet
  - 3.2 Spatio-temporal block
    - Structure overview
    - Spatio-temporal convolutions
    - Spatio-temporal attentions
  - 3.3 Multi-frame training
- arxiv.org

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】ModelScopeT2V