Index
ModelScopeT2V
ModelScopeT2V は、与えられたテキスト の意味に沿った動画
を出力する潜在動画拡散モデル / Latent Video Diffusion Model.
- Latent Video Diffusion Model
Architecture
- prompt
- output video
- training video
このモデルのアーキテクチャは、以下の3つで構成されている.
- VQGAN
- Text Encoder
- Denoising UNet
VQGAN
Visual Space (元の動画や生成された動画)と Latent Space (モデルが処理する中間表現) の間でデータを変換する. Encoder
が視覚データを潜在空間に変換し、
Decoder
が Latent Space のデータを Visual Space に戻す.
具体的には、Training Video
(
フレーム、RGB形式) を VQGAN の Encoder
でエンコードし、
潜在変数
を取得する.
推論時には、生成された潜在変数
を VQGAN Decoder
でデコードして Output Video
を生成する.
Text Encoder 
プロンプト を Text Embedding
に変換. このモデルでは、
事前学習済みの CLIP ViT-H/14 の Text Encoder が使用されており、Text Embedding
は最大トークン長 [tex: N{p}\ =\ 77] と
埋め込み次元 [tex: N{c}\ =\ 768] を持つ.
Denoising UNet 
モデルの大部分のパラメーターが集中している Latent Video Diffusion Model の核となる部分. UNet は、初期ブロック、ダウンサンプリングブロック、時空間ブロック、アップサンプリングブロックなど、異なる種類のブロックで構成されている.