オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】ModelScopeT2V

Index

ModelScopeT2V

ModelScopeT2V は、与えられたテキスト  p の意味に沿った動画  v^{pr} を出力する潜在動画拡散モデル / Latent Video Diffusion Model.

Architecture

ModelScope Text-to-Video Technical Report

  • prompt  p
  • output video  v^{pr}
  • training video  v^{gt}



このモデルのアーキテクチャは、以下の3つで構成されている.

  • VQGAN
  • Text Encoder
  • Denoising UNet

VQGAN

Visual Space (元の動画や生成された動画)と Latent Space (モデルが処理する中間表現) の間でデータを変換する. Encoder  E が視覚データを潜在空間に変換し、 Decoder  D が Latent Space のデータを Visual Space に戻す. 具体的には、Training Video  v^{gt} ( F フレーム、RGB形式) を VQGAN の Encoder  Eエンコードし、 潜在変数  Z^{gt}_{0} を取得する. 推論時には、生成された潜在変数  Z^{pr}_{0} を VQGAN Decoder  D でデコードして Output Video  v^{pr} を生成する.

Text Encoder  \tau

プロンプト  p を Text Embedding  c に変換. このモデルでは、 事前学習済みの CLIP ViT-H/14 の Text Encoder が使用されており、Text Embedding  c は最大トークン長 [tex: N{p}\ =\ 77] と 埋め込み次元 [tex: N{c}\ =\ 768] を持つ.

Denoising UNet  \epsilon_{\theta}

モデルの大部分のパラメーターが集中している Latent Video Diffusion Model の核となる部分. UNet は、初期ブロック、ダウンサンプリングブロック、時空間ブロック、アップサンプリングブロックなど、異なる種類のブロックで構成されている.

参考

  • ModelScope Text-to-Video Technical Report
    • [2023]
    • 3 Methodology
      • 3.1 ModelScopeT2V
        • Structure overview
        • Text conditioning mechanism
        • Denoising UNet
      • 3.2 Spatio-temporal block
        • Structure overview
        • Spatio-temporal convolutions
        • Spatio-temporal attentions
      • 3.3 Multi-frame training
    • arxiv.org