オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Text to Video #まとめ編 #00

Index

Text to Video

アルゴリズム

GODIVA / 2021

自然な文章から動画を自動生成するモデルGODIVA. このモデルはVQ-VAE技術を用いて動画をデジタル信号に変換し、3次元スパースアテンション機構により計算コストを抑えつつ、映像の整合性を保つ. 膨大なデータセットであるHowto100Mで事前学習を行うことで、未知のテキストに対しても高いゼロショット生成能力を発揮. また、映像の品質と文章への適合度を測定する新たな指標Relative Matching (RM)も導入. これにより、従来のGANベースの手法よりも多様で複雑なオープンドメインの動画生成が可能. 研究の結果、この手法は下流タスクへの応用においても優れた性能を示された.

  • GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions

Make-A-Video / 2022

  • Make-A-Video: Text-to-Video Generation without Text-Video Data

Phenaki / 2022

Phenaki は、連続するテキスト指示に基づいて多様で時間的に一貫性のある動画を生成できるモデル. これは、動画を離散的なトークンに圧縮するC-ViViTという独自のエンコーダーデコーダアーキテクチャを採用しており、可変長の動画に対応. テキストを動画トークンに変換するために、事前学習済みのテキストトークンに基づいて双方向マスクドトランスフォーマーを使用. Phenakiは、画像と動画のデータセットを組み合わせて学習することで、既存の動画データセットにはない概念の汎化能力を獲得している. このモデルは、テキストや画像からの動画生成だけでなく、時間の経過とともに変化する指示(物語)に基づく動画生成という、これまで未開拓だった領域にも対応している.

  • Phenaki: Variable Length Video Generation From Open Domain Textual Description

Video Generation Beyond a Single Clip / 2023

  • Video Generation Beyond a Single Clip

Sora / 2024

動画を低次元の潜在空間に圧縮し、それを時空間パッチに分解することで機能する.

  • Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

テクニック

Diffusion Model

参考