Index
Text to Video
動画生成
マルチモーダル #まとめ編
アルゴリズム
GODIVA / 2021
自然な文章から動画を自動生成するモデルGODIVA.
このモデルはVQ-VAE技術を用いて動画をデジタル信号に変換し、3次元スパースアテンション機構により計算コストを抑えつつ、映像の整合性を保つ.
膨大なデータセットであるHowto100Mで事前学習を行うことで、未知のテキストに対しても高いゼロショット生成能力を発揮.
また、映像の品質と文章への適合度を測定する新たな指標Relative Matching (RM)も導入.
これにより、従来のGANベースの手法よりも多様で複雑なオープンドメインの動画生成が可能.
研究の結果、この手法は下流タスクへの応用においても優れた性能を示された.
GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions
— AK (@_akhaliq) May 3, 2021
pdf: https://t.co/cBOlPAU9Aw
abs: https://t.co/5eIEwAza4J
GODIVA not only can be fine-tuned on downstream video generation tasks, but also has a good zero-shot capability on unseen texts pic.twitter.com/FXkpoifq1o
Make-A-Video / 2022
- Make-A-Video: Text-to-Video Generation without Text-Video Data
- [2022]
- arxiv.org
https://t.co/hLjNLNKRr7
— akira (@AkiraTOSEI) October 13, 2022
テキスト・動画ペアデータを必要とせずにビデオを生成できるMAKE-A-VIDEOを提案。text2imageのモデルをベースに、前後や中間のフレーム補完や高解像度化をラベルなしビデオで微調整することで、テキストから動画生成を行えるようにする。
Phenaki / 2022
Phenaki は、連続するテキスト指示に基づいて多様で時間的に一貫性のある動画を生成できるモデル. これは、動画を離散的なトークンに圧縮するC-ViViTという独自のエンコーダー・デコーダーアーキテクチャを採用しており、可変長の動画に対応. テキストを動画トークンに変換するために、事前学習済みのテキストトークンに基づいて双方向マスクドトランスフォーマーを使用. Phenakiは、画像と動画のデータセットを組み合わせて学習することで、既存の動画データセットにはない概念の汎化能力を獲得している. このモデルは、テキストや画像からの動画生成だけでなく、時間の経過とともに変化する指示(物語)に基づく動画生成という、これまで未開拓だった領域にも対応している.
- Phenaki: Variable Length Video Generation From Open Domain Textual Description
- [2022]
- arxiv.org
https://t.co/XnsS33hiLv
— akira (@AkiraTOSEI) October 11, 2022
テキストからビデオを生成するPhenakiモデルを提案。ビデオの潜在表現を自己回帰で生成していく戦略をとり、順次テキストを追加しながらビデオを生成することが可能で、数分のビデオを生成することができる。 pic.twitter.com/lkY0yG9Gjb
Video Generation Beyond a Single Clip / 2023
- Video Generation Beyond a Single Clip
- [2023]
- arxiv.org
Sora / 2024
動画を低次元の潜在空間に圧縮し、それを時空間パッチに分解することで機能する.
- Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
- [OpenAI 2024]
- arxiv.org
テクニック
Diffusion Model
- Text to Video
- Diffusion Model を利用した Text to Video
- yhayato1320.hatenablog.com
参考
- paperswithcode.com
- paper with code のタスクのページ