Index

Index
Text to Video
アルゴリズム
テクニック
- Diffusion Model
参考

Text to Video

動画生成
- yhayato1320.hatenablog.com
マルチモーダル #まとめ編
- タスク
- yhayato1320.hatenablog.com

アルゴリズム

GODIVA / 2021

自然な文章から動画を自動生成するモデルGODIVA. このモデルはVQ-VAE技術を用いて動画をデジタル信号に変換し、3次元スパースアテンション機構により計算コストを抑えつつ、映像の整合性を保つ. 膨大なデータセットであるHowto100Mで事前学習を行うことで、未知のテキストに対しても高いゼロショット生成能力を発揮. また、映像の品質と文章への適合度を測定する新たな指標Relative Matching (RM)も導入. これにより、従来のGANベースの手法よりも多様で複雑なオープンドメインの動画生成が可能. 研究の結果、この手法は下流タスクへの応用においても優れた性能を示された.

GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions
- [2021]
- arxiv.org

GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions
pdf: https://t.co/cBOlPAU9Aw
abs: https://t.co/5eIEwAza4J

GODIVA not only can be fine-tuned on downstream video generation tasks, but also has a good zero-shot capability on unseen texts pic.twitter.com/FXkpoifq1o
— AK (@_akhaliq) May 3, 2021

Make-A-Video / 2022

Make-A-Video: Text-to-Video Generation without Text-Video Data
- [2022]
- arxiv.org

https://t.co/hLjNLNKRr7
テキスト・動画ペアデータを必要とせずにビデオを生成できるMAKE-A-VIDEOを提案。text2imageのモデルをベースに、前後や中間のフレーム補完や高解像度化をラベルなしビデオで微調整することで、テキストから動画生成を行えるようにする。
— akira (@AkiraTOSEI) October 13, 2022

Phenaki / 2022

Phenaki は、連続するテキスト指示に基づいて多様で時間的に一貫性のある動画を生成できるモデル. これは、動画を離散的なトークンに圧縮するC-ViViTという独自のエンコーダー・デコーダーアーキテクチャを採用しており、可変長の動画に対応. テキストを動画トークンに変換するために、事前学習済みのテキストトークンに基づいて双方向マスクドトランスフォーマーを使用. Phenakiは、画像と動画のデータセットを組み合わせて学習することで、既存の動画データセットにはない概念の汎化能力を獲得している. このモデルは、テキストや画像からの動画生成だけでなく、時間の経過とともに変化する指示（物語）に基づく動画生成という、これまで未開拓だった領域にも対応している.

Phenaki: Variable Length Video Generation From Open Domain Textual Description
- [2022]
- arxiv.org

https://t.co/XnsS33hiLv
テキストからビデオを生成するPhenakiモデルを提案。ビデオの潜在表現を自己回帰で生成していく戦略をとり、順次テキストを追加しながらビデオを生成することが可能で、数分のビデオを生成することができる。 pic.twitter.com/lkY0yG9Gjb
— akira (@AkiraTOSEI) October 11, 2022

Video Generation Beyond a Single Clip / 2023

Video Generation Beyond a Single Clip
- [2023]
- arxiv.org

Sora / 2024

動画を低次元の潜在空間に圧縮し、それを時空間パッチに分解することで機能する.

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
- [OpenAI 2024]
- arxiv.org

テクニック

Diffusion Model

Text to Video
- Diffusion Model を利用した Text to Video
- yhayato1320.hatenablog.com

参考

paperswithcode.com
- paper with code のタスクのページ

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Text to Video #まとめ編 #00