オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】タスク一覧 #まとめ編

データサイエンスデータサイエンス-マルチモーダル

Index

Index
マルチモーダルなタスク

マルチモーダルなタスク

マルチモーダル #まとめ編
- yhayato1320.hatenablog.com
タスク一覧
- yhayato1320.hatenablog.com

Vision Language

Vision Language
- yhayato1320.hatenablog.com

Text to 3D

Point-E / 2022

Point-E: A System for Generating 3D Point Clouds from Complex Prompts
- [2022]
- arxiv.org
OpenAI、テキストから3Dモデルを高速生成するAI「Point-E」をリリース
- www.itmedia.co.jp

DreamFusion / 2022

DreamFusion: Text-to-3D using 2D Diffusion
- [2022]
- arxiv.org
- dreamfusion3d.github.io
【AI論文解説】世界初！Diffusion modelを使ってテキストから3D生成: DreamFusionを解説
- www.youtube.com

Data2text Generation

Chart-to-Text / 2022

Chart-to-Text: A Large-Scale Benchmark for Chart Summarization
- arxiv.org
チャート要約のための大規模ベンチマーク、Chart-to-textが登場！
- ai-scholar.tech

Text to Video

Text to Video
- yhayato1320.hatenablog.com

Audio to Video

Talking Face Generation

Talking Face Generation
- yhayato1320.hatenablog.com

Text-to-Motion

MDM / 2022

Human Motion Diffusion Model
- [2022]
- arxiv.org

Document Analysis

ドキュメントの見た目の情報と文字の情報から内容を解析する.

StrucTexTv2 / 2023

StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training
- [2023]
- arxiv.org