Index
マルチモーダルなタスク
マルチモーダル #まとめ編
タスク一覧
Vision Language
- Vision Language
Text to 3D
Point-E / 2022
Point-E: A System for Generating 3D Point Clouds from Complex Prompts
- [2022]
- arxiv.org
OpenAI、テキストから3Dモデルを高速生成するAI「Point-E」をリリース
DreamFusion / 2022
DreamFusion: Text-to-3D using 2D Diffusion
- [2022]
- arxiv.org
- dreamfusion3d.github.io
【AI論文解説】世界初!Diffusion modelを使ってテキストから3D生成: DreamFusionを解説
Data2text Generation
Chart-to-Text / 2022
Chart-to-Text: A Large-Scale Benchmark for Chart Summarization
チャート要約のための大規模ベンチマーク、Chart-to-textが登場!
Text to Video
- Text to Video
Audio to Video
Talking Face Generation
- Talking Face Generation
Text-to-Motion
MDM / 2022
- Human Motion Diffusion Model
- [2022]
- arxiv.org
Document Analysis
ドキュメントの見た目の情報と文字の情報から内容を解析する.
StrucTexTv2 / 2023
- StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training
- [2023]
- arxiv.org