オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】分野一覧 #まとめ編

Index

アルゴリズム

Text-to-Table / 2021

  • Text-to-Table: A New Way of Information Extraction

Gato / 2022

2022年5月に DeepMind が発表したGatoは、テキストや画像などの出力だけでなく、様々なアクションまでも実行できる多機能なマルチモーダルAI.

SpeechPainter / 2022

  • SpeechPainter: Text-conditioned Speech Inpainting

IM2WAV / 2022



Image to Audio.

  • I Hear Your True Colors: Image Guided Audio Generation

SadTalker / 2022

Audio to Video (Face Motion).

  • SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

Make A Vide 3D / MAV3 / 2023

  • Text-To-4D Dynamic Scene Generation

ConceptFusion / 2023

  • ConceptFusion: Open-set Multimodal 3D Mapping

MINOTAUR / 2023

  • MINOTAUR: Multi-task Video Grounding From Multimodal Queries

Video Localized Narratives / 2023

  • Connecting Vision and Language with Video Localized Narratives

Vid2Avatar / 2023

Video to 3D.

  • Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via Self-supervised Scene Decomposition

KOSMOS-1 / 2023

Vid2Seq / 2023

Video Caption.

  • Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

ChatCaptioner / 2023

  • ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions

Unified Visual Relationship Detection / UniVRD / 2023

  • Unified Visual Relationship Detection with Vision and Language Models

LERF / 2023

Text to 3D.

CG3D / 2023

MM-REACT / 2023

DreamBooth3D / 2023

Follow Your Pose / 2023

Text to Video.

TM2D / 2023

Text + Music -> 3D Dance.

Verb-Focused Contrastive / VFC / 2023

  • Verbs in Action: Improving verb understanding in video-language models

Soundini / 2023

Video -> Video + Music.

Cond Foley Gen / 2023

Video to Audio.

ImageBind / 2023

Self-Chained Video Localization-Answering / SeViLA / 2023

  • Self-Chained Image-Language Model for Video Localization and Question Answering

タスク

Vision Language

Speech Language

Speech to Image

SadTalker / 2022

  • SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

Image to Video

工夫・テクニック

Natural Language Supervision

GAN

Data Augmentation

Transformer

Diffusion Model

データセット

研究分野

  • Representation

    • 各モーダルのデータをどう表現したり要約したりする

  • Translation

    • 各モーダルのデータ間の変換方法

  • Alignment

    • モダリティ間の直接的な関係を明らかにするタスク
    • 異なるモダリティのデータの一部が与えられたとして,それらのなかで関連する部分を探すようなタスク

  • Fusion

    • 複数モダリティのデータを用いて予測
    • マルチモーダル学習の中で最も歴史が長いものの一つ
    • Audio Visual Speech Recognition (AVSR) 等

  • Co-learning

    • あるモダリティ内で作られた予測モデル,ベクトル表現などを別のモダリティに転移させる

対象のデータ

  • Verbal

    • text, words, language

  • Visual

    • image, video

  • Vocal

    • audio

参考

Web サイト