オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【データセット】マルチモーダルデータ #まとめ編

Index

マルチモーダルデータ

マルチモーダルなデータセットについてまとめる.

Flickr30k / 2015

CLEVR / 2016

Visual Question Answering のデータセット.

Conceptual Captions / 2018

WebImageText / 2021

画像とテキストのペアのデータセット.

LAION-5B / 2022

画像とキャプションペアの大規模データセット.

  • LAION-5B: An open large-scale dataset for training next generation image-text models

  • LAION、50億の画像-テキストペア・データセットLAION-5Bを公開

LAION-115M / 2022

Outdoor Multimodal Dataset / OMMO Dataset / 2023

  • A Large-Scale Outdoor Multi-modal Dataset and Benchmark for Novel View Synthesis and Implicit Scene Reconstruction

WHOOPS! / 2023

CelebV-Text / 2023

Multimodal C4 / 2023

  • Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text

DataComp / 2023

128 億の画像とテキストのペア、300 以上の実験、14 億のサブセットをリリース.



MineDojo / 2022

Video / Text.

Speech Language

WavCaps / 2023

  • WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research

Benchmark

GEM / 2021

既存のベンチマークが主に自然言語タスクに焦点を当てているのに対し、GEMは画像と言語(GEM-I)および動画と言語(GEM-V)のタスクを対象としている. GEMの際立った特徴は、最大規模のビジョン・言語データセットであると同時に、複数の言語でラベル付けされている点. 研究者らは、このベンチマークのベースラインとして、M3Pとm-UniVLという2つの多言語マルチモーダル事前学習モデルを提供しており、この取り組みが多言語マルチモーダル研究の進展に貢献することを目的としている. GEM-Iには20言語の約120万組のデータが含まれ、GEM-Vには30言語の約9万9千組のデータが含まれており、これらは実際の商業検索エンジンから収集されたもの.

  • GEM: A General Evaluation Benchmark for Multimodal Tasks