オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【データセット】マルチモーダルデータ #まとめ編

Index

マルチモーダルデータ

マルチモーダルなデータセットについてまとめる.

Flickr30k / 2015

CLEVR / 2016

Visual Question Answering のデータセット.

Conceptual Captions / 2018

WebImageText / 2021

画像とテキストのペアのデータセット.

LAION-5B / 2022

画像とキャプションペアの大規模データセット.

  • LAION-5B: An open large-scale dataset for training next generation image-text models

  • LAION、50億の画像-テキストペア・データセットLAION-5Bを公開

LAION-115M / 2022

Outdoor Multimodal Dataset / OMMO Dataset / 2023

  • A Large-Scale Outdoor Multi-modal Dataset and Benchmark for Novel View Synthesis and Implicit Scene Reconstruction

WHOOPS! / 2023

CelebV-Text / 2023

Multimodal C4 / 2023

  • Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text

DataComp / 2023

128 億の画像とテキストのペア、300 以上の実験、14 億のサブセットをリリース.



MineDojo / 2022

Video / Text.

Speech Language

WavCaps / 2023

  • WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research