- データセット #まとめ編
Index
マルチモーダルデータ
マルチモーダルなデータセットについてまとめる.
- マルチモーダル #まとめ編
Flickr30k / 2015
- Flickr30k
CLEVR / 2016
Visual Question Answering のデータセット.
Conceptual Captions / 2018
- Conceptual Captions
- Google が制作している「画像」と「テキスト」(画像についての説明) のペアのデータセット.
- yhayato1320.hatenablog.com
WebImageText / 2021
画像とテキストのペアのデータセット.
- WebImageText
LAION-5B / 2022
画像とキャプションペアの大規模データセット.
LAION-5B: An open large-scale dataset for training next generation image-text models
- [2022]
- arxiv.org
LAION、50億の画像-テキストペア・データセットLAION-5Bを公開
LAION-115M / 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- [2022]
- arxiv.org
LAION-115M
Outdoor Multimodal Dataset / OMMO Dataset / 2023
- A Large-Scale Outdoor Multi-modal Dataset and Benchmark for Novel View Synthesis and Implicit Scene Reconstruction
- [2023]
- arxiv.org
WHOOPS! / 2023
- Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images
CelebV-Text / 2023
- CelebV-Text: A Large-Scale Facial Text-Video Dataset
- [2023]
- arxiv.org
- celebv-text.github.io
Multimodal C4 / 2023
- Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text
- [2023]
- arxiv.org
- github.com
DataComp / 2023
128 億の画像とテキストのペア、300 以上の実験、14 億のサブセットをリリース.
- DataComp: In search of the next generation of multimodal datasets
- [2023]
- arxiv.org
- github.com
- www.datacomp.ai
MineDojo / 2022
Video / Text.
MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge
- [2022]
- arxiv.org
MineDojo
Speech Language
WavCaps / 2023
- WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research
- [2023]
- arxiv.org