オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】データ拡張 / Data Augmentation #まとめ編

Index

データ拡張 / Data Augmentation

データ拡張 / Data Augmentation とは、機械学習において、 学習用のデータに対して「変換」を施すことでデータを水増しする手法.

ここでは、マルチモーダルデータにおける Data Augmentation について、記す.

マルチモーダルにおける Data Augmentation

MixGen / 2022

ペアの画像とテキストを合成する手法.



  • MixGen: A New Multi-Modal Data Augmentation
    • [2022]
    • 1 Intorduction
    • 2 MixGen
      • 2.1 MixGen variants
      • 2.2 Input-level and embedding-level MixGen
    • arxiv.org

EnvEdit / 2022

Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.



VLMixer / 2022

CutMix を Cross Modal (Multimodal) に対応させた.

Unpaired な Vision Language Pre-training に用いられる.



  • VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix

Learning Multimodal Data Augmentation / LeMDA / 2023

  • Learning Multimodal Data Augmentation in Feature Space