オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】3D CNN #まとめ編

Index

3D CNN

基本手法

応用手法

C3D / 2014

  • Learning Spatiotemporal Features with 3D Convolutional Networks

I3D / 2017

参考

【機械学習】XAI

Index

XAI

説明可能な AI.

参考

  • Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI

  • Trends in Explainable AI (XAI) Literature

書籍

Web サイト

【機械学習】Imitation Learning / 模倣学習

Index

Imitation Learning / 模倣学習

アルゴリズム

NIFT / 2022

  • NIFT: Neural Interaction Field and Template for Object Manipulation

MimicPlay / 2023

CACTI / 2023

参考

【マルチモーダル】EnvEdit

Index

EnvEdit

Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.

参考

【マルチモーダル】タスク一覧 #まとめ編

Index

マルチモーダルなタスク

Vision Language

Text to 3D

Point-E / 2022

  • Point-E: A System for Generating 3D Point Clouds from Complex Prompts

  • OpenAI、テキストから3Dモデルを高速生成するAI「Point-E」をリリース

DreamFusion / 2022

Data2text Generation

Chart-to-Text / 2022

Text to Video

Audio to Video

Talking Face Generation

Text-to-Motion

MDM / 2022

  • Human Motion Diffusion Model

Document Analysis

ドキュメントの見た目の情報と文字の情報から内容を解析する.

StrucTexTv2 / 2023



  • StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training

【画像処理】CutMix

Index

CutMix

画像における Data Augmentation のひとつ.

参考

  • CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

【マルチモーダル】データ拡張 / Data Augmentation #まとめ編

Index

データ拡張 / Data Augmentation

データ拡張 / Data Augmentation とは、機械学習において、 学習用のデータに対して「変換」を施すことでデータを水増しする手法.

ここでは、マルチモーダルデータにおける Data Augmentation について、記す.

マルチモーダルにおける Data Augmentation

MixGen / 2022

ペアの画像とテキストを合成する手法.



  • MixGen: A New Multi-Modal Data Augmentation
    • [2022]
    • 1 Intorduction
    • 2 MixGen
      • 2.1 MixGen variants
      • 2.2 Input-level and embedding-level MixGen
    • arxiv.org

EnvEdit / 2022

Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.



VLMixer / 2022

CutMix を Cross Modal (Multimodal) に対応させた.

Unpaired な Vision Language Pre-training に用いられる.



  • VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix

Learning Multimodal Data Augmentation / LeMDA / 2023

  • Learning Multimodal Data Augmentation in Feature Space