オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】3D CNN #まとめ編

データサイエンスデータサイエンス-深層学習

Index

Index
3D CNN
基本手法
応用手法
- C3D / 2014
- I3D / 2017
参考

3D CNN

CNN #まとめ編
- yhayato1320.hatenablog.com

基本手法

3D Convolutional Neural Networks for Human Action Recognition
- [2013]
- https://www.dbs.ifi.lmu.de/~yu_k/icml2010_3dcnn.pdf

応用手法

C3D / 2014

Learning Spatiotemporal Features with 3D Convolutional Networks
- [2014]
- arxiv.org

I3D / 2017

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
- [2017]
- arxiv.org

参考

3D CNN まとめ
- github.com

【機械学習】XAI

データサイエンスデータサイエンス-機械学習

機械学習 #まとめ編
- yhayato1320.hatenablog.com

Index

Index
XAI
参考
- 書籍
- Web サイト

XAI

説明可能な AI.

参考

Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI
- [2019]
- arxiv.org
Trends in Explainable AI (XAI) Literature
- [2023]
- arxiv.org

書籍

実践XAI［説明可能なAI］機械学習の予測を説明するためのPythonコーディング
- 実践XAI［説明可能なAI］機械学習の予測を説明するためのPythonコーディング (impress top gear)
  - インプレス
  Amazon

Web サイト

XAIの概要を把握する｜Surveyの構成と大枠の把握 #1
- lib-arts.hatenablog.com

【機械学習】Imitation Learning / 模倣学習

データサイエンス

Index

Index
Imitation Learning / 模倣学習
アルゴリズム
参考

Imitation Learning / 模倣学習

強化学習
- yhayato1320.hatenablog.com

アルゴリズム

NIFT / 2022

NIFT: Neural Interaction Field and Template for Object Manipulation
- [2022]
- arxiv.org

MimicPlay / 2023

MimicPlay: Long-Horizon Imitation Learning by Watching Human Play
- [2023]
- arxiv.org
- mimic-play.github.io

CACTI / 2023

CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning
- [2023]
- arxiv.org
- cacti-framework.github.io

参考

paperswithcode.com
- paper with code の method のページ

【マルチモーダル】EnvEdit

データサイエンスデータサイエンス-マルチモーダル

Index

Index
EnvEdit
参考

EnvEdit

Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.

Vision-Language Navigation
- yhayato1320.hatenablog.com
Data Augmentation
- マルチモーダルにおける Data Augmentation
- yhayato1320.hatenablog.com

参考

ENVEDIT: Environment Editing for Vision-and-Language Navigation
- [2022]
- 2 Related Work
  - Vision and Language Navigation
  - Mitigating Environment Bias
  - Data Augmentation in Vision-and-Language Navigation
  - Data Augmentation in Computer Vision
- openaccess.thecvf.com

【マルチモーダル】タスク一覧 #まとめ編

データサイエンスデータサイエンス-マルチモーダル

Index

Index
マルチモーダルなタスク

マルチモーダルなタスク

マルチモーダル #まとめ編
- yhayato1320.hatenablog.com
タスク一覧
- yhayato1320.hatenablog.com

Vision Language

Vision Language
- yhayato1320.hatenablog.com

Text to 3D

Point-E / 2022

Point-E: A System for Generating 3D Point Clouds from Complex Prompts
- [2022]
- arxiv.org
OpenAI、テキストから3Dモデルを高速生成するAI「Point-E」をリリース
- www.itmedia.co.jp

DreamFusion / 2022

DreamFusion: Text-to-3D using 2D Diffusion
- [2022]
- arxiv.org
- dreamfusion3d.github.io
【AI論文解説】世界初！Diffusion modelを使ってテキストから3D生成: DreamFusionを解説
- www.youtube.com

Data2text Generation

Chart-to-Text / 2022

Chart-to-Text: A Large-Scale Benchmark for Chart Summarization
- arxiv.org
チャート要約のための大規模ベンチマーク、Chart-to-textが登場！
- ai-scholar.tech

Text to Video

Text to Video
- yhayato1320.hatenablog.com

Audio to Video

Talking Face Generation

Talking Face Generation
- yhayato1320.hatenablog.com

Text-to-Motion

MDM / 2022

Human Motion Diffusion Model
- [2022]
- arxiv.org

Document Analysis

ドキュメントの見た目の情報と文字の情報から内容を解析する.

StrucTexTv2 / 2023

StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training
- [2023]
- arxiv.org

【画像処理】CutMix

データサイエンスデータサイエンス-画像処理

Index

Index
CutMix
参考

CutMix

画像における Data Augmentation のひとつ.

Data Augmentation #まとめ編
- yhayato1320.hatenablog.com

参考

CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features
- [2019]
- arxiv.org

【マルチモーダル】データ拡張 / Data Augmentation #まとめ編

データサイエンスデータサイエンス-機械学習データサイエンス-マルチモーダル

Index

Index
データ拡張 / Data Augmentation
マルチモーダルにおける Data Augmentation

データ拡張 / Data Augmentation

データ拡張 / Data Augmentation とは、機械学習において、学習用のデータに対して「変換」を施すことでデータを水増しする手法.

データ拡張 / Data Augmentation #まとめ編
- Albumentations を利用
- yhayato1320.hatenablog.com

ここでは、マルチモーダルデータにおける Data Augmentation について、記す.

マルチモーダル #まとめ編
- yhayato1320.hatenablog.com

マルチモーダルにおける Data Augmentation

MixGen / 2022

ペアの画像とテキストを合成する手法.

MixGen: A New Multi-Modal Data Augmentation
- [2022]
- 1 Intorduction
- 2 MixGen
  - 2.1 MixGen variants
  - 2.2 Input-level and embedding-level MixGen
- arxiv.org

EnvEdit / 2022

Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.

EnvEdit
- yhayato1320.hatenablog.com

VLMixer / 2022

CutMix を Cross Modal (Multimodal) に対応させた.

CutMix
- yhayato1320.hatenablog.com

Unpaired な Vision Language Pre-training に用いられる.

VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix
- [2022]
- 2 Related Work
- arxiv.org

Learning Multimodal Data Augmentation / LeMDA / 2023

Learning Multimodal Data Augmentation in Feature Space
- [2023]
- arxiv.org