オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Transformer #まとめ編

データサイエンスデータサイエンス-マルチモーダルデータサイエンス-深層学習

Index

Index
アルゴリズム
参考
- Web サイト

アルゴリズム

マルチモーダルにおける Transformer の手法をまとめる.

マルチモーダル #まとめ編
- yhayato1320.hatenablog.com
Transformer #まとめ編
- yhayato1320.hatenablog.com

OSCAR / 2020

OSCAR
- yhayato1320.hatenablog.com

Perceiver / 2021

Perceiver: General Perception with Iterative Attention
- [2021]
- arxiv.org

WuDao 2.0 / 2021

2021年6月に北京智源人工知能研究院が 1兆7,500億のパラメーターを持つ悟道2.0 (WuDao2.0) を発表.

GPT-3 Scared You? Meet Wu Dao 2.0: A Monster of 1.75 Trillion Parameters
- towardsdatascience.com

MultiModality-to-MultiModality Multitask Mega-transformer / M6 / 2021

2021年11月に中国のAlibaba DAMO Academy（達磨院、Alibabaの研究開発部門）が世界最大の10兆のパラメーターを持つ M6 を発表.

M6: Multi-Modality-to-Multi-Modality Multitask Mega-transformer for Unified Pretraining
- [2021]
- https://keg.cs.tsinghua.edu.cn/jietang/publications/KDD21-Lin-et-al-M6.pdf

VATT / 2021

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
- [2021]
- arxiv.org

DiT / 2022

DiT: Self-supervised Pre-training for Document Image Transformer
- [2022]
- arxiv.org

EVA / 2022

2023, CVPR] 一部をマスクした画像からCLIPの出力を予測するという方法で事前学習したEVAは、画像認識や物体検出など各種下流タスクでSOTAを達成.

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
- [2022]
- arxiv.org

Zorro / 2023

Zorro: the masked multimodal transformer
- [2023]
- arxiv.org

MAGVLT / 2023

MAGVLT: Masked Generative Vision-and-Language Transformer
- [2023]
- arxiv.org

VioLA / 2023

VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation
- [2023]
- arxiv.org

参考

Web サイト

NeurIPS 2021 参加報告後編
- VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
- blog.recruit.co.jp
ML Papers Explained
- Layout Transformers
  - DocFormer
  - ERNIE-Layout
  - Layout LM
  - Layout LM v2
  - Layout LM v3
  - LiLT
  - StructuralLM
- github.com