Index
アルゴリズム
マルチモーダルにおける Transformer の手法をまとめる.
マルチモーダル #まとめ編
Transformer #まとめ編
OSCAR / 2020
Perceiver / 2021
- Perceiver: General Perception with Iterative Attention
- [2021]
- arxiv.org
WuDao 2.0 / 2021
2021年6月に北京智源人工知能研究院が 1兆7,500億 のパラメーターを持つ 悟道2.0 (WuDao2.0) を発表.
- GPT-3 Scared You? Meet Wu Dao 2.0: A Monster of 1.75 Trillion Parameters
MultiModality-to-MultiModality Multitask Mega-transformer / M6 / 2021
2021年11月に中国のAlibaba DAMO Academy(達磨院、Alibabaの研究開発部門)が世界最大の10兆のパラメーターを持つ M6 を発表.
- M6: Multi-Modality-to-Multi-Modality Multitask Mega-transformer for Unified Pretraining
VATT / 2021
- VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
- [2021]
- arxiv.org
DiT / 2022
- DiT: Self-supervised Pre-training for Document Image Transformer
- [2022]
- arxiv.org
EVA / 2022
2023, CVPR]
一部をマスクした画像からCLIPの出力を予測するという方法で事前学習したEVAは、
画像認識や物体検出など各種下流タスクでSOTAを達成.
- EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
- [2022]
- arxiv.org
Zorro / 2023
- Zorro: the masked multimodal transformer
- [2023]
- arxiv.org
MAGVLT / 2023
VioLA / 2023
- VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation
- [2023]
- arxiv.org
参考
Web サイト
NeurIPS 2021 参加報告 後編
- VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
- blog.recruit.co.jp
ML Papers Explained
- Layout Transformers
- DocFormer
- ERNIE-Layout
- Layout LM
- Layout LM v2
- Layout LM v3
- LiLT
- StructuralLM
- github.com
- Layout Transformers