オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Transformer #まとめ編

Index

アルゴリズム

マルチモーダルにおける Transformer の手法をまとめる.

OSCAR / 2020

Perceiver / 2021

  • Perceiver: General Perception with Iterative Attention

WuDao 2.0 / 2021

2021年6月に北京智源人工知能研究院が 1兆7,500億 のパラメーターを持つ 悟道2.0 (WuDao2.0) を発表.

MultiModality-to-MultiModality Multitask Mega-transformer / M6 / 2021

2021年11月に中国のAlibaba DAMO Academy(達磨院、Alibabaの研究開発部門)が世界最大の10兆のパラメーターを持つ M6 を発表.

VATT / 2021

  • VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

DiT / 2022

  • DiT: Self-supervised Pre-training for Document Image Transformer

EVA / 2022

2023, CVPR] 一部をマスクした画像からCLIPの出力を予測するという方法で事前学習したEVAは、 画像認識や物体検出など各種下流タスクでSOTAを達成.



  • EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Zorro / 2023

  • Zorro: the masked multimodal transformer

MAGVLT / 2023

  • MAGVLT: Masked Generative Vision-and-Language Transformer

VioLA / 2023

  • VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation

参考

Web サイト

  • NeurIPS 2021 参加報告 後編

    • VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
    • blog.recruit.co.jp

  • ML Papers Explained

    • Layout Transformers
      • DocFormer
      • ERNIE-Layout
      • Layout LM
      • Layout LM v2
      • Layout LM v3
      • LiLT
      • StructuralLM
    • github.com