オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Mixture of Experts / MoE #まとめ編 #01

Index

Mixture of Experts / MoE

VL における MoE についてまとめる.

LIMoE / 2022

Google AIが開発したLIMoE(Language-Image Mixture of Experts)という新しい大規模AIアーキテクチャ. このモデルは、Sparse Mixture of Experts 技術を利用して、画像とテキストの両方を効率的に処理することを可能にする. 従来のモデルが各モダリティを個別に処理していたのに対し、LIMoEは計算コストを抑えながらも、両方の情報を同時に扱うことで、より高い性能を発揮.

  • Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts

  • Google AI Introduces ‘LIMoE’: One Of The First Large-Scale Architecture That Processes Both Images And Text Using A Sparse Mixture Of Experts

VL-MoE / 2023

この文書では、VLMs のスケーリングにおけるSparse MoE 技術の有効性. 特に、VL-MoEという新しいアーキテクチャを提案し、画像とテキストの両方を効率的に処理するためにMoEを統合. このアプローチにより、従来のモデルよりも計算コストを抑えつつ、最先端の性能を達成できる.

  • Scaling Vision-Language Models with Sparse Mixture of Experts