Index
Mixture of Experts / MoE
VL における MoE についてまとめる.
Vision Language
Mixture of Experts / MoE
LIMoE / 2022
Google AIが開発したLIMoE(Language-Image Mixture of Experts)という新しい大規模AIアーキテクチャ. このモデルは、Sparse Mixture of Experts 技術を利用して、画像とテキストの両方を効率的に処理することを可能にする. 従来のモデルが各モダリティを個別に処理していたのに対し、LIMoEは計算コストを抑えながらも、両方の情報を同時に扱うことで、より高い性能を発揮.
Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts
- [2022]
- arxiv.org
Google AI Introduces ‘LIMoE’: One Of The First Large-Scale Architecture That Processes Both Images And Text Using A Sparse Mixture Of Experts
VL-MoE / 2023
この文書では、VLMs のスケーリングにおけるSparse MoE 技術の有効性. 特に、VL-MoEという新しいアーキテクチャを提案し、画像とテキストの両方を効率的に処理するためにMoEを統合. このアプローチにより、従来のモデルよりも計算コストを抑えつつ、最先端の性能を達成できる.