オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Mamba

Index

Mamba

従来のTransformerが抱える長いシーケンスへの計算効率の課題を解決する新しいモデル. Mambaは、入力内容に応じて情報を選択的に保持・破棄できる選択的状態空間モデル (Selective SSM) を採用し、処理時間を劇的に短縮した. この設計により、メモリ使用量はシーケンス長に対して線形にスケールし、推論速度は Transformer の約5倍に達っする. 言語、音声、ゲノミクスなどの多様な領域で、Mambaは数百万規模の長文コンテキストを効率的に処理し、同等サイズの既存モデルを凌駕する高い精度を実証. ハードウェアの特性を考慮した並列アルゴリズムの実装により、次世代の基盤モデルとしての可能性を提示した革新的な研究.

応用

Mamba-2 / 2024

  • Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

MambaVision / 2024

Vision へ.

  • MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Samba / 2024

  • Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Nemotron-H / 2025

  • Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

Nemotron Nano 2 / 2025

NVIDIA-Nemotron-Nano-9B-v2-Japanese

  • [失敗談] NVIDIA-Nemotron-Nano-9B-v2-JapaneseをColabで使おうとしたが躓いた話

Nemotron 3 Nano / 2026

参考

  • Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Web サイト

  • github.com

    • 手法まとまっている

  • 【Mamba入門】Transformerを凌駕しうるアーキテクチャを解説(独自の学習・推論コード含む)