Index
Mamba
従来のTransformerが抱える長いシーケンスへの計算効率の課題を解決する新しいモデル.
Mambaは、入力内容に応じて情報を選択的に保持・破棄できる選択的状態空間モデル (Selective SSM) を採用し、処理時間を劇的に短縮した.
この設計により、メモリ使用量はシーケンス長に対して線形にスケールし、推論速度は Transformer の約5倍に達っする.
言語、音声、ゲノミクスなどの多様な領域で、Mambaは数百万規模の長文コンテキストを効率的に処理し、同等サイズの既存モデルを凌駕する高い精度を実証.
ハードウェアの特性を考慮した並列アルゴリズムの実装により、次世代の基盤モデルとしての可能性を提示した革新的な研究.
応用
Mamba-2 / 2024
- Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
- [2024]
- arxiv.org
MambaVision / 2024
Vision へ.
- MambaVision: A Hybrid Mamba-Transformer Vision Backbone
- [2024]
- arxiv.org
Samba / 2024
- Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
- [2024]
- arxiv.org
SambaはMambaと滑走窓注意機構(SWA)を組み合わせ、理論上無限長の文脈を扱える。Transformer++と比べ特に数学や検索などの能力が改善。また学習時(4K)より長い文脈長(1Mまで)も微調整せずに扱える。Phi3と同じ高品質な学習データを使ったこともあり3.8Bでは最高性能 https://t.co/PgDvdAway4
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) June 16, 2024
Nemotron-H / 2025
- Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models
- [2025]
- arxiv.org
Nemotron Nano 2 / 2025
- NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model
- [2025]
- arxiv.org
- research.nvidia.com
Nemotron Nano 2 9B-v2はMamba-Transformerのハイブリット型言語モデルで、長い思考トレースの生成コストを抑え、22GB GPU1枚で128kトークン長の推論を実現、同規模モデルと比べ6倍のスループットを実現。事前・事後学習データセットが大幅に改善され、長文理解・数学・コードの性能が特に強い
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) August 20, 2025
NVIDIA-Nemotron-Nano-9B-v2-Japanese
- [失敗談] NVIDIA-Nemotron-Nano-9B-v2-JapaneseをColabで使おうとしたが躓いた話
Nemotron 3 Nano / 2026
- Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
Nemotron3-Superは120BのMoEモデルで、GPT-OSS 120Bと同等の性能を持ちながら、推論は2.2倍(Qwenと比較すると最大7.5倍)高速である。
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) March 12, 2026
アーキテクチャとしては、Mamba2とTransformerのハイブリッド構造を採用しており、MoEの前に入力を射影して低次元化する LatentMoE を用いている。…
参考
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- [2023]
- arxiv.org
Web サイト
-
- 手法まとまっている
- 手法まとまっている
【Mamba入門】Transformerを凌駕しうるアーキテクチャを解説(独自の学習・推論コード含む)