Index

Index
Mamba
応用
参考
- Web サイト

Mamba

従来のTransformerが抱える長いシーケンスへの計算効率の課題を解決する新しいモデル. Mambaは、入力内容に応じて情報を選択的に保持・破棄できる選択的状態空間モデル (Selective SSM) を採用し、処理時間を劇的に短縮した. この設計により、メモリ使用量はシーケンス長に対して線形にスケールし、推論速度は Transformer の約5倍に達っする. 言語、音声、ゲノミクスなどの多様な領域で、Mambaは数百万規模の長文コンテキストを効率的に処理し、同等サイズの既存モデルを凌駕する高い精度を実証. ハードウェアの特性を考慮した並列アルゴリズムの実装により、次世代の基盤モデルとしての可能性を提示した革新的な研究.

S4
- yhayato1320.hatenablog.com

応用

Mamba-2 / 2024

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
- [2024]
- arxiv.org

MambaVision / 2024

Vision へ.

MambaVision: A Hybrid Mamba-Transformer Vision Backbone
- [2024]
- arxiv.org

Samba / 2024

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
- [2024]
- arxiv.org

SambaはMambaと滑走窓注意機構（SWA）を組み合わせ、理論上無限長の文脈を扱える。Transformer++と比べ特に数学や検索などの能力が改善。また学習時（4K）より長い文脈長（1Mまで）も微調整せずに扱える。Phi3と同じ高品質な学習データを使ったこともあり3.8Bでは最高性能 https://t.co/PgDvdAway4
— Daisuke Okanohara / 岡野原大輔 (@hillbig) June 16, 2024

Nemotron-H / 2025

Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models
- [2025]
- arxiv.org

Nemotron Nano 2 / 2025

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model
- [2025]
- arxiv.org
- research.nvidia.com

Nemotron Nano 2 9B-v2はMamba-Transformerのハイブリット型言語モデルで、長い思考トレースの生成コストを抑え、22GB GPU1枚で128kトークン長の推論を実現、同規模モデルと比べ6倍のスループットを実現。事前・事後学習データセットが大幅に改善され、長文理解・数学・コードの性能が特に強い
— Daisuke Okanohara / 岡野原大輔 (@hillbig) August 20, 2025

NVIDIA-Nemotron-Nano-9B-v2-Japanese

[失敗談] NVIDIA-Nemotron-Nano-9B-v2-JapaneseをColabで使おうとしたが躓いた話
- zenn.dev

Nemotron 3 Nano / 2026

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Nemotron3-Superは120BのMoEモデルで、GPT-OSS 120Bと同等の性能を持ちながら、推論は2.2倍（Qwenと比較すると最大7.5倍）高速である。

アーキテクチャとしては、Mamba2とTransformerのハイブリッド構造を採用しており、MoEの前に入力を射影して低次元化する LatentMoE を用いている。…
— Daisuke Okanohara / 岡野原大輔 (@hillbig) March 12, 2026

参考

Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- [2023]
- arxiv.org

Web サイト

github.com
- 手法まとまっている
【Mamba入門】Transformerを凌駕しうるアーキテクチャを解説（独自の学習・推論コード含む）
- qiita.com

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Mamba