深層学習 #まとめ編
- yhayato1320.hatenablog.com

Index

Index
Model Compression
参考
- Web サイト

Model Compression

Pruning / 枝刈り

Sparse Momentum / 2019

指数平滑化された勾配（モメンタム）を利用して、効率的に誤差を減らす層や重みを特定する.

剪定された重みを層間で再配分し、ゼロ値の重みの中でモメンタムが大きいものを成長させることで、高速な訓練と高性能を両立させる.

Sparse Networks from Scratch: Faster Training without Losing Performance
- [2019]
- arxiv.org

DNNの学習を効率化する手法の提案。有望なWeightを残し、役立たないWeightは回収し(Prune)他に割り振る(Regrow)というのが基本的な考え。割り振りはMomentum(勾配の履歴を指数平滑で重みづけし合計したもの)のMagnitudeを基準に行い、Pruneされた重みはレイヤー単位/レイヤー内の順に割り振られる。 https://t.co/cDkx0hud4T
— piqcy (@icoxfog417) July 15, 2019

Post-Training Pruning Framework / 2022

Transformer に対する Pruning.

A Fast Post-Training Pruning Framework for Transformers
- [2022]
- arxiv.org

Quantize / 量子化

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
- [2022]
- arxiv.org

Distillation / 蒸留

AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models
- [2022]
- arxiv.org

その他

OTOV2 / 2023

OTOV2: Automatic, Generic, User-Friendly
- [2023]
- arxiv.org
- github.com

参考

A Survey of Model Compression and Acceleration for Deep Neural Networks
- [2017]
- v9
- arxiv.org

Web サイト

ディープラーニングを軽量化する「モデル圧縮」３手法
- [2020]
- Pruning（枝刈り） / Quantize（量子化） / Distillation（蒸留）
- https://laboro.ai/activity/column/engineer/%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%82%92%E8%BB%BD%E9%87%8F%E5%8C%96%E3%81%99%E3%82%8B%E3%83%A2%E3%83%87%E3%83%AB%E5%9C%A7%E7%B8%AE/laboro.ai
NeurIPS 2022 参加報告後編
- 大規模言語モデル
  - 計算コストの削減
- blog.recruit.co.jp

オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Model Compression

Index

Model Compression

Pruning / 枝刈り

Sparse Momentum / 2019

Post-Training Pruning Framework / 2022

Quantize / 量子化

Distillation / 蒸留

その他

OTOV2 / 2023

参考

Web サイト