- 深層学習 #まとめ編
Index
Model Compression
Pruning / 枝刈り
Sparse Momentum / 2019
指数平滑化された勾配(モメンタム)を利用して、効率的に誤差を減らす層や重みを特定する.
剪定された重みを層間で再配分し、ゼロ値の重みの中でモメンタムが大きいものを成長させることで、高速な訓練と高性能を両立させる.
剪定された重みを層間で再配分し、ゼロ値の重みの中でモメンタムが大きいものを成長させることで、高速な訓練と高性能を両立させる.
- Sparse Networks from Scratch: Faster Training without Losing Performance
- [2019]
- arxiv.org
DNNの学習を効率化する手法の提案。有望なWeightを残し、役立たないWeightは回収し(Prune)他に割り振る(Regrow)というのが基本的な考え。割り振りはMomentum(勾配の履歴を指数平滑で重みづけし合計したもの)のMagnitudeを基準に行い、Pruneされた重みはレイヤー単位/レイヤー内の順に割り振られる。 https://t.co/cDkx0hud4T
— piqcy (@icoxfog417) July 15, 2019
Post-Training Pruning Framework / 2022
Transformer に対する Pruning.
- A Fast Post-Training Pruning Framework for Transformers
- [2022]
- arxiv.org
Quantize / 量子化
- LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
- [2022]
- arxiv.org
Distillation / 蒸留
- AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models
- [2022]
- arxiv.org
その他
OTOV2 / 2023
- OTOV2: Automatic, Generic, User-Friendly
- [2023]
- arxiv.org
- github.com
参考
- A Survey of Model Compression and Acceleration for Deep Neural Networks
- [2017]
- v9
- arxiv.org
Web サイト
ディープラーニングを軽量化する「モデル圧縮」3手法
NeurIPS 2022 参加報告 後編
- 大規模言語モデル
- 計算コストの削減
- blog.recruit.co.jp
- 大規模言語モデル