- 深層学習 #まとめ編
Index
Model Compression
Pruning / 枝刈り
- A Fast Post-Training Pruning Framework for Transformers
- [2022]
- arxiv.org
Quantize / 量子化
- LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
- [2022]
- arxiv.org
Distillation / 蒸留
- AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models
- [2022]
- arxiv.org
その他
OTOV2 / 2023
- OTOV2: Automatic, Generic, User-Friendly
- [2023]
- arxiv.org
- github.com
参考
- A Survey of Model Compression and Acceleration for Deep Neural Networks
- [2017]
- v9
- arxiv.org
Web サイト
ディープラーニングを軽量化する「モデル圧縮」3手法
NeurIPS 2022 参加報告 後編
- 大規模言語モデル
- 計算コストの削減
- blog.recruit.co.jp
- 大規模言語モデル