オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Model Compression

Index

Model Compression

Pruning / 枝刈り

Sparse Momentum / 2019

指数平滑化された勾配(モメンタム)を利用して、効率的に誤差を減らす層や重みを特定する.

剪定された重みを層間で再配分し、ゼロ値の重みの中でモメンタムが大きいものを成長させることで、高速な訓練と高性能を両立させる.



  • Sparse Networks from Scratch: Faster Training without Losing Performance

Post-Training Pruning Framework / 2022

Transformer に対する Pruning.

  • A Fast Post-Training Pruning Framework for Transformers

Quantize / 量子化

  • LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

Distillation / 蒸留

  • AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models

その他

OTOV2 / 2023

参考

  • A Survey of Model Compression and Acceleration for Deep Neural Networks

Web サイト