オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Model Compression

Index

Model Compression

Pruning / 枝刈り

  • A Fast Post-Training Pruning Framework for Transformers

Quantize / 量子化

  • LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

Distillation / 蒸留

  • AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models

その他

OTOV2 / 2023

参考

  • A Survey of Model Compression and Acceleration for Deep Neural Networks

Web サイト