オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】モデルの性能評価・ベンチマーク

データサイエンスデータサイエンス-深層学習

深層学習 #まとめ編
- yhayato1320.hatenablog.com

Index

Index
評価
参考

評価

各タスクには、それぞれ固有の評価方法がある.

そのような固有の評価ではなく、一般的な評価方法などをまとめる.

3DB / 2021

画像を扱うモデルの望ましくない挙動を体系的に検査するフレームワーク.

3DB: A Framework for Debugging Computer Vision Models
- [2021]
- arxiv.org

α-ReQ / 2022

固有のタスクに依存しない形で評価する.

α-ReQ : Assessing representation quality by measuring eigenspectrum decay
- [2022]
- openreview.net

When does dough become a bagel? / 2022

ImageNetにおける誤分類のパターンを調査した研究.

When does dough become a bagel? Analyzing the remaining mistakes on ImageNet
- [2022]
- arxiv.org

Benchopt / 2022

Optimizer の評価.

Benchopt: Reproducible, efficient and collaborative optimization benchmarks
- [2022]
- arxiv.org

Pythae / 2022

生成モデルの評価.

Pythae: Unifying Generative Autoencoders in Python -- A Benchmarking Use Case
- [2022]
- arxiv.org

OpenOOD / 2022

Out-of-Distribution の評価.

OpenOOD: Benchmarking Generalized Out-of-Distribution Detection
- [2022]
- arxiv.org

MAUVE Score / 2022

生成モデルの評価.

MAUVE Scores for Generative Models: Theory and Practice
- [2022]
- arxiv.org

Complexity Gap score / CG-score / 2023

Data Valuation Without Training of a Model
- [2023]
- arxiv.org

LAVA / 2023

LAVA: Data Valuation without Pre-Specified Learning Algorithms
- [2023]
- openreview.net

参考

NeurIPS 2022 参加報告後編
- 学習済みモデルの評価と編集
  - 3DB / α-ReQ / When does dough become a bagel?
- データセットとベンチマーク
  - Benchopt /
- blog.recruit.co.jp