オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】モデルの性能評価・ベンチマーク

Index

評価

各タスクには、それぞれ固有の評価方法がある.

そのような固有の評価ではなく、一般的な評価方法などをまとめる.

3DB / 2021

画像を扱うモデルの望ましくない挙動を体系的に検査するフレームワーク.

α-ReQ / 2022

固有のタスクに依存しない形で評価する.

  • α-ReQ : Assessing representation quality by measuring eigenspectrum decay

When does dough become a bagel? / 2022

ImageNetにおける誤分類のパターンを調査した研究.

  • When does dough become a bagel? Analyzing the remaining mistakes on ImageNet

Benchopt / 2022

Optimizer の評価.

  • Benchopt: Reproducible, efficient and collaborative optimization benchmarks

Pythae / 2022

生成モデルの評価.

  • Pythae: Unifying Generative Autoencoders in Python -- A Benchmarking Use Case

OpenOOD / 2022

Out-of-Distribution の評価.

  • OpenOOD: Benchmarking Generalized Out-of-Distribution Detection

MAUVE Score / 2022

生成モデルの評価.

  • MAUVE Scores for Generative Models: Theory and Practice

Complexity Gap score / CG-score / 2023

  • Data Valuation Without Training of a Model

LAVA / 2023

  • LAVA: Data Valuation without Pre-Specified Learning Algorithms

参考