- 深層学習 #まとめ編
Index
評価
各タスクには、それぞれ固有の評価方法がある.
そのような固有の評価ではなく、一般的な評価方法などをまとめる.
3DB / 2021
画像を扱うモデルの望ましくない挙動を体系的に検査するフレームワーク.
- 3DB: A Framework for Debugging Computer Vision Models
- [2021]
- arxiv.org
α-ReQ / 2022
固有のタスクに依存しない形で評価する.
- α-ReQ : Assessing representation quality by measuring eigenspectrum decay
- [2022]
- openreview.net
When does dough become a bagel? / 2022
ImageNetにおける誤分類のパターンを調査した研究.
Benchopt / 2022
Optimizer の評価.
- Benchopt: Reproducible, efficient and collaborative optimization benchmarks
- [2022]
- arxiv.org
Pythae / 2022
生成モデルの評価.
OpenOOD / 2022
Out-of-Distribution の評価.
- OpenOOD: Benchmarking Generalized Out-of-Distribution Detection
- [2022]
- arxiv.org
MAUVE Score / 2022
生成モデルの評価.
- MAUVE Scores for Generative Models: Theory and Practice
- [2022]
- arxiv.org
Complexity Gap score / CG-score / 2023
- Data Valuation Without Training of a Model
- [2023]
- arxiv.org
LAVA / 2023
- LAVA: Data Valuation without Pre-Specified Learning Algorithms
- [2023]
- openreview.net
参考
- NeurIPS 2022 参加報告 後編
- 学習済みモデルの評価と編集
- 3DB / α-ReQ / When does dough become a bagel?
- データセットとベンチマーク
- Benchopt /
- blog.recruit.co.jp
- 学習済みモデルの評価と編集