Teja ICML’20 Optimizer Benchmarking Needs to Account for Hyperparameter Tuning¶

https://arxiv.org/abs/1910.11758

著者

Prabhu Teja S (Idiap Research Institute, EPFL)
Florian Mai (Idiap Research Institute, EPFL)
Thijs Vogels (EPFL)
Martin Jaggi (EPFL)
François Fleuret (EPFL, University of Geneva)

概要¶

SGDのほうが、Adam等のAdaptive Methodより汎化性能がよいといわれている
でもSGDのチューニング大変で、あんまりチューニングしないのであればAdamのほうが性能良かったりするよ的な感じ

../_images/ob_f2.png

(a)図でいくと、Optimizerの良さは明確で A > B > D > C
SGDはOptimzier-E、AdamはOtimizer-Fみたいな感じ

../_images/ob_f1.png

x軸: 何回チューニングするか, y軸: ベストな性能である確率

実験¶

../_images/ob_f8.png

Fig 2 を実際に実験してやった感じ

めちゃくちゃ実験しているので論文を参照

../_images/ob_f5.png