学習初期に学習率の分散を考慮した学習率の範囲を動的に制御するAdam

この論文をさがす

説明

ニューラルネットワークの最適化アルゴリズムには「速度」と「安定性」が常に求められている。Adamはそれらを満たす手法として考えられていたが、大規模な問題ではSGDに比べて汎化性能が悪くなることや、学習初期に極端な学習率を選択してしまうなど「安定性」に課題が確認されている。近年ではこれらの問題を解決するために学習中にAdamからSGDに切り替えるAdaboundや、学習初期での学習率の分散を考慮し、小さな学習率でパラメータを更新するWarmUpを取り入れたRAdamが提案されている。本研究ではAdaboundに対して学習初期にWarmUpを適用することでより効率的な学習を行う手法を提案する。

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ