モデルベース・モデルフリー強化学習の調停について

内部 英治

doi:10.11517/pjsai.jsai2022.0_2m4os19b03

<p>強化学習は環境のモデルを陽に推定し学習に利用するモデルベース法と，実際または仮想的に得られた状態行動遷移対から学習するモデルフリー法に大別できる．我々はこれまでに性質の異なる複数のモデルフリー強化学習器とモデルベース強化学習器を並列に学習させつつ，性能に応じて学習器を非同期に切り替える手法を提案し，単純なアルゴリズムが複雑なアルゴリズムの学習に貢献することを示した．しかしモジュールの切り替え条件は価値関数の値に応じて確率的に決定され，モデルベースとモデルフリーの切り替えそのものを学習することは検討していなかった．また状態の予測誤差や報酬予測誤差など重要な要素を考慮していなかった．そこで本研究では価値関数に応じて切り替える方法、状態や価値の予測誤差に応じて切り替える方法，両者の重みづけで切り替える方法，さらに両者の重みを学習する方法を比較検討し、学習効率，環境の変化に対する追従能力，さらに神経科学の観点からの考察を行う．</p>

モデルベース・モデルフリー強化学習の調停について

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

モデルベース・モデルフリー強化学習の調停について

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について