モデルフリーとモデルベース強化学習のための非同期並列学習

内部 英治

doi:10.11517/pjsai.jsai2021.0_2j4gs8c02

<p>強化学習は環境のモデルを陽に推定し学習に利用するモデルベース法と，実際または仮想的に得られた状態行動遷移対から学習するモデルフリー法に大別できる．我々はこれまでに性質の異なる複数のモデルフリー強化学習器とモデルベース強化学習器を並列に学習させつつ，性能に応じて学習器を動的に切り替える手法を提案し，単純なアルゴリズムが複雑なアルゴリズムの学習に貢献することを示した．しかし各学習器が意思決定に要する計算時間を考慮していなかったため、制御周期の短い単純なモデルフリー強化学習器を用いる利点を十分に示すことができなかった．そこで本研究では各学習器の制御周期の違いを考慮した非同期並列強化学習法を提案する．主要な貢献は各学習器で収集した経験を保存するバッファの分離と，制御周期の違いを吸収する経験再生バッファの変換である．提案手法をベンチマーク課題であるMuJoCoに適用し制御周期を考慮しない場合と比較した．学習の初期段階では制御周期の短いモデルベース法，学習中期では複雑なモデルベース法，学習後期ではモデルフリー法が選択される結果が得られた．</p>

モデルフリーとモデルベース強化学習のための非同期並列学習

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

モデルフリーとモデルベース強化学習のための非同期並列学習

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について