モデルフリーとモデルベース強化学習のための非同期並列学習

DOI

書誌事項

タイトル別名
  • Asynchronous Parallel Learning for Model-Free and Model-Based Reinforcement Learning

抄録

<p>強化学習は環境のモデルを陽に推定し学習に利用するモデルベース法と,実際または仮想的に得られた状態行動遷移対から学習するモデルフリー法に大別できる.我々はこれまでに性質の異なる複数のモデルフリー強化学習器とモデルベース強化学習器を並列に学習させつつ,性能に応じて学習器を動的に切り替える手法を提案し,単純なアルゴリズムが複雑なアルゴリズムの学習に貢献することを示した.しかし各学習器が意思決定に要する計算時間を考慮していなかったため、制御周期の短い単純なモデルフリー強化学習器を用いる利点を十分に示すことができなかった. そこで本研究では各学習器の制御周期の違いを考慮した非同期並列強化学習法を提案する.主要な貢献は各学習器で収集した経験を保存するバッファの分離と,制御周期の違いを吸収する経験再生バッファの変換である.提案手法をベンチマーク課題であるMuJoCoに適用し制御周期を考慮しない場合と比較した.学習の初期段階では制御周期の短いモデルベース法,学習中期では複雑なモデルベース法,学習後期ではモデルフリー法が選択される結果が得られた.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390006895526240128
  • NII論文ID
    130008051741
  • DOI
    10.11517/pjsai.jsai2021.0_2j4gs8c02
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ