モデルフリーとモデルベースの協同による並列深層強化学習

DOI

書誌事項

タイトル別名
  • Parallel Deep Reinforcement Learning with Model-Free and Model-Based Methods

抄録

<p>強化学習は環境のモデルを陽に推定し学習に利用するモデルベース法と,実際または仮想的に得られた状態行動遷移対から学習するモデルフリー法に大別できる.我々はこれまでに性質の異なる複数のモデルフリー強化学習器を並列に学習させつつ性能に応じて学習器を動的に切り替える手法CRAILを提案し,単純なアルゴリズムが複雑なアルゴリズムの学習に貢献することを示した.本研究はCRAILを拡張し,モデルベースとモデルフリー強化学習アルゴリズムの動的な切り替えが学習効率の改善に寄与するか,また切り替えがどのようなタイミングで発生するかを調査した. 提案手法をベンチマーク課題であるMuJoCoに適用しモジュール構造を用いない場合と比較した.学習の初期段階では単純なネットワークを使ってモデルを推定するモデルベース法が選択され,学習後期ではモデルを複雑なネットワークで推定するモデルベース法が選択され,モデルフリー法はほとんど利用されなかった.一方で,推定モデルの精度が低い場合には経験再生を用いたモデルフリー法を最終的に使用する結果が得られた,これは神経科学で得られた知見とは異なっており,その理由について考察する.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390848250119369088
  • NII論文ID
    130007856694
  • DOI
    10.11517/pjsai.jsai2020.0_1q4gs1103
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ