エントロピ正則された強化学習を用いた模倣学習

DOI

書誌事項

タイトル別名
  • Imitation learning based on entropy-regularized reinforcement learning

抄録

<p>本稿では,強化学習と逆強化学習を組み合わせたエントロピ正則化された模倣学習ERILを提案する.ERILは報酬関数が学習方策のエントロピと学習方策とベースライン方策の間のKullback-Leiblerダイバージェンスで正則化された場合に導出されるソフトベルマン最適方程式を利用する.逆強化学習は二つの方策の密度比を推定する問題に帰着され,ロジスティック回帰を用いた二値分類によって効率的に報酬と状態価値を推定できる.強化学習は方策オフ型の動的方策勾配法などの拡張に相当し,学習方策と推定されたエキスパート方策の間のKLダイバージェンスの最小化問題になる.MuJoCoを用いたシミュレーション環境を用いた実験結果より,提案手法ERILは従来法よりもデータ効率が良いことを示す.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390001288143372800
  • NII論文ID
    130007658282
  • DOI
    10.11517/pjsai.jsai2019.0_1i3j203
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ