エントロピ正則された強化学習を用いた模倣学習

内部 英治

doi:10.11517/pjsai.jsai2019.0_1i3j203

書誌事項

タイトル別名

Imitation learning based on entropy-regularized reinforcement learning

抄録

<p>本稿では，強化学習と逆強化学習を組み合わせたエントロピ正則化された模倣学習ERILを提案する．ERILは報酬関数が学習方策のエントロピと学習方策とベースライン方策の間のKullback-Leiblerダイバージェンスで正則化された場合に導出されるソフトベルマン最適方程式を利用する．逆強化学習は二つの方策の密度比を推定する問題に帰着され，ロジスティック回帰を用いた二値分類によって効率的に報酬と状態価値を推定できる．強化学習は方策オフ型の動的方策勾配法などの拡張に相当し，学習方策と推定されたエキスパート方策の間のKLダイバージェンスの最小化問題になる．MuJoCoを用いたシミュレーション環境を用いた実験結果より，提案手法ERILは従来法よりもデータ効率が良いことを示す．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2019 (0), 1I3J203-1I3J203, 2019

一般社団法人人工知能学会

キーワード

詳細情報詳細情報について

CRID: 1390001288143372800

NII論文ID: 130007658282

DOI: 10.11517/pjsai.jsai2019.0_1i3j203

本文言語コード: ja

データソース種別

JaLC
CiNii Articles

抄録ライセンスフラグ: 使用不可

エントロピ正則された強化学習を用いた模倣学習

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

エントロピ正則された強化学習を用いた模倣学習

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について