エントロピ正則された強化学習を用いた模倣学習
-
- 内部 英治
- 国際電気通信基礎技術研究所
書誌事項
- タイトル別名
-
- Imitation learning based on entropy-regularized reinforcement learning
抄録
<p>本稿では,強化学習と逆強化学習を組み合わせたエントロピ正則化された模倣学習ERILを提案する.ERILは報酬関数が学習方策のエントロピと学習方策とベースライン方策の間のKullback-Leiblerダイバージェンスで正則化された場合に導出されるソフトベルマン最適方程式を利用する.逆強化学習は二つの方策の密度比を推定する問題に帰着され,ロジスティック回帰を用いた二値分類によって効率的に報酬と状態価値を推定できる.強化学習は方策オフ型の動的方策勾配法などの拡張に相当し,学習方策と推定されたエキスパート方策の間のKLダイバージェンスの最小化問題になる.MuJoCoを用いたシミュレーション環境を用いた実験結果より,提案手法ERILは従来法よりもデータ効率が良いことを示す.</p>
収録刊行物
-
- 人工知能学会全国大会論文集
-
人工知能学会全国大会論文集 JSAI2019 (0), 1I3J203-1I3J203, 2019
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390001288143372800
-
- NII論文ID
- 130007658282
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用不可