エントロピー正則化付方策改善のための目的関数の補正

岩城 諒, 浅田 稔

doi:10.11517/pjsai.jsai2018.0_3pin111

書誌事項

タイトル別名

Objective Correction for Policy Improvement under Entropy Regularization

抄録

<p>強化学習は，未知の環境と試行錯誤的に相互作用しながら，意思決定則である方策を最適化することを目的とする．近年，エントロピーもしくは双対エントロピーによって目的関数を正則化する学習則が数多く研究されているが，（双対）エントロピーによる正則化を導入すると，目的関数と最適方策が元となるマルコフ決定過程と異なってしまう．本研究では，エントロピーの正則化を利用した方策オフ型の学習則の一つである Path Consistency Learning (PCL) とその派生である trust-PCLに着目し，これらの学習則を利用して元となるマルコフ決定過程の最適方策を求める手法を提案する.</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2018 (0), 3Pin111-3Pin111, 2018

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390282763024147328

NII論文ID: 130007423689

DOI: 10.11517/pjsai.jsai2018.0_3pin111

本文言語コード: ja

データソース種別

JaLC
CiNii Articles

抄録ライセンスフラグ: 使用不可

エントロピー正則化付方策改善のための目的関数の補正

書誌事項

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

エントロピー正則化付方策改善のための目的関数の補正

書誌事項

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について