エントロピー正則化付方策改善のための目的関数の補正

DOI

書誌事項

タイトル別名
  • Objective Correction for Policy Improvement under Entropy Regularization

抄録

<p>強化学習は,未知の環境と試行錯誤的に相互作用しながら,意思決定則である方策を最適化することを目的とする.近年,エントロピーもしくは双対エントロピーによって目的関数を正則化する学習則が数多く研究されているが,(双対)エントロピーによる正則化を導入すると,目的関数と最適方策が元となるマルコフ決定過程と異なってしまう.本研究では,エントロピーの正則化を利用した方策オフ型の学習則の一つである Path Consistency Learning (PCL) とその派生である trust-PCLに着目し, これらの学習則を利用して元となるマルコフ決定過程の最適方策を求める手法を提案する.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390282763024147328
  • NII論文ID
    130007423689
  • DOI
    10.11517/pjsai.jsai2018.0_3pin111
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ