方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習

DOI

書誌事項

タイトル別名
  • Offline Model-Based Imitation Learning with Entropy Regularization of Model and Policy

抄録

<p>Model-Based Entropy-Regularized Imitation Learning (MB-ERIL)は方策と状態遷移モデルのエントロピ正則を導入したオンラインのモデルベース敵対的生成模倣学習である.Online-MB-ERILはエキスパートデータ以外に学習エージェントの方策が実環境やモデルとそれぞれインタラクションして得られる3種類のデータから学習する.本報告では,学習エージェントと実環境から得られるデータを使用しないことで,オフライン学習の形式にした場合について考察する.次にPositive and Unlabeled data学習の考えを導入したOffline-MB-ERILを提案する.準最適なデータが与えられたとき,Offline-MB-ERILはラベルなしデータとして利用することで,方策やモデルの推定性能を改善することができる.視覚ベースの腕のリーチング課題を通して,Online-MB-ERILよりもOffline-MB-ERILの方が準最適データを有効に利用できることを示す.</p>

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ