強化学習における遷移確率を用いたドメイン適応による方策の転移

DOI
  • 佐藤 怜
    筑波大学 理化学研究所 革新知能統合研究センター
  • 福地 一斗
    筑波大学 理化学研究所 革新知能統合研究センター
  • 佐久間 淳
    筑波大学 理化学研究所 革新知能統合研究センター
  • 秋本 洋平
    筑波大学 理化学研究所 革新知能統合研究センター

書誌事項

タイトル別名
  • Policy Transfer in Reinforcement Learning with Domain Adaptation using Transition Probability

抄録

<p>強化学習を実世界で活用する取り組みが盛んになっている.エージェントを実世界で環境と対話させて学習するには膨大なコストが掛かるため,ソースタスクと呼ばれるシミュレータ等のコストの低い環境で事前学習を行うことで,ターゲットタスクと呼ばれる運用環境での対話を短縮する方法が注目されている. 本研究ではソースタスクとターゲットタスクに状態観測の形式の点で差異が生じる状況に着目する. 提案手法では状態の潜在表現を求めるエンコーダを学習し,潜在表現から行動を出力する方策を学習する.提案手法は遷移確率を用いて状態観測の形式変化に頑健な潜在表現を学習することで,ソースタスクで学習した方策の転移を可能にし,ターゲットタスクでの環境との対話が限られる場合におけるエージェントの性能を改善する.実験ではターゲットタスクでの対話が限られる場合において,提案手法がより高い性能を得られることを示す.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390285300166118400
  • NII論文ID
    130007856956
  • DOI
    10.11517/pjsai.jsai2020.0_2j5gs203
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ