強化学習における遷移確率を用いたドメイン適応による方策の転移

佐藤 怜, 福地 一斗, 佐久間 淳, 秋本 洋平

doi:10.11517/pjsai.jsai2020.0_2j5gs203

書誌事項

タイトル別名

Policy Transfer in Reinforcement Learning with Domain Adaptation using Transition Probability

抄録

<p>強化学習を実世界で活用する取り組みが盛んになっている．エージェントを実世界で環境と対話させて学習するには膨大なコストが掛かるため，ソースタスクと呼ばれるシミュレータ等のコストの低い環境で事前学習を行うことで，ターゲットタスクと呼ばれる運用環境での対話を短縮する方法が注目されている．本研究ではソースタスクとターゲットタスクに状態観測の形式の点で差異が生じる状況に着目する．提案手法では状態の潜在表現を求めるエンコーダを学習し，潜在表現から行動を出力する方策を学習する．提案手法は遷移確率を用いて状態観測の形式変化に頑健な潜在表現を学習することで，ソースタスクで学習した方策の転移を可能にし，ターゲットタスクでの環境との対話が限られる場合におけるエージェントの性能を改善する．実験ではターゲットタスクでの対話が限られる場合において，提案手法がより高い性能を得られることを示す．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2020 (0), 2J5GS203-2J5GS203, 2020

一般社団法人人工知能学会

キーワード

詳細情報詳細情報について

CRID: 1390285300166118400

NII論文ID: 130007856956

DOI: 10.11517/pjsai.jsai2020.0_2j5gs203

本文言語コード: ja

データソース種別

JaLC
CiNii Articles

抄録ライセンスフラグ: 使用不可

強化学習における遷移確率を用いたドメイン適応による方策の転移

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

強化学習における遷移確率を用いたドメイン適応による方策の転移

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について