線形可解マルコフ決定過程を用いた順・逆強化学習

内部 英治

doi:10.3902/jnns.23.2

書誌事項

タイトル別名

Forward and Inverse Reinforcement Learning Based on Linearly Solvable Markov Decision Processes

抄録

連続時間系での順強化学習では最適制御則を求めるためには非線形の偏微分方程式であるハミルトン・ヤコビ・ベルマン方程式を解く必要があるが，ほとんどの場合解析的に解くことは困難である．離散時間系の定式化の場合も同様で，このことが強化学習を実問題に適用する上での問題の一つとなっている．近年，線形可解マルコフ決定過程と呼ばれる問題のクラスが提案され，目的関数を規定する即時コスト関数の一部をカルバックライブラーダイバージェンスによって表現することで，ハミルトン・ヤコビ・ベルマン方程式を線形化できることが示された．この解説では，線形可解マルコフ決定過程のロボット制御への適用について説明し，この枠組みにおいて，学習済みの制御則の合成理論に基づいた学習の高速化と観測された状態行動系列からコスト関数を推定する逆強化学習問題が実現できることを紹介する．

収録刊行物

日本神経回路学会誌

日本神経回路学会誌 23 (1), 2-13, 2016

日本神経回路学会

詳細情報詳細情報について

CRID: 1390001204466662784

NII論文ID: 130005150459

DOI: 10.3902/jnns.23.2

ISSN: 18830455; 1340766X

Web Site: https://www.jstage.jst.go.jp/article/jnns/23/1/23_2/_pdf

本文言語コード: ja

データソース種別

JaLC
Crossref
CiNii Articles
KAKEN

抄録ライセンスフラグ: 使用不可

線形可解マルコフ決定過程を用いた順・逆強化学習

書誌事項

抄録

収録刊行物

参考文献 (9)*注記

関連プロジェクト

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

線形可解マルコフ決定過程を用いた順・逆強化学習

書誌事項

抄録

収録刊行物

参考文献 (9)*注記

関連プロジェクト

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について