-
- 内部 英治
- 株式会社国際電気通信基礎技術研究所 脳情報研究所 ブレインロボットインタフェース研究室
書誌事項
- タイトル別名
-
- Forward and Inverse Reinforcement Learning Based on Linearly Solvable Markov Decision Processes
抄録
連続時間系での順強化学習では最適制御則を求めるためには非線形の偏微分方程式であるハミルトン・ヤコビ・ベルマン方程式を解く必要があるが,ほとんどの場合解析的に解くことは困難である.離散時間系の定式化の場合も同様で,このことが強化学習を実問題に適用する上での問題の一つとなっている.近年,線形可解マルコフ決定過程と呼ばれる問題のクラスが提案され,目的関数を規定する即時コスト関数の一部をカルバックライブラーダイバージェンスによって表現することで,ハミルトン・ヤコビ・ベルマン方程式を線形化できることが示された.この解説では,線形可解マルコフ決定過程のロボット制御への適用について説明し,この枠組みにおいて,学習済みの制御則の合成理論に基づいた学習の高速化と観測された状態行動系列からコスト関数を推定する逆強化学習問題が実現できることを紹介する.
収録刊行物
-
- 日本神経回路学会誌
-
日本神経回路学会誌 23 (1), 2-13, 2016
日本神経回路学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390001204466662784
-
- NII論文ID
- 130005150459
-
- ISSN
- 18830455
- 1340766X
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- Crossref
- CiNii Articles
- KAKEN
-
- 抄録ライセンスフラグ
- 使用不可