ロボット制御のための決定論的方策探査法

内部 英治, 王 潔心

doi:10.3902/jnns.24.195

書誌事項

タイトル別名

Deterministic Policy Search Method for Real Robot Control

抄録

強化学習で用いられる確率的方策は各時刻で行動を確率的に決定するため，生成される軌道が滑らかでなく実ロボットの行動学習には適さない．また，方策の改善に用いる方策勾配の推定値が大きな分散を持ち，学習過程を安定化させるためには一つの確率的方策を複数回評価する必要がある．このため，ロボット制御に適した決定論的方策をPolicy Gradients with Parameter-based Exploration（PGPE）は状態行動空間で探査するのではなく，方策パラメータ空間で探査するように強化学習の目的を再構成することで，決定論的方策を学習することを可能にした．しかしPGPEは勾配法に基づく方法であり，学習率の調整を必要とした．本解説では学習率の調節の必要のない，EMアルゴリズムを用いた決定論的方策を学習するための手法を説明する．スマートフォンをベースにした倒立二輪型移動ロボットを用いた複数の実験において，決定論的方策を用いることの利点や提案手法が実ロボットの学習に有効であることを述べる．

収録刊行物

日本神経回路学会誌

日本神経回路学会誌 24 (4), 195-203, 2017

日本神経回路学会

詳細情報詳細情報について

CRID: 1390282679444647680

NII論文ID: 130006337689

DOI: 10.3902/jnns.24.195

ISSN: 18830455; 1340766X

Web Site: https://www.jstage.jst.go.jp/article/jnns/24/4/24_195/_pdf

本文言語コード: ja

データソース種別

JaLC
Crossref
CiNii Articles
KAKEN

抄録ライセンスフラグ: 使用不可

ロボット制御のための決定論的方策探査法

書誌事項

抄録

収録刊行物

参考文献 (4)*注記

関連プロジェクト

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

ロボット制御のための決定論的方策探査法

書誌事項

抄録

収録刊行物

参考文献 (4)*注記

関連プロジェクト

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について