Deterministic Policy Search Method for Real Robot Control

Uchibe Eiji, Wang Jiexin

doi:10.3902/jnns.24.195

Bibliographic Information

Other Title

ロボット制御のための決定論的方策探査法

Description

強化学習で用いられる確率的方策は各時刻で行動を確率的に決定するため，生成される軌道が滑らかでなく実ロボットの行動学習には適さない．また，方策の改善に用いる方策勾配の推定値が大きな分散を持ち，学習過程を安定化させるためには一つの確率的方策を複数回評価する必要がある．このため，ロボット制御に適した決定論的方策をPolicy Gradients with Parameter-based Exploration（PGPE）は状態行動空間で探査するのではなく，方策パラメータ空間で探査するように強化学習の目的を再構成することで，決定論的方策を学習することを可能にした．しかしPGPEは勾配法に基づく方法であり，学習率の調整を必要とした．本解説では学習率の調節の必要のない，EMアルゴリズムを用いた決定論的方策を学習するための手法を説明する．スマートフォンをベースにした倒立二輪型移動ロボットを用いた複数の実験において，決定論的方策を用いることの利点や提案手法が実ロボットの学習に有効であることを述べる．

Journal

The Brain & Neural Networks

The Brain & Neural Networks 24 (4), 195-203, 2017

Japanese Neural Network Society

Details 詳細情報について

CRID: 1390282679444647680

NII Article ID: 130006337689

DOI: 10.3902/jnns.24.195

ISSN: 18830455; 1340766X

Web Site: https://www.jstage.jst.go.jp/article/jnns/24/4/24_195/_pdf

Text Lang: ja

Data Source

JaLC
Crossref
CiNii Articles
KAKEN

Abstract License Flag: Disallowed

Export

Deterministic Policy Search Method for Real Robot Control

Bibliographic Information

Description

Journal

References(4)*help

Related Projects

Keywords

Details 詳細情報について

Export

Report a problem