ロボット制御のための決定論的方策探査法

  • 内部 英治
    株式会社国際電気通信基礎技術研究所脳情報研究所ブレインロボットインタフェース研究室
  • 王 潔心
    株式会社国際電気通信基礎技術研究所脳情報研究所ブレインロボットインタフェース研究室

書誌事項

タイトル別名
  • Deterministic Policy Search Method for Real Robot Control

抄録

強化学習で用いられる確率的方策は各時刻で行動を確率的に決定するため,生成される軌道が滑らかでなく実ロボットの行動学習には適さない.また,方策の改善に用いる方策勾配の推定値が大きな分散を持ち,学習過程を安定化させるためには一つの確率的方策を複数回評価する必要がある.このため,ロボット制御に適した決定論的方策をPolicy Gradients with Parameter-based Exploration(PGPE)は状態行動空間で探査するのではなく,方策パラメータ空間で探査するように強化学習の目的を再構成することで,決定論的方策を学習することを可能にした.しかしPGPEは勾配法に基づく方法であり,学習率の調整を必要とした.本解説では学習率の調節の必要のない,EMアルゴリズムを用いた決定論的方策を学習するための手法を説明する.スマートフォンをベースにした倒立二輪型移動ロボットを用いた複数の実験において,決定論的方策を用いることの利点や提案手法が実ロボットの学習に有効であることを述べる.

収録刊行物

参考文献 (4)*注記

もっと見る

関連プロジェクト

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ