Attention Branch Networkにおける報酬の不確実性予測を伴う深層強化学習手法の提案

この論文をさがす

説明

深層強化学習はロボットタスクやゲームの学習において高い性能を示しているが,実環境などのセンサから報酬値を取得した場合に含まれるノイズを考慮しておらず,学習が安定しないケースが考えられる.本研究では,深層強化学習手法の一種であるA3Cを報酬の分散を予測するよう拡張し,同時に特徴マップとして行動出力に参照する機構を組み込んだ.報酬の不確実性を考慮して状態価値の学習を行うことで,報酬にノイズが含まれる場合でもモデルの精度が安定する.実験としてOpen AI Gymのゲーム環境において,環境から得られる報酬にノイズを加えて提案手法の検証を行った結果,学習収束の有効性が確認された.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ