Attention Branch Networkにおける報酬の不確実性予測を伴う深層強化学習手法の提案
この論文をさがす
説明
深層強化学習はロボットタスクやゲームの学習において高い性能を示しているが,実環境などのセンサから報酬値を取得した場合に含まれるノイズを考慮しておらず,学習が安定しないケースが考えられる.本研究では,深層強化学習手法の一種であるA3Cを報酬の分散を予測するよう拡張し,同時に特徴マップとして行動出力に参照する機構を組み込んだ.報酬の不確実性を考慮して状態価値の学習を行うことで,報酬にノイズが含まれる場合でもモデルの精度が安定する.実験としてOpen AI Gymのゲーム環境において,環境から得られる報酬にノイズを加えて提案手法の検証を行った結果,学習収束の有効性が確認された.
収録刊行物
-
- 第82回全国大会講演論文集
-
第82回全国大会講演論文集 2020 (1), 33-34, 2020-02-20
情報処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1050292572146127872
-
- NII論文ID
- 170000182207
-
- NII書誌ID
- AN00349328
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB
- CiNii Articles