Attention Branch Networkにおける報酬の不確実性予測を伴う深層強化学習手法の提案

鈴木, 彼方, 尾形, 哲也

説明

深層強化学習はロボットタスクやゲームの学習において高い性能を示しているが，実環境などのセンサから報酬値を取得した場合に含まれるノイズを考慮しておらず，学習が安定しないケースが考えられる．本研究では，深層強化学習手法の一種であるA3Cを報酬の分散を予測するよう拡張し，同時に特徴マップとして行動出力に参照する機構を組み込んだ．報酬の不確実性を考慮して状態価値の学習を行うことで，報酬にノイズが含まれる場合でもモデルの精度が安定する．実験としてOpen AI Gymのゲーム環境において，環境から得られる報酬にノイズを加えて提案手法の検証を行った結果，学習収束の有効性が確認された．

収録刊行物

第82回全国大会講演論文集

第82回全国大会講演論文集 2020 (1), 33-34, 2020-02-20

情報処理学会

詳細情報詳細情報について

CRID: 1050292572146127872

NII論文ID: 170000182207

NII書誌ID: AN00349328

Web Site: https://ipsj.ixsq.nii.ac.jp/records/205138

本文言語コード: ja

資料種別: conference paper

データソース種別

IRDB
CiNii Articles

書き出し

問題の指摘

Attention Branch Networkにおける報酬の不確実性予測を伴う深層強化学習手法の提案

この論文をさがす

説明

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

Attention Branch Networkにおける報酬の不確実性予測を伴う深層強化学習手法の提案

この論文をさがす

説明

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について