強化学習におけるUCB行動選択手法の効果
書誌事項
- タイトル別名
-
- The Effect of UCB Algorithm in Reinforcement Learning
説明
N本腕バンディット問題などで用いられる行動選択手法の1つとして,UCB手法が提案されている. この手法は,価値推定値の信頼区間の上限の比較によって行動選択を行うことで,一般的によく用いられるε-greedy手法などよりも高い性能を発揮する. 本論文では,連続空間における経路探索問題を題材として,部分的にしか環境を観測することができない部分観測マルコフ決定過程における強化学習においてもこの手法が高い性能を示すかを従来手法と比較しながら検討する.
収録刊行物
-
- 日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集
-
日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集 30 (0), 174-179, 2014
日本知能情報ファジィ学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390001205673422976
-
- NII論文ID
- 130005480437
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用不可