強化学習におけるUCB行動選択手法の効果

斉藤 晃貴, 野津 亮, 本多 克宏

doi:10.14864/fss.30.0_174

書誌事項

タイトル別名

The Effect of UCB Algorithm in Reinforcement Learning

説明

N本腕バンディット問題などで用いられる行動選択手法の１つとして，UCB手法が提案されている. この手法は，価値推定値の信頼区間の上限の比較によって行動選択を行うことで，一般的によく用いられるε-greedy手法などよりも高い性能を発揮する. 本論文では，連続空間における経路探索問題を題材として，部分的にしか環境を観測することができない部分観測マルコフ決定過程における強化学習においてもこの手法が高い性能を示すかを従来手法と比較しながら検討する.

収録刊行物

日本知能情報ファジィ学会ファジィシステムシンポジウム講演論文集

日本知能情報ファジィ学会ファジィシステムシンポジウム講演論文集 30 (0), 174-179, 2014

日本知能情報ファジィ学会

キーワード

詳細情報詳細情報について

CRID: 1390001205673422976

NII論文ID: 130005480437

DOI: 10.14864/fss.30.0_174

本文言語コード: ja

データソース種別

JaLC
CiNii Articles

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘