強化学習におけるUCB行動選択手法の効果

書誌事項

タイトル別名
  • The Effect of UCB Algorithm in Reinforcement Learning

説明

N本腕バンディット問題などで用いられる行動選択手法の1つとして,UCB手法が提案されている. この手法は,価値推定値の信頼区間の上限の比較によって行動選択を行うことで,一般的によく用いられるε-greedy手法などよりも高い性能を発揮する. 本論文では,連続空間における経路探索問題を題材として,部分的にしか環境を観測することができない部分観測マルコフ決定過程における強化学習においてもこの手法が高い性能を示すかを従来手法と比較しながら検討する.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390001205673422976
  • NII論文ID
    130005480437
  • DOI
    10.14864/fss.30.0_174
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ