比較バンディット問題における認知的満足化探索

大用 庫智, 和田 拓真, 神谷 匠, 高橋 達二

doi:10.11517/pjsai.jsai2021.0_1g2gs2a02

書誌事項

タイトル別名

Cognitive Satisficing Exploration in Dueling Bandit Problems

説明

<p>強化学習の基本的な問題であるバンディット問題は，インターネット広告配信やゲーム木探索などに幅広く応用されている．とりわけ注目され始めているのが，明示的な報酬の観測が必要な従来の設定と対照的に，一対比較による相対的な報酬を用いる設定に拡張した比較バンディット問題である．その解法の中ではDouble Thompson Sampling (D-TS)が高い性能を示す．これは確率分布からランダムに抽出された行動価値に従うことで最適な行動を探索する手法である．しかし比較バンディット問題は一対比較であるため，いずれの既存手法も必要となる試行錯誤の多さに悩まされる．そこで本研究では，満足化という目標水準を満たす行動を素早く探索する人間の意思決定方法に着目し，価値関数のレベルで満足化を実装したRisk-sensitive Satisficingを活用するアルゴリズムを提案する．既存または乱数によるデータセットで検証した結果，D-TSより性能の劣るデータセットも一部あるものの，比較バンディット問題を解くアルゴリズムの性能指標である弱い後悔の値においては既存手法よりも性能を改善できたことを報告する．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2021 (0), 1G2GS2a02-1G2GS2a02, 2021

一般社団法人人工知能学会

キーワード

詳細情報詳細情報について

CRID: 1390851320456355200

NII論文ID: 130008051547

DOI: 10.11517/pjsai.jsai2021.0_1g2gs2a02

ISSN: 27587347

本文言語コード: ja

データソース種別

JaLC
CiNii Articles

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘