因果強度を用いた強化学習における価値配分手法

小川 絢加, 澤山 熱気, 甲野 佑, 高橋 達二

doi:10.11517/pjsai.jsai2015.0_1f35in

Bibliographic Information

Other Title

インガキョウドオモチイタキョウカガクシュウニオケルカチハイブンシュホウ

Search this article

Description

<p>強化学習において遅延して与えられる報酬を，それまでの状態行動系列に対して，どのように配分して価値付けるかは大きな問題である．この問題にはTD(λ)のように，その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である．本研究では人間の感覚に倣った因果強度の評価手法を用いて，単純な時間経過ではない価値の配分を行う手法を新たに提案し，従来手法との比較を行う．</p>

Journal

Proceedings of the Annual Conference of JSAI

Proceedings of the Annual Conference of JSAI JSAI2015 (0), 1F35in-1F35in, 2015

The Japanese Society for Artificial Intelligence