因果強度を用いた強化学習における価値配分手法

小川 絢加, 澤山 熱気, 甲野 佑, 高橋 達二

doi:10.11517/pjsai.jsai2015.0_1f35in

書誌事項

タイトル別名

インガキョウドオモチイタキョウカガクシュウニオケルカチハイブンシュホウ

この論文をさがす

説明

<p>強化学習において遅延して与えられる報酬を，それまでの状態行動系列に対して，どのように配分して価値付けるかは大きな問題である．この問題にはTD(λ)のように，その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である．本研究では人間の感覚に倣った因果強度の評価手法を用いて，単純な時間経過ではない価値の配分を行う手法を新たに提案し，従来手法との比較を行う．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2015 (0), 1F35in-1F35in, 2015

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390282763023956352

NII論文ID: 40020492041; 130007425230

NII書誌ID: AA11578981

ISSN: 13479881; 27587347

DOI: 10.11517/pjsai.jsai2015.0_1f35in

NDL書誌ID: 026493191

Web Site: http://id.ndl.go.jp/bib/026493191; https://ndlsearch.ndl.go.jp/books/R000000004-I026493191

本文言語コード: ja

データソース種別

JaLC
NDLサーチ
CiNii Articles

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘