書誌事項
- タイトル別名
-
- インガ キョウド オ モチイタ キョウカ ガクシュウ ニ オケル カチ ハイブン シュホウ
この論文をさがす
説明
<p>強化学習において遅延して与えられる報酬を,それまでの状態行動系列に対して,どのように配分して価値付けるかは大きな問題である.この問題にはTD(λ)のように,その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である.本研究では人間の感覚に倣った因果強度の評価手法を用いて,単純な時間経過ではない価値の配分を行う手法を新たに提案し,従来手法との比較を行う.</p>
収録刊行物
-
- 人工知能学会全国大会論文集
-
人工知能学会全国大会論文集 JSAI2015 (0), 1F35in-1F35in, 2015
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390282763023956352
-
- NII論文ID
- 40020492041
- 130007425230
-
- NII書誌ID
- AA11578981
-
- ISSN
- 13479881
- 27587347
-
- NDL書誌ID
- 026493191
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- NDLサーチ
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用不可