因果強度を用いた強化学習における価値配分手法

Bibliographic Information

Other Title
  • インガ キョウド オ モチイタ キョウカ ガクシュウ ニ オケル カチ ハイブン シュホウ

Search this article

Description

<p>強化学習において遅延して与えられる報酬を,それまでの状態行動系列に対して,どのように配分して価値付けるかは大きな問題である.この問題にはTD(λ)のように,その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である.本研究では人間の感覚に倣った因果強度の評価手法を用いて,単純な時間経過ではない価値の配分を行う手法を新たに提案し,従来手法との比較を行う.</p>

Journal

Details 詳細情報について

Report a problem

Back to top