畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用

この論文をさがす

抄録

本研究では、畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用を提案する。Profit Sharingにおける行動価値を学習する場合には、Deep Q NetworkにおけるExperience Replayをそのまま利用することはできない。Profit Sharingにおける行動価値を学習する際の誤差関数では報酬分配量が教師信号として用いられるため、メモリに観測、行動、報酬分配量の3つを蓄積しておくこととする。こうすることで、メモリに蓄積したデータからランダムにとり出してミニバッチを生成することが可能となり、学習の際に何度もデータを利用することが可能になる。

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ