畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用
この論文をさがす
説明
本研究では、畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用を提案する。Profit Sharingにおける行動価値を学習する場合には、Deep Q NetworkにおけるExperience Replayをそのまま利用することはできない。Profit Sharingにおける行動価値を学習する際の誤差関数では報酬分配量が教師信号として用いられるため、メモリに観測、行動、報酬分配量の3つを蓄積しておくこととする。こうすることで、メモリに蓄積したデータからランダムにとり出してミニバッチを生成することが可能となり、学習の際に何度もデータを利用することが可能になる。
収録刊行物
-
- 第85回全国大会講演論文集
-
第85回全国大会講演論文集 2023 (1), 855-856, 2023-02-16
情報処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1050579753470361344
-
- NII書誌ID
- AN00349328
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB