畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用
Search this article
Description
本研究では、畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用を提案する。Profit Sharingにおける行動価値を学習する場合には、Deep Q NetworkにおけるExperience Replayをそのまま利用することはできない。Profit Sharingにおける行動価値を学習する際の誤差関数では報酬分配量が教師信号として用いられるため、メモリに観測、行動、報酬分配量の3つを蓄積しておくこととする。こうすることで、メモリに蓄積したデータからランダムにとり出してミニバッチを生成することが可能となり、学習の際に何度もデータを利用することが可能になる。
Journal
-
- 第85回全国大会講演論文集
-
第85回全国大会講演論文集 2023 (1), 855-856, 2023-02-16
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1050579753470361344
-
- NII Book ID
- AN00349328
-
- Web Site
- http://id.nii.ac.jp/1001/00230103/
-
- Text Lang
- ja
-
- Article Type
- conference paper
-
- Data Source
-
- IRDB