畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用

久保田, 英豊, 長名, 優子

説明

本研究では、畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用を提案する。Profit Sharingにおける行動価値を学習する場合には、Deep Q NetworkにおけるExperience Replayをそのまま利用することはできない。Profit Sharingにおける行動価値を学習する際の誤差関数では報酬分配量が教師信号として用いられるため、メモリに観測、行動、報酬分配量の3つを蓄積しておくこととする。こうすることで、メモリに蓄積したデータからランダムにとり出してミニバッチを生成することが可能となり、学習の際に何度もデータを利用することが可能になる。

収録刊行物

第85回全国大会講演論文集

第85回全国大会講演論文集 2023 (1), 855-856, 2023-02-16

情報処理学会

詳細情報詳細情報について

CRID: 1050579753470361344

NII書誌ID: AN00349328

Web Site: https://ipsj.ixsq.nii.ac.jp/records/230213

本文言語コード: ja

資料種別: conference paper

データソース種別

IRDB

書き出し

問題の指摘

畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用

この論文をさがす

説明

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用

この論文をさがす

説明

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について