MuZeroへの内部報酬の導入による探索の効率化

この論文をさがす

抄録

Alpha Goでは、ゲーム木探索としてモンテカルロ木探索を行い、その結果を学習することで囲碁の対戦でプロ棋士に勝利することに成功している。さらに、Alpha Goの後継手法であるAlpha Zeroに深層学習を導入することで、囲碁などのボードゲームだけでなくビデオゲームにも対応したMuZeroが提案されている。一方で、Deep Q-Networkを改良したNGU(Never Give Up)では、学習時に同じ状態を何度も訪れにくくなるように内部報酬を導入することで、より様々な状態への探索が促され、深層強化学習の課題であった報酬が疎な環境においても早い段階で学習を進行させることを可能にしている。そこで、本研究では、MuZeroにNGUで提案された内部報酬の考え方を導入することで探索の効率化を行い、報酬が疎な環境においても早い段階で学習を進められるようにすることを目指す。

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ