内部報酬とHybrid Reward Architectureを用いたローグライクゲームの強化学習


  • Deep Reinforcement Learning of Roguelike Games Using Internal Rewards and Hybrid Reward Architecture


近年,深層学習と強化学習を組み合わせた深層強化学習を用いたゲームAI の研究が盛んに行われているが,複雑な状態を取るようなゲーム環境を扱う強化学習は,学習が遅く安定しない傾向にある.このようなゲームの一つに,コンピュータRPG の一種であるローグライクゲーム(Rogue-like games) がある.世界での人気が非常に高いゲームであり,難易度の高いものが多く,プレイングに高度に知的な能力を要求される.そのため,当然このゲームのAI に求められる能力も高度なものになり,学習は容易ではない.本研究の目的は,このローグライクゲームを対象とした強化学習を行い,ゲームを自動攻略できるようなAI を作ることである.強化学習の効率化・安定化を実現するためのアプローチとして,本研究では,強化学習における「報酬」の部分に着目した手法を用いる.本稿では,簡単なローグライクゲームの環境を用意し,強化学習のアルゴリズムであるA3C に,内部報酬を生成するICM を組み合せた学習を行い,ICM が学習に与える効果を検証した.

In recent years, research on game AI using deep reinforcement learning that combines deep learning and reinforcement learning has been actively conducted. However, reinforcement learning dealing with a complex game environment tends to be slow and unstable. One such game is Rogue-like games, a type of computer RPG. It is a game with a very high popularity in the world, many of them have high difficulty, and highly intelligent ability is required for playing. Therefore, the ability required for the AI of this game naturally becomes sophisticated, it is not easy to learn it. The purpose of this research is to learn for this roguelike game and make AI that can capture the game automatically. As an approach to realize efficiency and stabilization of reinforcement learning, this research focuses on the "reward" part of reinforcement learning. In this paper, we prepare an environment of simple and easy roguelike games, and conducted reinforcement learning by combining ICM generating internal compensation to A3C. Then, we verified the effect.


