Application of Deep Q Network in Werewolf Game Agents

Bibliographic Information

Other Title
  • 人狼エージェントにおける深層Qネットワークの応用

Description

人狼ゲームとは,不完全情報ゲームの一種である.人狼ゲームをプレイするエージェントは,主に2 つの問題に対応する必要がある.本研究では,一つは「投票や特殊能力の対象選択」の問題であり,もう一つは「情報交換」の問題である.本論文は前者の問題に注目する.一つ目の問題に於いて,エージェントは「どのプレイヤに投票するか」,「どのプレイヤに特殊能力を使うか」を決める.我々は人狼エージェントに深層Q ネットワークの技術を応用する.それに,Q学習を応用した既存エージェントに基づいて新しい状態表現と行動表現を提案する.提案したエージェントは既存のQ学習エージェント,人狼知能大会に参加したエージェントと性能を比較して評価する.実験では393個ニューロン(執筆時点まで人狼ゲームエージェントに応用したQネットワークの最大ニューロン数である)のQネットワークを持つエージェントを50万回のゲームで学習させた結果を評価した.実験結果によると,同じ対戦環境において,提案したエージェントは,Q学習を応用したエージェントと一部の人狼知能大会参加プログラムより勝率が高いと評価された.「投票や特殊能力の対象選択問題」に対して,ヒューリスティックスな手法を使わず,学習手法のみを利用して有意義な結果を得られた.

Werewolf, also known as Mafia, is a kind of game with imperfect information. Werewolf game agents must cope with two kinds of problems, "decision on who to trust or to kill", and "decision on information exchange". In this paper, we focus on the first problem. In the first problem, players decide to select a target to trust or to kill. We consider werewolf game as a Markov decision process and propose a method to use techniques in deep Q network to build werewolf agents. We proposed new representation of states and actions based on existing agents trained by Q learning method. Our proposed agents were compared with existing agents trained by Q learning method and with existing agents submitted to the AIWolf Contest, the most famous werewolf game agents contest in Japan. In our experiment, we evaluate our agent with Q network of 393 neurons (Q network with most neurons in werewolf agents until we write this paper) after learning for 500000 games. Experimental results showed that, when agents learned and played with same group of players, our proposed agents have better player performances than existing agents trained by Q learning method and a part of agents submitted to the AIWolf Contest. We obtained promising results by using reinforcement learning method to solve "decision on who to trust or to kill" problem without using heuristic methods.

Journal

Details 詳細情報について

Report a problem

Back to top