Application of the policy gradient method to 2048

Bibliographic Information

Other Title
  • 2048 への方策勾配法の適用

Description

本稿では 2048 という確率的ゲームを題材に強化学習における方策勾配法の性能について研究する. 強化学習はエージェントが与えられた環境において試行錯誤を通じて最適な方策を学習するための手法である. 強化学習には大きく分けて状態や行動の価値関数を学習することで最適な方策を見つける手法と, 方策勾配定理に従って直接方策を改善していく手法の 2 つがある. 2048 においては Szubert らがTD-AFTERSTATE 学習を提案して以来, 主に前者のアプローチを主流としてハイスコアが更新されてきた. 本研究では方策勾配法による方策の学習が 2048 においても可能であることを示す. さらにエージェントに与える報酬は専らゲームスコアが使われてきたが, より長くエピソードが続くことを期待して 1 ステップごとに+1 としても同等以上の成果が得られることを示す.

This paper studies the effectiveness of policy gradient methods on a stochastic game 2048. Reinforcement learning is a method in which an agent learns an optimal policy through trial and error in a given environment. There are mainly two ways in reinforcement learning to find an optimal policy: one is by learning state or action value functions, and the other is by directly improving its policy according to the policy gradient theorem. In 2048, the high scores achieved by AI agents have been updated mostly with the former approach since Szubert presented TD-AFTERSTATE learning. In this paper, we show that an agent can learn its policy by policy gradient method too. Also, games scores have been used exclusively as the reward to train agents until now. However, we show that the same or better results can be obtained if the agent is given +1 reward for each step so that an agent prefers longer episodes more.

Journal

Details 詳細情報について

Report a problem

Back to top