コンピュータ囲碁におけるマルチタスク学習を用いた強化学習の検討

書誌事項

タイトル別名
  • Study of reinforcement using multi-task learning in computer Go

抄録

近年,機械学習を用いた囲碁プログラムの棋力が向上している.2017 年,AlphaGo Zero がAlphaGo のニューラルネットワークであるバリューネットワークとポリシーネットワークを統合するという,マルチタスク学習に基づくデュアルネットワークを用い,AlphaGo の棋力を超えた.筆者らはマルチタスク学習をさらに積極的に実施することにより,強化学習をより効率的に実施できる余地があると考える.そこで,本稿では,AlphaGo Zero 等で採用されているデュアルネットワークに,マルチタスク学習としてさらに二手先の手の着手確率を出力として追加したネットワークモデルを提案する.結果として提案した手法に棋力が向上する可能性がある事を確認できた.

In recent years, the proficiency of Go programs using machine learning has improved. In 2017, AlphaGo Zero surpassed AlphaGo’s ability by using a dual network based on multitask learning, which integrates AlphaGo’s neural network value network and policy network. We believe that there is room for more efficient implementation of reinforcement learning by actively implementing multitask learning. Therefore, in this paper, we propose a network model that adds the probability of two moves ahead as an output to the dual network adopted in AlphaGo Zero etc. as multitask learning. As a result, we were able to confirm that there is a possibility that the pro- posed method can improve shogi skill.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ