モンテカルロ将棋における方策の学習

書誌事項

タイトル別名
  • Learning Policy in Monte-Carlo Shogi

抄録

近年,特に UCT の登場以降,囲碁においてモンテカルロ法を用いた強いコンピュータプレイヤが作られている.こうした成功を受け,将棋においてもモンテカルロ法の適用が模索されている.本稿では,モンテカルロ将棋における方策学習への,Simulation Balancing の適用を提案する.1800 局面程度で学習し予備的評価を行ったが,利用した特徴数が多く学習前よりも弱くなるという結果となった.

Since the advent of UCT, strong computer players using Monte-Carlo Methods have been build for the game of Go. Following these attainments, schemes to apply the method to the game of Shogi have been explored. In this paper, we propose to apply Simulation Balancing to the studying policy of Monte-Carlo Shogi players. We learn by this method in about 1800 positions and did a preliminary evaluation. However, the number of used features was too large, and the player became weaker than before learning.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1050011097126179328
  • NII論文ID
    170000067775
  • Web Site
    http://id.nii.ac.jp/1001/00078263/
  • 本文言語コード
    ja
  • 資料種別
    conference paper
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ