モンテカルロ将棋における方策の学習
書誌事項
- タイトル別名
-
- Learning Policy in Monte-Carlo Shogi
抄録
近年,特に UCT の登場以降,囲碁においてモンテカルロ法を用いた強いコンピュータプレイヤが作られている.こうした成功を受け,将棋においてもモンテカルロ法の適用が模索されている.本稿では,モンテカルロ将棋における方策学習への,Simulation Balancing の適用を提案する.1800 局面程度で学習し予備的評価を行ったが,利用した特徴数が多く学習前よりも弱くなるという結果となった.
Since the advent of UCT, strong computer players using Monte-Carlo Methods have been build for the game of Go. Following these attainments, schemes to apply the method to the game of Shogi have been explored. In this paper, we propose to apply Simulation Balancing to the studying policy of Monte-Carlo Shogi players. We learn by this method in about 1800 positions and did a preliminary evaluation. However, the number of used features was too large, and the player became weaker than before learning.
収録刊行物
-
- ゲームプログラミングワークショップ2011論文集
-
ゲームプログラミングワークショップ2011論文集 2011 (6), 104-107, 2011-10-28
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050011097126179328
-
- NII論文ID
- 170000067775
-
- Web Site
- http://id.nii.ac.jp/1001/00078263/
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB
- CiNii Articles