囲碁における人間の着手を模倣するにはKataGoの HumanSLだけで十分か?

書誌事項

タイトル別名
  • Is KataGo HumanSL All You Need for Imitating Human Players' Moves in Go?

説明

人間プレイヤのゲームプレイを模倣することは,人間プレイヤを楽しませたり,教えたりする際の重要な要素の 1 つである.本稿では,囲碁を対象とし,教師あり学習(Supervised Learning, SL)に基づき,大量の人間プレイヤの棋譜を用いて学習された KataGo の HumanSL モデルについて調べる.具体的には, (1) 人間らしいゲームプレイを実現するために,教師あり学習モデルが予測した着手の選択確率分布をどのように利用すべきかを調査し, (2) HumanSL の人間らしさを評価し, (3) HumanSL の人間らしさをさらに改善する方法を提案する. (1) については,選択確率最大の着手を選ぶ方法や選択確率分布通りにサンプリングする方法がよく使われているが,我々の結果では,中間的なバージョンである softmaxのほうが,望ましい棋力を達成できることが示される. (2) については,着手一致率,尤度,直前手との距離といった指標を用いる. (3) については,直前手との距離による補正を選択確率を入れる.その結果,HumanSL の人間らしさが改善されていることを確認した.

Imitating human players' gameplay is one of the important factors when entertaining or teaching human players. In this paper, we target the game of Go and investigate KataGo’s HumanSL model, which was trained using plenty of human players’ game records based on supervised learning (SL). More specifically, we (1) investigate how the probability distributions over legal moves predicted by SL models should be used to achieve human-like gameplay, (2) evaluate the human-likeness of HumanSL, and (3) propose a method to further improve the human-likeness of HumanSL. Regarding (1), researchers often select the move with the highest selection probability or sample according to the probability distribution, while we find that an intermediate version, softmax, can better achieve the desired playing strength. Regarding (2), we employ the metrics of move-matching accuracy, likelihood, and distance to the previous move. Regarding (3), we adjust the selection probability of a move based on its distance to the previous move. We confirm that the human-likeness of HumanSL is improved.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ