囲碁AIで使う補正ありUCBアルゴリズムの性能改善
Bibliographic Information
- Other Title
-
- An Improved Algorithm for Go Program with Adjusted UCB Value
Abstract
近年多くの囲碁プログラムはUCT(UCB for Tree)を使っているが、UCB1 値の代わりにRave などの実用上の補正ありアルゴリズムを利用する囲碁プログラムは少なくない。元々UCB は多腕バンディット問題から出た解決法であり、Regret という指標が重視されている。解決法の中にKLUCB アルゴリズムはKL 情報量から、Regret 理論的な下限を満たしている。PGAME などの実験で、実際にRegret 減少に有効だということが証明された。本研究ではKLUCB 法で補正ありUCB アルゴリズムを改良し、UCTでよりRegret の小さいUCB 値を求めることによって、囲碁AI 性能とRegret の関係を議論する。
Most of the recent Go computer programs use Monto-Carlo Tree Search(UCT), but many of those programs actually use adjusted UCB value like Rave instead of UCB1 value. As a solution of the multi-armed bandit problem, "Regret" is very important to performance evaluation of a ucb algorism. KLUCB algorithm achieved the lower bound of "Regret", by using Kullback-Leibler divergence. In experiments such as the PGAME, it's actually effective to reduce the Regret. By improving the adjusted ucb algorisom with KLUCB,in this paper we discussed relationship between the AI performance of GO and the "Regret".
Journal
-
- ゲームプログラミングワークショップ2014論文集
-
ゲームプログラミングワークショップ2014論文集 2014 171-173, 2014-10-31
- Tweet
Details 詳細情報について
-
- CRID
- 1050292572137002624
-
- NII Article ID
- 170000087237
-
- Web Site
- http://id.nii.ac.jp/1001/00106494/
-
- Text Lang
- ja
-
- Article Type
- conference paper
-
- Data Source
-
- IRDB
- CiNii Articles