囲碁AIで使う補正ありUCBアルゴリズムの性能改善

Bibliographic Information

Other Title
  • An Improved Algorithm for Go Program with Adjusted UCB Value

Abstract

近年多くの囲碁プログラムはUCT(UCB for Tree)を使っているが、UCB1 値の代わりにRave などの実用上の補正ありアルゴリズムを利用する囲碁プログラムは少なくない。元々UCB は多腕バンディット問題から出た解決法であり、Regret という指標が重視されている。解決法の中にKLUCB アルゴリズムはKL 情報量から、Regret 理論的な下限を満たしている。PGAME などの実験で、実際にRegret 減少に有効だということが証明された。本研究ではKLUCB 法で補正ありUCB アルゴリズムを改良し、UCTでよりRegret の小さいUCB 値を求めることによって、囲碁AI 性能とRegret の関係を議論する。

Most of the recent Go computer programs use Monto-Carlo Tree Search(UCT), but many of those programs actually use adjusted UCB value like Rave instead of UCB1 value. As a solution of the multi-armed bandit problem, "Regret" is very important to performance evaluation of a ucb algorism. KLUCB algorithm achieved the lower bound of "Regret", by using Kullback-Leibler divergence. In experiments such as the PGAME, it's actually effective to reduce the Regret. By improving the adjusted ucb algorisom with KLUCB,in this paper we discussed relationship between the AI performance of GO and the "Regret".

Journal

Details 詳細情報について

  • CRID
    1050292572137002624
  • NII Article ID
    170000087237
  • Web Site
    http://id.nii.ac.jp/1001/00106494/
  • Text Lang
    ja
  • Article Type
    conference paper
  • Data Source
    • IRDB
    • CiNii Articles

Report a problem

Back to top