囚人のジレンマゲームにおけるQ学習による協調の維持 How does Q-learning Maintain Cooperation in Prisoner's Dilemma Games?

Access this Article

Author(s)

Abstract

本稿ではマルチエージェント環境におけるQ学習を扱う.マルチエージェント環境におけるQ学習アルゴリズムは数多くのものが提案されているが,その多くは各エージェントの戦略をゲーム理論のナッシュ均衡に収束させることを目的とする.ところが, 囚人のジレンマゲーム(PD)のように,ナッシュ均衡が好ましくないゲームというものが存在する.一方で,通常のQ学習エージェントは,局所最適を回避するために行動選択を確率的に行うことが多いため,PDにおいても両者が「協調」を選択することがあり得る.そのような相互協調は単発に終わることが予想されるが,それにより「協調」のQ関数が「裏切り」のものより大きくなれば,協調関係が維持され得る.そこで本稿では,PDにおいて,Q学習エージェントの「協調」のQ関数が「裏切り」のものよりも大きくなるための相互協調の回数についての定理を導出する.さらに,エージェントが独自の効用を生成して強化学習を行うという筆者のこれまでの研究の観点から,1回の相互協調で協調関係が維持可能となるための効用生成法を提示する.

This work deals with Q-learning in a multiagent environment. There are many multiagent Q-learning methods, and most of them aim to converge to a Nash equilibrium, which is not desirable in games like the Prisoner's Dilemma (PD). However, normal Q-learning agents that use a stochastic method in choosing actions to avoid local optima may bring mutual cooperation in PD. Although such mutual cooperation usually occurs singly, it can be maintained if the Q-function of cooperation becomes larger than that of defection after the cooperation. This work derives a theorem on how many times the cooperation is needed to make the Q-function of cooperation larger than that of defection. In addition, from the perspective of the author's previous works that discriminate utilities from rewards and use utilities for learning in PD, this work also derives a corollary on how much utility is necessary to make the Q-function larger by one-shot mutual cooperation.

Journal

  • Computer Software

    Computer Software 25(4), 145-153, 2008

    Japan Society for Software Science and Technology

Codes

Page Top