処理時間の長短を考慮した確率的多腕バンディット問題へのUCB戦略の拡張

書誌事項

タイトル別名
  • An Extension of UCB to the Stochastic Multi-armed Bandits with Action-dependent Processing Time
  • ショリ ジカン ノ チョウタン オ コウリョ シタ カクリツテキ タワン バンディット モンダイ エ ノ UCB センリャク ノ カクチョウ

この論文をさがす

抄録

<p>Stochastic K-armed bandits tries to maximize his cumulative reward in limited number of plays. In this paper, we consider the variant of stochastic K-armed bandits that has action-dependent processing time. For this problem, we propose the policy N-UCB (Normalized UCB), the extension of well-known policy UCB, and shows some fundamental results of its regret analysis.</p>

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ