書誌事項
- タイトル別名
-
- An Extension of UCB to the Stochastic Multi-armed Bandits with Action-dependent Processing Time
- ショリ ジカン ノ チョウタン オ コウリョ シタ カクリツテキ タワン バンディット モンダイ エ ノ UCB センリャク ノ カクチョウ
この論文をさがす
抄録
<p>Stochastic K-armed bandits tries to maximize his cumulative reward in limited number of plays. In this paper, we consider the variant of stochastic K-armed bandits that has action-dependent processing time. For this problem, we propose the policy N-UCB (Normalized UCB), the extension of well-known policy UCB, and shows some fundamental results of its regret analysis.</p>
収録刊行物
-
- 人工知能学会研究会資料 人工知能基本問題研究会
-
人工知能学会研究会資料 人工知能基本問題研究会 96 (0), 06-, 2015-01-07
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390007072284255616
-
- NII論文ID
- 40020323094
- 130008061509
-
- NII書誌ID
- AA11977943
-
- ISSN
- 24364584
-
- NDL書誌ID
- 026026652
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- NDL
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用可