処理時間の長短を考慮した確率的多腕バンディット問題へのUCB戦略の拡張

渡辺 僚, 中村 篤祥, 工藤 峰一

doi:10.11517/jsaifpai.96.0_06

書誌事項

タイトル別名

An Extension of UCB to the Stochastic Multi-armed Bandits with Action-dependent Processing Time
ショリジカンノチョウタンオコウリョシタカクリツテキタワンバンディットモンダイエノ UCB センリャクノカクチョウ

この論文をさがす

抄録

<p>Stochastic K-armed bandits tries to maximize his cumulative reward in limited number of plays. In this paper, we consider the variant of stochastic K-armed bandits that has action-dependent processing time. For this problem, we propose the policy N-UCB (Normalized UCB), the extension of well-known policy UCB, and shows some fundamental results of its regret analysis.</p>

収録刊行物

人工知能学会研究会資料人工知能基本問題研究会

人工知能学会研究会資料人工知能基本問題研究会 96 (0), 06-, 2015-01-07

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390007072284255616

NII論文ID: 40020323094; 130008061509

NII書誌ID: AA11977943

DOI: 10.11517/jsaifpai.96.0_06

ISSN: 24364584

NDL書誌ID: 026026652

Web Site: https://ndlsearch.ndl.go.jp/books/R000000004-I026026652

本文言語コード: ja

データソース種別

JaLC
NDL
CiNii Articles

抄録ライセンスフラグ: 使用可

処理時間の長短を考慮した確率的多腕バンディット問題へのUCB戦略の拡張

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

処理時間の長短を考慮した確率的多腕バンディット問題へのUCB戦略の拡張

書誌事項

この論文をさがす

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について