順列バンディット問題における新しいUCB型アルゴリズム(一般)
書誌事項
- タイトル別名
-
- A New UCB-based Algorithm for the Matching-Selection Multi-armed Bandit Problem
この論文をさがす
抄録
順列バンディット問題とは組み合わせ的多腕バンディット問題の一種で,N個のものからM個取り出し並べる順列を選択するバンディット問題である.この問題に対するUCB型アルゴリズムとして,MLPSやLLRといった多項式空間計算量アルゴリズムが考えられている.本稿では,選択指標の不信頼度を示す値として報酬の推定値のもつ標準偏差に近い値を用いるアルゴリズムPLSDを提案する,MLPSやLLRより低い期待リグレットの上界を理論的に示すとともに,人工データや実データを用いた計算機シミュレーションにより有効性の検証を行った.
収録刊行物
-
- 電子情報通信学会技術研究報告. COMP, コンピュテーション
-
電子情報通信学会技術研究報告. COMP, コンピュテーション 113 (198), 9-16, 2013-08-27
一般社団法人電子情報通信学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1571417127835203072
-
- NII論文ID
- 110009820593
-
- NII書誌ID
- AN10013152
-
- 本文言語コード
- ja
-
- データソース種別
-
- CiNii Articles