順列バンディット問題における新しいUCB型アルゴリズム(一般)

書誌事項

タイトル別名
  • A New UCB-based Algorithm for the Matching-Selection Multi-armed Bandit Problem

この論文をさがす

抄録

順列バンディット問題とは組み合わせ的多腕バンディット問題の一種で,N個のものからM個取り出し並べる順列を選択するバンディット問題である.この問題に対するUCB型アルゴリズムとして,MLPSやLLRといった多項式空間計算量アルゴリズムが考えられている.本稿では,選択指標の不信頼度を示す値として報酬の推定値のもつ標準偏差に近い値を用いるアルゴリズムPLSDを提案する,MLPSやLLRより低い期待リグレットの上界を理論的に示すとともに,人工データや実データを用いた計算機シミュレーションにより有効性の検証を行った.

収録刊行物

詳細情報 詳細情報について

  • CRID
    1571417127835203072
  • NII論文ID
    110009820593
  • NII書誌ID
    AN10013152
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ