反応曲線が既知なロブ-パス問題の最適解

平岡 和幸, 吉澤 修治

doi:10.15807/jorsj.41.509

書誌事項

タイトル別名

THE OPTIMAL SOLUTION OF THE LOB-PASS PROBLEM WITH KNOWN REACTION CURVES
ハンノウキョクセンガキチナロブパスモンダイノサイテキカイ

この論文をさがす

抄録

心理学において, 「慣れ」や「飽き」のように, 同じ選択を続けると効果が悪くなる現象を記述する, ロブ-パス問題と呼ばれるモデルがある. Abe and Takeuchiは, この問題をオンライン学習問題として定式化し, それがmulti-armed bandit問題の拡張とみなせる事を指摘した. 古典的なbandit問題との違いは, プレイヤーの選択が環境自体に影響を与え, 環境を変化させてしまうという点にある. 学習問題としてのロブ-パス問題に対してこれまでに提案された戦略は, すべて基本的に, 「未知環境からの反応をもとに, その環境に対する最適"定常"戦略を推定し, その戦略に従って選択肢を選ぶ」ということを繰り返すものである. また, 戦略の評価には, 環境が既知だった場合の最適"定常"戦略と比較して, 実際には環境が未知な事によるロスが, どの程度におさまるかを基準としている. このような方針が妥当かどうかを判断するためには, 環境が既知だった場合の(定常とは限らない)最適戦略を知っておく必要がある. 本論文はこれを導出する. その系として, 従来研究で仮定されていた「マッチング条件」が, 最適戦略が打ち切り時刻によらないための必要十分条件となっている事を指摘する. これにより, 目標として"定常"戦略のみを考えることの正当性が保証されることになる. マッチング条件自体の意味や妥当性に関する議論も行う. さらに, 漸近最適性を定義し, 忘却ありの相手なら定常戦略が漸近最適となるが, 忘却なしなら漸近最適戦略は存在しない事を示す.

収録刊行物

日本オペレーションズ・リサーチ学会論文誌

日本オペレーションズ・リサーチ学会論文誌 41 (4), 509-530, 1998

公益社団法人日本オペレーションズ・リサーチ学会

詳細情報詳細情報について

CRID: 1390282679085866240

NII論文ID: 110001183856

NII書誌ID: AA00703935

DOI: 10.15807/jorsj.41.509

ISSN: 21888299; 04534514

NDL書誌ID: 4625500

Web Site: https://ndlsearch.ndl.go.jp/books/R000000004-I4625500; https://www.jstage.jst.go.jp/article/jorsj/41/4/41_KJ00001201878/_pdf

本文言語コード: ja

データソース種別

JaLC
NDL
Crossref
CiNii Articles

抄録ライセンスフラグ: 使用不可

反応曲線が既知なロブ-パス問題の最適解

書誌事項

この論文をさがす

抄録

収録刊行物

参考文献 (11)*注記

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

反応曲線が既知なロブ-パス問題の最適解

書誌事項

この論文をさがす

抄録

収録刊行物

参考文献 (11)*注記

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について