学習進度を反映した割引率の調整 Adjustment of Discount Rate Using Index for Progress of Learning

    • 尾川 順子 OGAWA Naoko
    • 東京大学大学院情報理工学系研究科 Graduate School of Information Science and Technology, Univ. of Tokyo
    • 並木 明夫 NAMIKI Akio
    • 科学技術振興事業団戦略的基礎推進事業:東京大学大学院情報理工学系研究科 CREST, JST:Graduate School of Information Science and Technology, Univ. of Tokyo

抄録

強化学習における割引率を学習進度によって調整することの有用性を示す.学習進度が浅いときには割引率を下げて即時報酬を重視し,学習が進むにつれて次第に割引率を大きくして,将来の報酬も考慮していくという戦略を提案する.また,学習進度の調整法として,指数的調整,TD誤差による調整,信頼度による調整を提案する.これをwindy gridworld 課題により検証する.

We show that it can be effective to adjust the discount rate using an index for progress of learning. In the strategy that we propose, the discount rate is small when the learning does not progress enough, and is increased as the learning advances. We also propose three methods for its adjustment ; exponential, by TD error, and by reliability, which are verificated by numerical experiments for a windy gridworld task.

収録刊行物

電子情報通信学会技術研究報告. NC, ニューロコンピューティング   [巻号一覧]

電子情報通信学会技術研究報告. NC, ニューロコンピューティング 102(628), 73-78, 2003-01-28  [この号の目次]

社団法人電子情報通信学会

参考文献:  17件

参考文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

被引用文献:  7件

被引用文献を見るにはログインが必要です。ユーザIDをお持ちでない方は新規登録してください。

プレビュー

プレビュー

各種コード

  • NII論文ID(NAID) :
    110003232277
  • NII書誌ID(NCID) :
    AN10091178
  • 本文言語コード :
    JPN
  • 資料種別 :
    ART
  • ISSN :
    09135685
  • NDL 記事登録ID :
    6505500
  • NDL 雑誌分類 :
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号 :
    Z16-940
  • 収録DB :
    CJP書誌  CJP引用  NDL  NII-ELS 

書き出し