神経修飾物質系に対応づけた強化学習パラメータの制御法  [in Japanese] A Parameter Control Method Inspired from Neuromodulators in Reinforcement Learning  [in Japanese]

Search this Article

Author(s)

    • 水野 純也 MIZUNO Junya
    • 豊橋技術科学大学 知識情報工学系 Department of Knowledge-based Information Engineering, Toyohashi University of Technology
    • 村越 一支 MURAKOSHI Kazushi
    • 豊橋技術科学大学 知識情報工学系 Department of Knowledge-based Information Engineering, Toyohashi University of Technology

Abstract

自然界における生体の脳は,報酬を得て罰から逃れるような適切な行動を,試行錯誤によって獲得する.強化学習は,このシステムを工学的に模倣した学習システムの枠組といえる.強化学習内で用いられる制御パラメータは,脳内に広く投射して各脳部位の機能の調整にかかわる神経修飾物質系と対応づけることができる.本研究では,神経修飾物質系の分泌が行動にどのような影響を与えるかを考慮し,環境の急激な変化に追従できる強化学習アルゴリズムを提案する.これまで得られていた報酬が減少した場合に,強化学習内で用いられる制御パラメータをうまく制御することで行動を素早く改善していく方法である.提案するアルゴリズムを実際に学習問題に適用した結果,突然の環境変化に柔軟に対応させることができた.

The brain gains appropriate behaviors which gets rewards and escapes punishments by trial and error. Reinforcement learning models such a nature's system by an engineering approach. Neuromodulators, which projects widely in brain and adjusts functions in each brain part, are matched with internal parameters of reinforcement learning. We propose a reinforcement learning algorithm which can follow sudden changes in environment by considering how neuromodulators affect behaviors. This method improves actions by controlling the internal parameters of reinforcement learning after the obtained reward decreased as compared with the past. We actually applied this algorithm to learning problems, with the result that it followed sudden changes in environment.

Journal

  • IEICE technical report. Neurocomputing

    IEICE technical report. Neurocomputing 102(508), 83-88, 2002-12-06

    The Institute of Electronics, Information and Communication Engineers

References:  11

Cited by:  2

Codes

  • NII Article ID (NAID)
    110003232250
  • NII NACSIS-CAT ID (NCID)
    AN10091178
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    09135685
  • NDL Article ID
    6434939
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top