選択的不感化ニューラルネットを用いた連続状態行動空間におけるQ学習  [in Japanese] Q-learning in Continuous State-Action Space by Using a Selective Desensitization Neural Network  [in Japanese]

Search this Article

Author(s)

    • 小林 高彰 KOBAYASHI Takaaki
    • 筑波大学大学院 システム情報工学研究科 Graduate School of System and Information Engineering, University of Tsukuba
    • 澁谷 長史 SHIBUYA Takeshi
    • 筑波大学大学院 システム情報工学研究科 Graduate School of System and Information Engineering, University of Tsukuba
    • 森田 昌彦 MORITA Masahiko
    • 筑波大学大学院 システム情報工学研究科 Graduate School of System and Information Engineering, University of Tsukuba

Abstract

状態空間だけでなく行動空間も連続である場合にQ学習を適用する際には,価値関数の近似が必要となるが,RBFNのような既存の近似手法を用いると,学習に非常に時間がかかるだけでなく,最適行動を選択するのに必要な計算量が大きく増加してしまう.本報告では,選択的不感化ニューラルネット(SDNN)を近似器として用い,出力層の表現を工夫することによって,行動の連続化に伴う学習効率の低下や計算コストの増加を抑えることを目指す.アクロボットの振り上げ課題に関して数値実験を行ったところ,計算量の増加は抑えられ,また従来のSDNNを用いた場合と比べて,学習効率が向上することがわかった.

Value function approximation takes an important role for reinforcement learning in continuous state-action space. Conventional methods such as radial basis function networks need considerable amount of computation in its learning as well as optimal action selection. This paper proposes a novel representation of the output layer of selective desensitization neural networks. By using the method, the efficiency of learning is increased and amount of computation is decreased. The effectiveness of proposed method is confirmed through computer simulation experiments using acrobot.

Journal

  • IEICE technical report

    IEICE technical report 111(96), 119-123, 2011-06-16

    The Institute of Electronics, Information and Communication Engineers

References:  7

Codes

  • NII Article ID (NAID)
    110008746501
  • NII NACSIS-CAT ID (NCID)
    AN10091178
  • Text Lang
    JPN
  • Article Type
    ART
  • ISSN
    09135685
  • NDL Article ID
    11160720
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-940
  • Data Source
    CJP  NDL  NII-ELS 
Page Top