選択的不感化ニューラルネットを用いた強化学習の価値関数近似  [in Japanese] Value Function Approximation in Reinforcement Learning Using Selective Desensitization Neural Networks  [in Japanese]

Search this Article

Author(s)

    • 新保 智之 SHIMBO Tomoyuki
    • 筑波大学大学院システム情報工学研究科 Graduate School of Systems and Information Engineering, University of Tsukuba
    • 山根 健 YAMANE Ken
    • 筑波大学大学院システム情報工学研究科 Graduate School of Systems and Information Engineering, University of Tsukuba
    • 森田 昌彦 MORITA Masahiko
    • 筑波大学大学院システム情報工学研究科 Graduate School of Systems and Information Engineering, University of Tsukuba

Abstract

連続状態空間で強化学習を行う場合,価値関数を少ないサンプルで精度良く近似することが重要であるが,従来用いられてきた局所的近似手法は,近似精度と学習効率の両立が困難である上に,状態空間の次元が高くなると学習時間や計算コストが爆発的に増大するという問題を抱えている.本研究では,選択的不感化ニューラルネットを用いて関数近似器を構成するとともに,これによって価値関数を近似することでこの問題が大きく改善できることを示す.アクロボットの振り上げ課題を用いた実験の結果,本手法は学習効率が近似精度の割に高く,冗長変数を加えてもほとんど低下しない,状態空間の次元が増えても計算コストの爆発的増加が生じない,オンライン学習が可能など,実空間における強化学習に適した性質を備えることが分かった.この結果は,膨大な情報の中から必要な情報だけを抽出する情報処理技術の開発にもつながると考えられる.

Journal

  • The IEICE transactions on information and systems

    The IEICE transactions on information and systems 93(6), 837-847, 2010-06-01

    The Institute of Electronics, Information and Communication Engineers

References:  15

Cited by:  3

Codes

  • NII Article ID (NAID)
    110007618357
  • NII NACSIS-CAT ID (NCID)
    AA12099634
  • Text Lang
    JPN
  • Article Type
    Journal Article
  • ISSN
    18804535
  • NDL Article ID
    10727497
  • NDL Source Classification
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL Call No.
    Z16-779
  • Data Source
    CJP  CJPref  NDL  NII-ELS 
Page Top