適応的な状態分割を行うQ -Learningにおける状態数の調整方法 An Adjustment Method of the Number of States on Q-Learning Segmenting State Space Adaptively

この論文をさがす

著者

抄録

本論文は,強化学習の代表的な手法であるQ-learningにおいて,学習エージェントが自律的に環境の状態を分節化する手法に,状態数の抑制と,状態分割の促進を加えた場合の効果について述べる.学習エージェントが行動する環境に対し,エージェントの設計者が明示的な状態の境界を与えられない場合,エージェントは学習と同時に,適切な行動に必要な内部離散状態を自律的に獲得する必要がある.この種の方法として,強化信号をもとに状態を分割する簡便な手法(QLASS)が提案されている.しかし,従来の方法は,学習の進行とともに状態数が増えすぎるという問題があった.本論文では,エージェントの各内部離散状態に対し,温度と適格度を定義し,これらの値に応じて,内部離散状態数の抑制,追加,及びランダム行動を促す方法を提案する.本方法を動的な環境を含むいくつかのタスクに用いた結果,強化信号のみを用いる場合に比べて,少ない状態数で同等の学習結果が得られること,また,少ない試行数の学習でも,少ステップでのタスク達成が実現できることが明らかとなった.

収録刊行物

  • 電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 = The transactions of the Institute of Electronics, Information and Communication Engineers. D-I

    電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 = The transactions of the Institute of Electronics, Information and Communication Engineers. D-I 86(7), 490-499, 2003-07-01

    一般社団法人電子情報通信学会

参考文献:  12件中 1-12件 を表示

被引用文献:  3件中 1-3件 を表示

各種コード

  • NII論文ID(NAID)
    110003171251
  • NII書誌ID(NCID)
    AA11341020
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    09151915
  • NDL 記事登録ID
    6634111
  • NDL 雑誌分類
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号
    Z16-779
  • データ提供元
    CJP書誌  CJP引用  NDL  NII-ELS 
ページトップへ