変分ベイズ法による自然方策勾配の推定法 Variational Bayesian method for estimating natural policy gradient

この論文をさがす

著者

抄録

自然方策勾配法は, 従来の方策勾配法に見られるような, 方策パラメータ空間の構造に依存して生じる学習の停滞を回避し, より効率的に方策を改善する手法として近年注目されている.しかしながら, 従来研究において提案されている最小二乗法に基づく自然方策勾配の推定法では, 現在の方策に基づいて得られたサンプルデータセットが不十分である場合には, 推定される解の一意性が保証されないため, 勾配の推定が困難となる.本報告で提案する変分ベイズ法に基づく自然方策勾配の推定手法では, スパース事前分布を自然方策勾配及び状態価値関数の関数近似重みの事前分布として導入し, その分散パラメータもサンプルデータから同時に推定する.これにより, 推定結果に影響を及ぼさない基底は自動的に淘汰されるため, 最小二乗法では解の推定が困難なサンプルデータセットを用いた場合にも, 可能な範囲での方策勾配及び状態価値関数を推定することができる.簡単な物理系に対して適用し, 従来手法との性能比較を行うことにより, 提案手法の有効性を検証する。

Recently, natural policy gradient methods have been drawing much attention as a method for improving a policy in reinforcement learning tasks. Learning with natural policy gradient methods can be much more efficient compared to ordinary policy gradient methods because natural gradient represents the steepest gradient direction in the policy parameter space with any underlying structure. However, when the data set sampled from the current policy is insufficient, a least squares based method proposed in a previous study cannot obtain a unique solution. In this paper, we propose an algorithm to estimate natural policy gradient based on a variational Bayesian method to avoid such an ill-posed problem. In the proposed algorithm. we introduce sparse prior distributions as priors for natural policy gradient and the weights of the function approximator for the value function, and also estimate the variance parameters of these sparse prior distributions from the sampled data. Thus, we can estimate the best possible natural policy gradient and value function even from the limited data set because in the proposed method. the basis functions which do not effectively explain the data will be automatically identified by the estimated variance parameters. We demonstrate that the proposed method achieves better performance in a reinforcement learning task of stabilizing an inverted pendulum, as an example. in comparison to the previous least squares based method.

収録刊行物

  • 電子情報通信学会技術研究報告. NC, ニューロコンピューティング

    電子情報通信学会技術研究報告. NC, ニューロコンピューティング 105(342), 37-42, 2005-10-18

    一般社団法人電子情報通信学会

参考文献:  22件中 1-22件 を表示

各種コード

  • NII論文ID(NAID)
    110003496679
  • NII書誌ID(NCID)
    AN10091178
  • 本文言語コード
    JPN
  • 資料種別
    ART
  • ISSN
    09135685
  • NDL 記事登録ID
    7702059
  • NDL 雑誌分類
    ZN33(科学技術--電気工学・電気機械工業--電子工学・電気通信)
  • NDL 請求記号
    Z16-940
  • データ提供元
    CJP書誌  NDL  NII-ELS 
ページトップへ