植野 剛 UENO Tsuyoshi

ID:9000006381265

京都大学大学院情報学研究科 Graduate School of Informatics, Kyoto University (2010年 CiNii収録論文より)

Search authors sharing the same name

Articles:  1-3 of 3

  • Generalization of TD-learning from a Semiparametric Statistical Viewpoint

    UENO Tsuyoshi , MAEDA Shin-ichi , KAWANABU MOTOAKI , ISHII Shin

    本研究では,セミパメトリック強化学習の枠組みをモデルフリー方策評価におけるオンライン学習に拡張する.この拡張により,これまでに開発された方策評価手法を一般化することができ,バッチ,オンライン両方における価値関数推定の統計的性質を,推定関数を通して統合的に解析することができる.また解析をもとに,漸近的に最小推定誤差を実現するオンライン学習アルゴリズムを提案する.

    IEICE technical report 110(76), 129-136, 2010-06-07

    References (22)

  • Semiparametric Statistics Approach to Value Function Estimation  [in Japanese]

    UENO Tsuyoshi , KAWANABE Motoaki , MORI Takeshi , MAEDA Shin-ichi , ISHII Shin

    Least squares temporal difference(LSTD)に基づく価値関数推定法が開発され,実問題で良い性能を示している.しかしながら,LSTDによる推定量の統計的性質は明らかにされていない.本研究では,LSTD法に基づくモデルフリー型方策評価法をセミパラメトリック統計学の観点から議論する.セミパラメトリック推定では,真の価値関数を表現できるパラメトリックモデルが与えられている …

    IEICE technical report 108(480), 255-260, 2009-03-04

    References (18)

  • Learning of a robust controller for a biped robot based on a sample-reuse reinforcement learning method  [in Japanese]

    UENO Tsuyoshi , NAKAMURA Yutaka , TAKUMA Takashi , SHIBATA Tomohiro , HOSODA Koh , ISHII Shin

    近年,エネルギー効率が良く,人の歩容に似ている準受動歩行が注目されている.準受動歩行の制御器の設計は,ロボットの物理パラメータおよびに環境の変化に敏感であるため,制御パラメータの自動調節が望まれる.強化学習は環境に適応するための学習法の1つであり,シミュレーション実験で,準受動歩行に強化学習を適用した研究が知られている.しかし,既存手法を実機のロボットに適用すると,学習速度が遅いためロボットが適切 …

    IEICE technical report 106(588), 197-202, 2007-03-07

    References (12)

Page Top