部分観測マルコフ決定過程下での強化学習 : 確率的傾斜法による接近 Policy Improvement by Stochastic Gradient Ascent: A New Approach to Reinforcement Learning in POMDPs 部分観測マルコフ決定過程下での強化学習:確率的傾斜法による接近

この論文をさがす

著者

    • 木村, 元 キムラ, ハジメ

書誌事項

タイトル

部分観測マルコフ決定過程下での強化学習 : 確率的傾斜法による接近

タイトル別名

Policy Improvement by Stochastic Gradient Ascent: A New Approach to Reinforcement Learning in POMDPs

タイトル別名

部分観測マルコフ決定過程下での強化学習:確率的傾斜法による接近

著者名

木村, 元

著者別名

キムラ, ハジメ

学位授与大学

東京工業大学

取得学位

博士 (工学)

学位授与番号

甲第3551号

学位授与年月日

1997-03-26

注記・抄録

博士論文

目次

  1. 論文目録 / (0002.jp2)
  2. 目次 / p1 (0004.jp2)
  3. 第1章 はじめに / p3 (0006.jp2)
  4. 1.1 研究の背景 / p3 (0006.jp2)
  5. 1.2 研究の目的と方法 / p4 (0007.jp2)
  6. 1.3 論文の構成 / p5 (0008.jp2)
  7. 第2章 問題設定および接近法 / p6 (0009.jp2)
  8. 2.1 部分観測マルコフ決定過程(POMDPs) / p6 (0009.jp2)
  9. 2.2 従来の接近法と問題点 / p7 (0010.jp2)
  10. 2.3 強化学習エージェントの学習目標 / p9 (0012.jp2)
  11. 2.4 POMDPsにおける数学的性質 / p11 (0014.jp2)
  12. 第3章 政策の逐次改善アルゴリズム:確率的傾斜法の提案と解析 / p14 (0017.jp2)
  13. 3.1 アルゴリズムの提案 / p14 (0017.jp2)
  14. 3.2 アルゴリズムの解析 / p16 (0019.jp2)
  15. 3.3 アルゴリズムの動作例 / p18 (0021.jp2)
  16. 3.4 アルゴリズムの特徴のまとめ / p24 (0027.jp2)
  17. 第4章 ロボットアームの制御問題への適用 / p25 (0028.jp2)
  18. 4.1 ロボットアームの制御問題 / p25 (0028.jp2)
  19. 4.2 実験設定 / p29 (0032.jp2)
  20. 4.3 エージェントの実装 / p29 (0032.jp2)
  21. 4.4 実験結果 / p32 (0035.jp2)
  22. 4.5 考察 / p41 (0044.jp2)
  23. 第5章 結論 / p42 (0045.jp2)
  24. 5.1 研究成果のまとめ / p42 (0045.jp2)
  25. 5.2 今後の展望 / p43 (0046.jp2)
  26. 付録A 定理2の証明 / p44 (0047.jp2)
  27. 謝辞 / p52 (0055.jp2)
  28. 公表論文 / p53 (0056.jp2)
  29. 参考文献 / p54 (0057.jp2)
4アクセス

各種コード

  • NII論文ID(NAID)
    500000153753
  • NII著者ID(NRID)
    • 8000001092767
  • DOI(NDL)
  • 本文言語コード
    • jpn
  • NDL書誌ID
    • 000000318067
  • データ提供元
    • 機関リポジトリ
    • NDL ONLINE
    • NDLデジタルコレクション
ページトップへ