報酬変動型問題への強化学習の応用に関する研究

Search this Article

Author

    • 稲垣, 裕伸 イナガキ, ヒロノブ

Bibliographic Information

Title

報酬変動型問題への強化学習の応用に関する研究

Author

稲垣, 裕伸

Author(Another name)

イナガキ, ヒロノブ

University

室蘭工業大学

Types of degree

博士(工学)

Grant ID

甲第98号

Degree year

1999-03-19

Note and Description

博士論文

Table of Contents

  1. 目次 / p1 (0002.jp2)
  2. 1 はじめに / p1 (0005.jp2)
  3. 2 基本的な考え方 / p5 (0009.jp2)
  4. 2.1 エージェントについて / p5 (0009.jp2)
  5. 2.2 基本的な考え方 / p7 (0011.jp2)
  6. 2.3 動的環境と適応エージェント / p9 (0013.jp2)
  7. 3 ゲーム理論から報酬変動型ゲームへ / p11 (0015.jp2)
  8. 3.1 ゲーム理論について / p11 (0015.jp2)
  9. 3.2 非協力2人ゲーム / p14 (0018.jp2)
  10. 3.3 ゲーム理論における競合と協調 / p27 (0031.jp2)
  11. 3.4 明確な定式化 / p29 (0033.jp2)
  12. 3.5 環境としての利得行列 / p33 (0037.jp2)
  13. 4 強化学習 / p36 (0040.jp2)
  14. 4.1 適応エージェント / p36 (0040.jp2)
  15. 4.2 強化学習 / p38 (0042.jp2)
  16. 4.3 主な実現法 / p40 (0044.jp2)
  17. 4.4 実例に基づく強化学習 / p41 (0045.jp2)
  18. 5 動的環境のマルチエージェントシミュレーション / p45 (0049.jp2)
  19. 5.1 シミュレーションの流れ / p45 (0049.jp2)
  20. 6 単一エージェントのシミュレーション / p47 (0051.jp2)
  21. 6.1 強化学習の割引率による環境状態の遷移 / p47 (0051.jp2)
  22. 6.2 エージェントの記憶容量による環境状態の遷移 / p56 (0060.jp2)
  23. 6.3 強化学習のパラメータ / p67 (0071.jp2)
  24. 7 目標値の違いによるシミュレーション / p69 (0073.jp2)
  25. 7.1 目標値の違いによるシミュレーション1 / p69 (0073.jp2)
  26. 7.2 シミュレーションのタイムステップ数 / p83 (0087.jp2)
  27. 7.3 目標値の違いによるシミュレーション2 / p85 (0089.jp2)
  28. 7.4 結論 / p89 (0093.jp2)
  29. 8 エージェントの性質の違いによるシミュレーション / p91 (0095.jp2)
  30. 8.1 妥当領域について / p91 (0095.jp2)
  31. 8.2 性質の違いによるシミュレーション / p92 (0096.jp2)
  32. 8.3 結論 / p95 (0099.jp2)
  33. 9 おわりに / p97 (0101.jp2)
  34. 9.1 結論 / p98 (0102.jp2)
  35. 9.2 議論 / p100 (0104.jp2)
  36. 9.3 今後の課題 / p104 (0108.jp2)
12access

Codes

  • NII Article ID (NAID)
    500000172641
  • NII Author ID (NRID)
    • 8000000172917
  • DOI(NDL)
  • NDLBibID
    • 000000336955
  • Source
    • NDL ONLINE
    • NDL Digital Collections
Page Top