報酬変動型問題への強化学習の応用に関する研究

この論文をさがす

著者

    • 稲垣, 裕伸 イナガキ, ヒロノブ

書誌事項

タイトル

報酬変動型問題への強化学習の応用に関する研究

著者名

稲垣, 裕伸

著者別名

イナガキ, ヒロノブ

学位授与大学

室蘭工業大学

取得学位

博士(工学)

学位授与番号

甲第98号

学位授与年月日

1999-03-19

注記・抄録

博士論文

目次

  1. 目次 / p1 (0002.jp2)
  2. 1 はじめに / p1 (0005.jp2)
  3. 2 基本的な考え方 / p5 (0009.jp2)
  4. 2.1 エージェントについて / p5 (0009.jp2)
  5. 2.2 基本的な考え方 / p7 (0011.jp2)
  6. 2.3 動的環境と適応エージェント / p9 (0013.jp2)
  7. 3 ゲーム理論から報酬変動型ゲームへ / p11 (0015.jp2)
  8. 3.1 ゲーム理論について / p11 (0015.jp2)
  9. 3.2 非協力2人ゲーム / p14 (0018.jp2)
  10. 3.3 ゲーム理論における競合と協調 / p27 (0031.jp2)
  11. 3.4 明確な定式化 / p29 (0033.jp2)
  12. 3.5 環境としての利得行列 / p33 (0037.jp2)
  13. 4 強化学習 / p36 (0040.jp2)
  14. 4.1 適応エージェント / p36 (0040.jp2)
  15. 4.2 強化学習 / p38 (0042.jp2)
  16. 4.3 主な実現法 / p40 (0044.jp2)
  17. 4.4 実例に基づく強化学習 / p41 (0045.jp2)
  18. 5 動的環境のマルチエージェントシミュレーション / p45 (0049.jp2)
  19. 5.1 シミュレーションの流れ / p45 (0049.jp2)
  20. 6 単一エージェントのシミュレーション / p47 (0051.jp2)
  21. 6.1 強化学習の割引率による環境状態の遷移 / p47 (0051.jp2)
  22. 6.2 エージェントの記憶容量による環境状態の遷移 / p56 (0060.jp2)
  23. 6.3 強化学習のパラメータ / p67 (0071.jp2)
  24. 7 目標値の違いによるシミュレーション / p69 (0073.jp2)
  25. 7.1 目標値の違いによるシミュレーション1 / p69 (0073.jp2)
  26. 7.2 シミュレーションのタイムステップ数 / p83 (0087.jp2)
  27. 7.3 目標値の違いによるシミュレーション2 / p85 (0089.jp2)
  28. 7.4 結論 / p89 (0093.jp2)
  29. 8 エージェントの性質の違いによるシミュレーション / p91 (0095.jp2)
  30. 8.1 妥当領域について / p91 (0095.jp2)
  31. 8.2 性質の違いによるシミュレーション / p92 (0096.jp2)
  32. 8.3 結論 / p95 (0099.jp2)
  33. 9 おわりに / p97 (0101.jp2)
  34. 9.1 結論 / p98 (0102.jp2)
  35. 9.2 議論 / p100 (0104.jp2)
  36. 9.3 今後の課題 / p104 (0108.jp2)
3アクセス

各種コード

  • NII論文ID(NAID)
    500000172641
  • NII著者ID(NRID)
    • 8000000172917
  • DOI(NDL)
  • NDL書誌ID
    • 000000336955
  • データ提供元
    • NDL-OPAC
    • NDLデジタルコレクション
ページトップへ