報酬変動型問題への強化学習の応用に関する研究
Access this Article
Search this Article
Author
Bibliographic Information
- Title
-
報酬変動型問題への強化学習の応用に関する研究
- Author
-
稲垣, 裕伸
- Author(Another name)
-
イナガキ, ヒロノブ
- University
-
室蘭工業大学
- Types of degree
-
博士(工学)
- Grant ID
-
甲第98号
- Degree year
-
1999-03-19
Note and Description
博士論文
Table of Contents
- 目次 / p1 (0002.jp2)
- 1 はじめに / p1 (0005.jp2)
- 2 基本的な考え方 / p5 (0009.jp2)
- 2.1 エージェントについて / p5 (0009.jp2)
- 2.2 基本的な考え方 / p7 (0011.jp2)
- 2.3 動的環境と適応エージェント / p9 (0013.jp2)
- 3 ゲーム理論から報酬変動型ゲームへ / p11 (0015.jp2)
- 3.1 ゲーム理論について / p11 (0015.jp2)
- 3.2 非協力2人ゲーム / p14 (0018.jp2)
- 3.3 ゲーム理論における競合と協調 / p27 (0031.jp2)
- 3.4 明確な定式化 / p29 (0033.jp2)
- 3.5 環境としての利得行列 / p33 (0037.jp2)
- 4 強化学習 / p36 (0040.jp2)
- 4.1 適応エージェント / p36 (0040.jp2)
- 4.2 強化学習 / p38 (0042.jp2)
- 4.3 主な実現法 / p40 (0044.jp2)
- 4.4 実例に基づく強化学習 / p41 (0045.jp2)
- 5 動的環境のマルチエージェントシミュレーション / p45 (0049.jp2)
- 5.1 シミュレーションの流れ / p45 (0049.jp2)
- 6 単一エージェントのシミュレーション / p47 (0051.jp2)
- 6.1 強化学習の割引率による環境状態の遷移 / p47 (0051.jp2)
- 6.2 エージェントの記憶容量による環境状態の遷移 / p56 (0060.jp2)
- 6.3 強化学習のパラメータ / p67 (0071.jp2)
- 7 目標値の違いによるシミュレーション / p69 (0073.jp2)
- 7.1 目標値の違いによるシミュレーション1 / p69 (0073.jp2)
- 7.2 シミュレーションのタイムステップ数 / p83 (0087.jp2)
- 7.3 目標値の違いによるシミュレーション2 / p85 (0089.jp2)
- 7.4 結論 / p89 (0093.jp2)
- 8 エージェントの性質の違いによるシミュレーション / p91 (0095.jp2)
- 8.1 妥当領域について / p91 (0095.jp2)
- 8.2 性質の違いによるシミュレーション / p92 (0096.jp2)
- 8.3 結論 / p95 (0099.jp2)
- 9 おわりに / p97 (0101.jp2)
- 9.1 結論 / p98 (0102.jp2)
- 9.2 議論 / p100 (0104.jp2)
- 9.3 今後の課題 / p104 (0108.jp2)