モデル間の予測誤差を利用した効率的な強化学習手法

書誌事項

タイトル別名
  • An Efficient Reinforcement Learning Method Using Prediction Errors Between Models

抄録

強化学習は囲碁などのボードゲームや Atari 2600 などのビデオゲームで多くの成功を収めているが,教師あり機械学習などと比べると未だに実社会での応用例は限られている. この理由の一つとして, サンプル効率の低さが挙げられる. また, 現実的なタスクでは報酬がスパースになりやすいが, 特にそのような環境では効率的な学習は難しい. 本論文では, 報酬がスパースな環境においても効率的に学習することのできる強化学習手法を提案する. 具体的には, モデルベース強化学習と内部報酬を組み合わせることで, 環境の探索および方策の学習を効率化する. また, 少量の画像から方策を学習するために, 画像をランダムにエンコードするという手法を考案する. 本稿では OpenAI Gym の MountainCar と Freeway において実験を行い, 画像を入力とする場合においても, 簡単なものであれば効率的な学習が可能であることを示した.

Reinforcement learning has been successful in board games such as Go and video games such as Atari 2600, but its application in the real world is still limited compared to supervised machine learning. One of the reasons is its low sample efficiency. Moreover, the rewards tend to be sparse in realistic tasks, and efficient learning is difficult especially in such an environment. In this study, we propose a reinforcement learning method that can learn efficiently even with sparse rewards. Specifically, we make the environment exploration and policy learning more efficient by combining model-based reinforcement learning and intrin-sic rewards. Also, we have devised a method to learn a policy from a small number of image observations by randomly encoding them. In this paper, we conducted experiments with MountainCar and Freeway of OpenAI Gym and verified that effective learning is possible also from raw images as long as they are simple.

収録刊行物

詳細情報

  • CRID
    1050292572094408832
  • NII論文ID
    170000180585
  • Web Site
    http://id.nii.ac.jp/1001/00199892/
  • 本文言語コード
    ja
  • 資料種別
    conference paper
  • データソース種別
    • IRDB
    • CiNii Articles

問題の指摘

ページトップへ