妹尾, 卓磨, 大澤, 正彦, 今井, 倫太
第80回全国大会講演論文集
2018
(1),
223-224,
2018-03-13
...報酬が存在しないような環境では,状態遷移モデルの予測誤差を内部報酬として強化学習を行うことでエージェントの探索を促すことができる.しかし,実環境で画像入力からロボットのモーター操作を学習する場合,学習序盤では出力が大きく変化するため慣性力が働き,画像変化が決定的ではなくなるため状態遷移のモデル化が困難である.慣性力が働くロボットの学習を行うには,学習可能な状態遷移を生成するように行動を行う必要がある...
情報処理学会