-
Analysis of Time Series Data Accompanied with Rewards and Actions using Reinforcement Learning
[in Japanese]
-
ASOH Hideki
,
SHIRO Masanori
,
KAMISHIMA Toshihiro
,
AKAHO Shotaro
,
KOHRO Takahide
強化学習は環境中で動作するエージェントのオンライン行動最適化学習のモデルとして用いられることが多いが,マルコフ決定過程や部分観測マルコフ決定過程の上の状態・行動価値評価アルゴリズムや方策最適化アルゴリズムを用いて,あらかじめ収集された報酬つき時系列データをオフラインで分析し,行動や状態の価値評価,方策の改善,将来予測などを行う研究も行われてきている.本稿では,これまでの研究を紹介するとともに,循環 …
IEICE technical report. Neurocomputing 111(419), 107-112, 2012-01-19
CiNii Fulltext PDF - Limited