ドパミン神経系による予測と意思決定の制御機構  [in Japanese] The role of dopamine neurons in future reward prediction and decision making  [in Japanese]

Access this Article

Author(s)

Abstract

絶え間なく変化する自然環境のなかで,雑多な情報から必要なものを判別し,過去の経験や現在の状況に照らし合わせて,将来の目標を見据えた最善手を打つことは,人間やその他の動物にとって,配偶者や食料,金銭などの報酬を効率よく得るために,また,危険や損失を回避するために必須である。ドパミン細胞は中脳の黒質緻密部,腹側被蓋野などに集中して存在し,線条体や前頭葉,大脳辺縁系などの広範な脳領域に投射しており,報酬を得るための意思決定や行動選択に関わる神経システムにおいて,重要な役割を担っている。過去の研究から,ドパミン細胞の活動は,刺激の新規性や,動機づけレベルなどと同時に,報酬価値情報を反映することが報告されている。ドパミン細胞は条件刺激に対して放電応答を示して,期待される報酬の価値を表現し,また,強化因子に対する応答は報酬の予測誤差を表現する。最近,筆者らはニホンザルを用いた研究によって,ドパミン細胞の活動が,学習によって,長期的な将来報酬の価値を表現することを明らかにした。この研究では,サルに複数回の報酬獲得試行を経てゴールに到達することを目標とする行動課題を学習させ,課題遂行中のドパミン細胞の活動を電極記録した。ドパミン細胞は,条件刺激(各試行の開始の合図となる視覚刺激)と,正または負の強化因子(報酬獲得の有無を指示する音刺激)に対して応答し,その応答の大きさは,目前の1試行だけの報酬価値ではなく,目標到達までの,複数回の報酬価値を表現していた。これらの活動は,強化学習理論に基づく一般的な学習モデルによって推定した報酬予測誤差(TD誤差)によってよく説明できた。また,このような報酬価値の表現は課題の学習初期には見られず,課題の構造に習熟してはじめて観測できることが確かめられた。以上のことから,ドパミン細胞は長期的な将来報酬の情報を線条体や前頭前野などに送ることで,意思決定や行動選択を制御していると考えられる。この結果は,目先の利益にとらわれず,目標に向かって意志決定や行動選択を行う脳の作動原理解明につながることが期待される。

For survive in the ever-changing natural environment, it is essential to assign long-term reward value for actions. Although midbrain dopamine neurons are known to signal reward value and its prediction error, it is not examined experimentally whether and how dopamine neurons encode long- term value of multiple future rewards (TD error), as suggested in reinforcement learning theories. We address this issue by studying 185 dopamine neuron activities recorded from three monkeys that performed a multi- step choice task for three rewards. In the task, they explored a reward among three alternatives and then exploited this knowledge to receive two additional rewards by repeating the same choice in subsequent trials. Dopamine responses to the start cues represented expectations of multiple future rewards; the sum of immediate and discounted future rewards. In accordance with this result, responses to the reinforcers beeps reflected the errors of the multiple future rewards. These responses were quantitatively predicted by theoretical descriptions of the value function with time discounting in reinforcement learning. Moreover, we confirmed that these responses were established through learning the multistep choice paradigm for rewards. These findings demonstrate that dopamine neurons "learn" to encode the long-term value of multiple future rewards with distant rewards discounted.

Journal

  • Japanese Journal of Biological Psychiatry

    Japanese Journal of Biological Psychiatry 24(2), 89-94, 2013

    Japanese Society of Biological Psychiatry

Codes

  • NII Article ID (NAID)
    130005395502
  • NII NACSIS-CAT ID (NCID)
    AA12468060
  • Text Lang
    JPN
  • ISSN
    2186-6619
  • NDL Article ID
    024800096
  • NDL Call No.
    Z19-3169
  • Data Source
    NDL  J-STAGE 
Page Top