Predictive reward signal of dopamine neurons

Schultz W.

Source

Institute of Physiology and Program in Neuroscience, University of Fribourg, CH-1700 Fribourg, Switzerland.

J Neurophysiol. 1998 Jul;80(1):1-27.

Schultz自身が書いた数少ないreview。

90年代前半の自身の研究を背景からまとめている。

非常に読み応えがある。

〈アブスト〉

様々な実験から、中脳ドーパミン系は報酬の処理と学習行動に関与していると考えられる。

ほとんどのドーパミンニューロンは、飲料や食物などの一次強化子や、条件づけされた報酬を予測させる視覚・聴覚刺激に反応して、一時的に活性化する。

ドーパミンニューロンは、報酬予測刺激に似た刺激や、新奇もしくは特徴的な刺激に対しては、活性化の後で抑制のある、二相性の反応を示す。

しかし、不快な刺激が付随する反応は少ない。

このようにドーパミンニューロンは、環境中の好ましい価値を持つ刺激にラベルをつけ、報酬を予測・検知し、警戒および動機づけを行うべき出来事の信号となる。

異なる報酬の区別に失敗すると、ドーパミン細胞は予想外の出来事や報酬の不在を警告する信号を発する。

全ての報酬と報酬予測刺激への反応は、イベントの予測可能性に依存する。

ドーパミンニューロンは予想より報酬が大きければ活性化し、予測通りなら変化せず、予測以下なら活動が抑止される。

予測誤差に基づいて報酬を知らせることで、ドーパミンの反応は、強化学習理論が仮定している教師信号の性質を示している。

ドーパミンの反応は学習によって、報酬から報酬予測刺激へと変化する。

これは（強化学習の特殊な点の一つである）報酬の逆行を行う神経機構に寄与しているかもしれない。

神経反応が起こるとドーパミン多くの樹状突起で放出され、シナプス後のニューロンに広範な強化信号を与える。

この信号は行動の前に未来の報酬の情報を与え、接近行動を改善し、シナプス伝達を修正することで学習に寄与する。

ドーパミンの報酬信号は、線条体、前頭野、扁桃体といった、報酬の情報を処理するが予測誤差を発するわけではない領域に与えられる。

異なる報酬信号間の協調は、特定の報酬が特定の行動を選択的に強化するのに寄与する。

別の投射系では、ノルアドレナリンニューロンは主に注意の機構を提供し、nucleus basalisニューロンは報酬の多様性をコードする。

小脳の登上線維は

ドーパミン枯渇破壊後の多くの障害は報酬信号の欠陥では簡単に説明できないが、おそらく細胞外ドーパミンのtonicレベルの、全般的な行動促進機構の不在を反映している。

このようにドーパミンには二つの

〈イントロ〉

〈報酬と予測〉

好ましい物体（報酬）は３つの異なる機能を持つ。

まず、報酬は接近と消費行動を引き起こす。

次に報酬は、それをもたらす行動の頻度と程度を増し、消去が起こらないようにして学習された行動を維持する。

一般的な誘因理論では、　（Bindra 1968）

オペラント条件づけでは、報酬は、刺激と行動の結合を強めることによって、行動を強化する。（効果の法則　Thorndike 1911）

３つめの機能は、報酬は主観的な喜びの感情を与える。

〈欲求刺激に対する適応反応〉

一次強化刺激による活動

報酬の予測不可能性

条件づけされた報酬予測刺激による活動

活性化の転移

条件刺激の予測不可能性

予測された条件刺激の省略による抑制

反応の一般化に伴う活性化と抑制

新規性への反応

反応の類似性

まとめ１：学習エピソード間の適応的反応

まとめ２：ドーパミンニューロンへの効果的な刺激

まとめ３：ドーパミン報酬予測誤差信号

〈ドーパミンニューロンの結合〉

標的部位への位相的ドーパミンの影響

ドーパミン信号の一般的性質

分岐投射

ラットの黒質には8000以下の、アカゲザルの黒質には80000～116000のドーパミンニューロンがある。

ラットの線条体には280万以下の、アカゲザルの線条体には3100万のニューロンがあり、ドーパミン細胞は300～400倍の細胞に投射していることになる。

各ドーパミン軸索は線条体の末端領域で豊富に分岐し、50万の結節からドーパミンを放出する。

これによりほとんどすべての線条体ニューロンがドーパミン入力を受ける。

図７．

ドーパミン放出

20-100ms間隔のドーパミン発火は、同じ数の200ms間隔の発火よりもより多くのドーパミンを線条体に放出する。

この非線形性は主にドーパミン再取り込みトランスポーターの早い飽和による。

同じ効果が側坐核でも観測されている。

また長い間隔でもDTが疎な場合は同様に…

300ms以下のバーストの際のドーパミン放出の場合、自己受容体を介した放出抑制はかからず、

より遅い酵素分解（酵素の枯渇？）も行われない。

このようにバーストは…

ヴォルタメトリーに基づいて推測すると、一回の発火で1000以下のドーパミン分子が線条体や側坐核のシナプスで放出される。

これはシナプスでのドーパミン濃度を即座に0.5-3.0microM上昇させる。

放出開始から40micros後には、…

放出開始の3-9ms後には、

…

受容体

２つの主要なドーパミン受容体の中で、アデニル酸シクラーゼ活性化型

まとめ

コカインの作用機序

図８．

ドーパミンの膜活動

ドーパミン依存的可塑性

線条体ニューロンでの処理

〈ドーパミン報酬予測誤差信号の使用〉

学習理論

Rescorla-Wagnerモデル

デルタ則

強化アルゴリズム

ドーパミン信号を用いた仮想的な学習機構

図10.

図11

図12. 線条体での学習へのドーパミン信号の影響として考えられる機構

〈報酬信号の協働〉

予測誤差

ドーパミンニューロンの予測誤差シグナルは環境の欲求価値の見事な指標であるが…報酬が何であるかや、手がかりがどのようなものであるか（視覚刺激か聴覚刺激かなど）を区別することはできない。

この信号はおそらく報酬を意識させる意味を含んでおり、シナプス後細胞に報酬の突然の到来などを知らせる働きがあるようだ。

…

しかし、報酬がどのようなものであるかも重要であり…

例えば、空腹の動物は飲み物よりも食物を…

適切な報酬をそうでない報酬と区別するためには、ドーパミン信号は別の情報で補足される必要がある。

最近のダイアリシスの結果から、空腹のラットでは満腹のラットよりも食物によるドーパミン放出が多いことがわかった。

この欲求に依存したドーパミン放出は、ドーパミン発火によるものではないようだ。

なぜなら、セッションが進むにつれて動物は飲み物に飽いてくるが、セッションの初めと終わりでドーパミン細胞の明確な欲求依存性はみられなかったからである。

報酬特異性

報酬が飲み物か食物かという情報は脳の他の部位でも処理される。

具体的には線条体、側坐核、視床下核、扁桃体、dlPFC、OFC、ACCなどである。

しかしこれらの部位はドーパミンニューロンのような一般的な報酬予測誤差信号は出していない。

霊長類の場合、これらの部位は報酬に対して

１）報酬が与えられた後に一時的に反応する
２）報酬を予期する手がかりに一時的に反応する

３）報酬が来るまでの間、持続的に発火する

４）行動に関連した活動を報酬の予測によって調節する

これらのニューロンの多くは報酬特異的に反応する。

このようにこれらの部位は…

報酬に対する反応いくらかは報酬の予測不可能性に依存し、報酬が条件づけ刺激によって予測できる場合には、反応が減弱したりなくなったりする。

これらの部位は…

確立された行動の維持

３つの神経機構が確立された行動の維持に重要である。

その３つとは、報酬の欠如の検出、報酬を予測する刺激に検出、予測された報酬の検出である。

〈他の投射系との比較〉

ノルアドレナリンニューロン

ノルアドレナリンニューロンはほとんど一様に反応する。

セロトニンニューロン

マイネルト基底核

小脳登上線維

〈ドーパミン報酬信号とパーキンソン病

電脳ラボ

脳のコンピュータモデルに関する論文のレビューなどを細々と続けていこうと思います。

Predictive reward signal of dopamine neurons

Source