Dopamine responses comply with basic assumptions of formal learning theory

Pascale Waelti, Anthony Dickinson & Wolfram Schultz

Nature 412, 43-48 (5 July 2001)

著名な神経生理学者のSchultzが、著名な学習心理学者のDickinsonと組んだ研究。

サルのドーパミン細胞の電気記録を取りながら、学習心理学における「阻止（blocking）」の実験を行っている。

結果は割と予想通りというか、阻止によって反応が抑えられる刺激（A+→AX+→X-のX）に対しては、ドーパミン細胞は報酬を「ないもの」と予測する。

つまり、刺激（X）に対しては反応せず、その後報酬が与えられれば発火頻度は上昇するし、報酬がない場合には発火頻度は変わらない。

Discussionにはいろいろ書いてあった気がするが、詳しく読んでない。

「予測誤差ではなく刺激の一般化だ」みたいな話があったような気もする。

あとで詳しく読んだら、A+→AX+→X-のXに対しても多少反応することはあって、それを「一般化だ」と言ってるみたい。

基本的にCRが起こるタイミングでドーパミンも反応してるということを示しただけなのかな。

報酬がomitされた時に発火頻度が落ちる、というのが学習心理学にはない知見だけど、それはSchultzの以前の実験でもすでに示されているわけで。

現在の学習理論によると、刺激と報酬が組み合わさった時に学習が起こるかどうかは、報酬予測誤差による。

予測誤差の役割は、報酬との関係が完全に学習された刺激によって学習が阻害されるという現象によって、直接示される。

阻止の実験系を用いて、我々はCSに対するドーパミンニューロンの反応が、刺激―報酬の連合よりも予測誤差によって起こることを示す。

行動レベルと神経レベルの学習はいずれも、主にドーパミンニューロンが報酬獲得時に予測誤差を示した時に起こる？

我々のデータは、定式化された学習理論に基づく解析的テストが、単一ニューロンの学習での役割を研究する強力なアプローチになることを示す。

〈イントロ〉

阻止と予測誤差

神経学習の条件

図１．阻止パラダイムでの行動成績と神経活動の局在

a. ６種類の試行での舐め行動：A、B、付属？；AX、BY、複合学習；X、Y、学習テスト

水平の線は舐め行動。Yの試行の時は報酬がないことに注意。

図２．阻止パラダイムの予測誤差に基づくCSへのドーパミンニューロンの反応の獲得

A+→AX+→X-だと、X-（Xの時）で反応しないが、B-→BY+→Y-だとYに反応する。

図３．阻止パラダイムでの、報酬時のドーパミン予測誤差反応

a. A+を学習した後でA+にしても反応しないし、B-の後でB-でも同じ。

A+のあとにA-だと発火頻度は下がるし、B-の後でB+だと発火頻度が上がる。

A+→AX+→X-だと、X-（-の時）で反応しないが、B-→BY+→Y-だとY（-の時）に反応する。

A+→AX+→X+だと、X+（+の時）で反応するが、B-→BY+→Y+だとY（+の時）に反応しない。

図４．報酬の与えられない刺激に対するDAの反応は、予測誤差というより刺激の一般化

a. 報酬の与えられない刺激Bに対するニューロンの反応。報酬がなくても活動性が下がらないのは、報酬予測がないことを示している。

b. 異なるニューロンでのテスト

〈ディスカッション〉

我々のデータは、阻止パラダイムでの単一ドーパミンニューロンの記録が、学習理論の基本的な想定に沿うことを示した。

電脳ラボ