Samuel M. Mclure, Nathaniel D. Daw and Read Montague
TRENDS in Neuroscience (2003)
〈概要〉
強化学習理論とincentive salience理論は同じ枠組みで評価できるぞーという話。
具体的には、incentive salience仮説を裏付ける代表的研究としてIkemotoらの実験とWiseらの実験を挙げ、それを強化学習ベースのモデルで再現したという内容。
Ikemotoらの実験は、ドーパミン受容体阻害剤によって、ラットが遠くの報酬まで到達しなくなるが、砂糖水の消費量は変わらない。
Ikemotoらの実験ではラットは報酬を得るために長い距離を移動しなければならないが、それを開始地点から3地点を経由して目標地点に到達するモデルとして表現している。
「開始地点⇔中間地点1⇔中間地点2⇔中間地点3⇔目標地点」という構成で、各中間地点では目標地点側に1マス進むか、開始地点側に1マス戻るかの二通りの行動が選択できる。
ドーパミン受容体阻害剤の効果を「報酬予測誤差δから正の定数bを引く」という形で表現しており、それによって状態の価値が全体的に下がって(δ-bで状態の価値が更新されるので)行動(状態の遷移)が起こりにくなり、目標到達までの時間が長くなるという。
行動の選択は状態間の価値の比較で選択確率を決めるのではなく、各行動についてδを算出しそれに応じてその行動を実行するかしないかを決めているようだ。
ゆえにどの行動(他の状態への遷移)も選ばれないことがあり、それは「動かなかった」ということになる。
Wiseらの実験では、ドーパミン受容体阻害剤を打つと、報酬を与える試行でも緩やかな消去が起こる。
これも上と同様のモデルで再現することができる。
(まぁδから引き算してるので当たり前と言えば当たり前)
〈感想〉
Ikemotoらの実験とWiseらの実験がincentive salienceの代表的な研究と呼べるのかは疑問。
ドーパミン受容体阻害剤の効果を「δから正の定数bを引く」という形で表現するのは自然か。そうなれば全般的に行動が発現しにくくなるのも道理。
ただ行動選択確率を例えばexp(βQ(a))の比などで決めた場合には、「全体的な価値の低下」はさほど影響しないと思うので、そこのモデルの内容次第で結論は変わってくる。
ドーパミンはアクタークリティックで言えばクリティックの部分で働くのに、アクターの部分の設計で結論が変わるのは、どうなんかなと思わなくもない。
それにしても、こういう「行動(状態)の価値が全般的に下がったので、どの行動も選択されにくくなり、行動の消極性が生じた」という話を見ると、「そもそも現実世界においては、一定時間ごとに行動を選択するという仮定が成立しえないよね」と思ってしまう。
Salamoneらの「ドーパミン受容体阻害によって大報酬大労力の選択を避け、小報酬小労力の選択を選びやすくなる」という話と関連付けられたら面白そう。
〈アブスト〉
ドーパミンの機能の理論は十字路(岐路?)に立っている。
単一ユニット記録に基づく計算モデルは、ドーパミンニューロンの発火頻度の変化を予測誤差信号だと捉えている。
予測誤差信号には、未来の報酬イベントを予測できるようにする機能と、行動選択を偏らせる機能がある。
一方、ドーパミンニューロン機能の薬理学的抑制や破壊は、動物の報酬へ向かう意欲を低下させる。
これらの破壊実験は、ドーパミン放出が企図した行動の誘因価(incentive value)をコードしている可能性を示唆する。
心理学に解釈すると、ドーパミン信号は「incentive salience」をもたらすものということになる。
表面的には、これら二つのドーパミン機能の説明は噛み合わない(incommensurate)ように思える。
しかし我々は、どちらの機能も単一の計算モデルで捉えられることを示した。
〈本文〉
incentive salience仮説
…
奇妙なことに、ドーパミン受容体の阻害は報酬のappetitive valueには影響しないが、報酬獲得に必要な行動の開始を妨げる。
…
IkemotoとPankseppの実験。
予測誤差理論との概要と、incentive salienceモデルとの関連
TD学習はincentive salienceの効果を説明できる
低濃度のドーパミン受容体拮抗阻害剤は緩やかな消去を引き起こす
結論