Massimo Silvetti, Ruth Seurinck and Tom Verguts
frontiers in HUMAN NEUROSCIENCE
既存の強化学習モデル(基底核系)にACCを加えたというより、線条体部分をACCで置き換えたという感じ。
ACCは、報酬の大きさ(状態価値?)と正の予測誤差と負の予測誤差をコードするユニットからできている。
それらが皮質の別の領域のユニット(手がかり刺激をコード)から入力を受け取り、VTA層に出力する。
あまり新規性はないし、「ACCの機能を再現」してるのは、かなり恣意的に作られた正の予測誤差と負の予測誤差の分離表現によるもののような。
〈アブスト〉
ACCの役割は…などで詳しく調べられてきた。
これらから様々なデータと、観点が提示された。
ACCの重要な機能は、価値評価、誤差検知、誤差尤度予測、対立の俯瞰?、報酬のブレの評価である。
しかし統一的な見方は現時点ではまだない。
この論文で我々は、逐次的な価値評価がこれらの多様なデータを説明する鍵になるということを提案する。
これは報酬価値と予測モデル(RVPM)によって実装される。
このモデルは手がかりの価値をコードする部分と、予測誤差をコードする部分からなる。
またこのモデルの妥当性を実験データとの照合により検討した。
このモデルはACCの…という機能を再現した。
〈イントロ〉
中華料理とイタリア料理のどちらが食べたいか?
価値評価に関与している領域の一つはMFCであり、特にACCである。
〈マテメソ〉
報酬価値を予測誤差の数式表現
価値の更新は普通の強化学習
発刊頻度は本来常に正なので、
(初期の研究だと「自発発火より発火頻度が下がる」ので負でもよいという話だったが)
予測誤差は正と負の両方の値を取るので
この問題の最も簡単な解決法は
Daw(2002)では正と負の予測誤差を別々にコードする体裁にしたようだ。
モデルの構造と動き
ユニット記録から、ACCには報酬の大きさと、正の予測誤差と、負の予測誤差をコードする集団があることが