A Computational Role for Dopamine Delivery in Human Decision-Making

David M. Egelman, Christophe Person, and P. Read Montague

Baylor College of Medicine

Journal of Cognitive Neuroscience 10:5, pp. 623–630 (1998)

ドーパミン＝予測誤差モデルの話だけど、一度選んだ選択肢を再び選ぶかどうかも、ドーパミン濃度（というか予測誤差）に依存するのでは、という話。

具体的には、予測誤差をシグモイドにかけて、確率的に再選択の是非を決めてる。

（予測誤差が正で大きければ同じものを再び選ぶ）

このMontagueのグループが、後に「incentive salienceを強化学習の枠組みで説明する」という論文（A computational substrate for incentive salience - 電脳ラボ）を書いているが、そこでも上記の行動選択を採用している。

モデルだけでなく、人を被験者にして実験も行っている。

実験自体も興味深い。

論文は1998年だが、1995年の段階で似たようなネタを学会で披露してる模様。

Montagueは他にも95年と96年に、DayanやSejnowskiと共著で論文を書いてる。

最近の研究からドーパミンの増減は

この解釈が行動にどう反映されるか調べるために、単純な選択課題を66人の被験者と、ドーパミン系の予測モデルに与えた。

被験者はモデルと似たような振舞いを

この類似からドーパミンの増減が選択に関わっている可能性が

我々はまた、ドーパミンが病的に下がってる場合や上がってる場合に何が起こるか

ここで提示したボトムアップのアプローチは、行動戦略の多様性が比較的単純な回路と異なる文脈によって生じている可能性を

〈イントロ〉

単純な生き物にとっても、選択課題には大きな複雑性が

しかし生物には時間が限られている

意思決定は

以前は、意思決定理論は、

図１．四通りの報酬の分布（明確な正解はない）

基本的に同じ選択をし続けると、報酬を得る確率が下がるようになってる（D以外）ので、報酬獲得確率の関数が交差する点あたりに選択頻度が分布。

実際はどういう頻度でAを押しても、報酬は変わらないのだが。