From reinforcement learning models to psychiatric and neurological disorders

Tiago V Maia, Michael J Frank

Nature Neuroscience (2011)

強化学習ベースの精神疾患モデルについてのreview。

〈アブスト〉

90年代後半以降、強化学習モデルは、ドーパミンの機能と大脳基底核系の理解を促してきた。

最近は、ドーパミンや大脳基底核が関与する精神疾患や神経障害の理解のためにも用いられるようになった。

ここではパーキンソン病やトゥレット症候群、ADHD、依存、統合失調症や薬物評価の動物モデルへの応用についてまとめる。

このアプローチは解釈と予測に役立ち、今後も「計算精神医学」と「計算神経学」は発展すると思われる。

脳での強化学習

基本的な事項の解説。

大脳基底核と行動選択

同上。

臨床への示唆

いろいろモデルの使い道はあるけど、とりあえずドーパミン系の関与が強い、パーキンソン病やトゥレット症候群などについて書きます、という内容。

パーキンソン病

ドーパミン細胞の死はドーパミンの減少を引き起こし、NoGo経路の亢進が起こる。

10. Wiecki, T.V. & Frank, M.J. Neurocomputational models of motor and cognitive deficits in Parkinson’s disease. Prog. Brain Res. 183, 275–297 (2010).

28. Frank, M.J. Dynamic dopamine modulation in the basal ganglia: a neurocomputational account of cognitive deficits in medicated and non-medicated Parkinsonism. J. Cogn. Neurosci. 17, 51–72 (2005).

BG-GNGモデルを用いたシミュレーションにより、この傾向はパーキンソン病の運動障害だけでなく、疾患に付随する様々な認知障害を説明できることが分かった。

58. Frank, M.J., Seeberger, L.C. & O’Reilly, R.C. By carrot or by stick: cognitive reinforcement learning in parkinsonism. Science 306, 1940–1943 (2004).

例えば、Goシグナルは作業記憶の更新を促進し、NoGoシグナルは更新を阻害する。

46. Frank, M.J., Loughry, B. & O’Reilly, R.C. Interactions between frontal cortex and basal ganglia in working memory: a computational model. Cogn. Affect. Behav. Neurosci. 1, 137–160 (2001).

47. O’Reilly, R.C. & Frank, M.J. Making working memory work: a computational model of learning in the prefrontal cortex and basal ganglia. Neural Comput. 18, 283–328 (2006).

パーキンソン病におけるNoGo経路の亢進は、作業記憶の更新を妨げる一方、distractorsへの抵抗を強める。

さらに、L-DOPAとドーパミンアゴニストこの効果を逆転させる。

実験がこの予測を裏付けている。

59. Moustafa, A.A., Sherman, S.J. & Frank, M.J. A dopaminergic basis for working memory, learning and attentional shifting in Parkinsonism. Neuropsychologia 46, 3144–3156 (2008).

60. Cools, R., Miyakawa, A., Sheridan, M. & D’Esposito, M. Enhanced frontal function in Parkinson’s disease. Brain 133, 225–233 (2010).

図３．確率的選択課題

被験者は正解率の異なる二つの記号から一方を選ぶように求められる。

学習によって正解率の高い側を選ぶようになる。

正解率が高いものを、新規な記号との比較で選択したら「Go」を学んだことになり、

正答率の低いものを、新規な記号との比較で選択しなかったら「NoGo」を学んだことになる。

対象が正のフィードバックと負のフィードバックのどちらからよく学ぶ傾向があるかは、確率選択課題によって評価できる。[58]

健康な対照群は、よい結果を選択することも、悪い結果を避けることも、等しくよく学ぶ。

4. Frank, M.J., Samanta, J., Moustafa, A.A. & Sherman, S.J. Hold your horses: impulsivity, deep brain stimulation, and medication in parkinsonism. Science 318,

1309–1312 (2007).

（ただし、健康な対照群内にも個人差があり、これはドーパミン系に影響する遺伝多型による）

37. Frank, M.J. & Fossella, J.A. Neurogenetics and pharmacology of learning, motivation, and cognition. Neuropsychopharmacology 36, 133–152 (2010).

BG-GNGモデルの予想通り、投薬を受けていないパーキンソン病の患者は、Go学習よりNoGo学習が得意である。[58]

投薬を受けるとこれが逆転し、無投薬群だけでなく健常群と比較しても、Go学習が促進し、NoGo学習が阻害される。[4][58]

この投薬の効果は、投薬によって負の予測誤差によるドーパミンの減少を抑えると仮定すれば、モデルからも予測することができる。

（なぜならドーパミンの投薬によって、ドーパミン細胞が発火していない時もシナプス後のドーパミン受容体を占有し続けるからである）[58]

このような負の予測誤差の抑制は、悪い結果からの学習を抑制し、NoGo学習を困難にする。

同様の知見が、投薬・非投薬のパーキンソン病の患者を対象とした、上記以外の様々な課題でも確認されている。

10. Wiecki, T.V. & Frank, M.J. Neurocomputational models of motor and cognitive deficits in Parkinson’s disease. Prog. Brain Res. 183, 275–297 (2010).

この良い結果と悪い結果からの学習の非対称性は、臨床への示唆を与える。

例えば、投薬による正の結果からの学習の亢進は、パーキンソン病患者が投薬によってギャンブルを好むようになる理由を説明できるかもしれない。

BG-GNGモデルはまた、超直接経路の重要な中継核である視床下核が、一過性に全ての行動を抑制する信号を出すことを示している。

35. Frank, M.J. Hold your horses: a dynamic computational role for the subthalamic nucleus in decision making. Neural Netw. 19, 1120–1136 (2006).

視床下核の活性は、葛藤の程度によって強い影響を受ける。

33. Bogacz, R. & Gurney, K. The basal ganglia and cortex implement optimal decision making between alternative actions. Neural Comput. 19, 442–477 (2007).

視床下核の広範なNoGo信号は、同程度に強化された選択肢のある、葛藤の大きな状況で特に強くなる。

ゆえにこのモデルは、DBSなどで視床下核の処理を障害すると、葛藤の大きい状況でも決断は早くなるが、最適でない選択を選びやすくなると予測する。

4. Frank, M.J., Samanta, J., Moustafa, A.A. & Sherman, S.J. Hold your horses: impulsivity, deep brain stimulation, and medication in parkinsonism. Science 318,

1309–1312 (2007).

この予測は、実験によっても確かめられている。[4]

さらにこのモデルによると、ドーパミン薬投与とDBSは独立した効果をもたらす。

投薬とDBSの実生活への異なる影響は、異なる神経処理の障害によって生じるのかもしれない。

トゥレット症候群

トゥレット症候群は、チックと呼ばれる、反復的かつ常同的な動作や発声が特徴である。

チックは、線条体の異常な活動が、チックに対するGoシグナルを発した結果だと考えられている。

61. Mink, J.W. Basal ganglia dysfunction in Tourette’s syndrome: a new hypothesis. Pediatr. Neurol. 25, 190–198 (2001).

トゥレット症候群の薬理学的・実験的知見からは、NoGo経路に対してGo経路が過剰に活動、もしくは可塑性が強いことで生じているようである。

まず、トゥレット症候群の標準的な薬であるD2阻害薬は、間接路を亢進させる（D2は抑制性なので）。

次に、ドーパミンアゴニストはどれも直接路を亢進させ、間接路を抑制させることで、常同行動を生じさせる。

様々な知見から、直接路と間接路は協調して常同行動を発生させることが示されている。

トゥレット症候群で、NoGo信号に対してGo信号が過剰になるのは、線条体でのドーパミンの増加またはドーパミン受容体感受性の増大の結果だと思われる。

実際、トゥレット症候群では、ドーパミン放出や、ドーパミン投射と線条体のD2受容体の増加が示されている。（ただし後者に関しては矛盾する研究結果もある）

これらの変化は全てGo信号を亢進させる方向に働く。

線条体のドーパミン動態と合致するように、未投薬のトゥレット症候群患者は、罰よりも報酬によって学習する。

この偏りは、パーキンソン病の患者に見られるものと逆である。

パーキンソン病は運動不全の疾患であるのに対し、トゥレット症候群は運動過剰の疾患である。

実際のところ、パーキンソン病の患者にL-DOPAを与えると、トゥレット症と似たような学習傾向が出るし、トゥレット症の患者にD2阻害薬を与えると、パーキンソン病の患者と同じような学習傾向が出る。

前者に関しては既に議論したが、後者に関しては…

急性のD2阻害薬の投与によって、NoGo信号を強化し、チックに対して罰を与えることで、チックを抑制することができるかもしれない。

急性のD2阻害が、トゥレット症候群の治療に最も用いられる習慣逆転訓練に役立つかは分からない。

なぜなら、この訓練は嫌悪学習を明確に含むとは言えないからである。

基底核ループにおけるGo信号の亢進は、トゥレット症候群の特徴であるpremonitory urgeも説明することができる。

この違和感（urge）は、補足運動野の異常な活動によると考えられている。

なぜなら、SMAの電気刺激が似たような感覚を引き起こすからである。

この考えと合致するように、チックの直前にSMAが活性化する。

（チックと同じような運動をしてもあまり活性化しない）

SMAは基底核ループの主要な標的であるから、SMAの異常な活性化は、基底核ループのGo信号の亢進によるものと考えられる。

また、BG-GNGモデルで示されるように、SMAの異常な活性化は、皮質内の結合や皮質と状態との結合によっても引き起こされる。

このモデルでは、皮質間の結合はヘブ則によって強化される。（Go信号が強いので、基底核によって賦活され、興奮しやすくなっている）

SMAは…

この説明がもし正しければ、臨床における重要な示唆を与える。

例えば、チックの状態依存性を説明できるかもしれない。

また習慣逆転訓練において、チックを実際に引き起こさなくても（ヘブ則による結合の低下が起きなくても）、違和感が小さくなることも説明できるかもしれない。

もっと一般的に言えば、トゥレット症候群はチックと違和感との悪循環によって生じるという解釈が可能かもしれない。

ADHD

ADHDの特徴は…

ADHDの古典的な理論は、抑制系に問題が生じたために、行動全般に問題が生じるというものである。

別の有力な理論は、ADHDは時間割引が極端に大きいというものである。

複数経路理論は、両方があるとしている。

ADHDはドーパミン系の機能不全らしい。

ある強化学習の理論では、側坐核のtonicなドーパミンが、強化学習の割引因子に相当するとしている。

72. Smith, A.J., Becker, S. & Kapur, S. A computational model of the functional role of the ventral-striatal D2 receptor in the expression of previously acquired behaviors. Neural Comput. 17, 361–395 (2005).

tonicなドーパミンの減少は割引因子の低下を生じ、未来の報酬を極端に低く評価する。

この考えは、ドーパミン阻害薬の全身投与が時間割引を大きくすることや、ドーパミン放出薬および再取り込み阻害薬が時間割引を小さくする事実と合致する。

73. Pattij, T. & Vanderschuren, L.J. The neuropharmacology of impulsive behaviour. Trends Pharmacol. Sci. 29, 192–199 (2008).

しかし、側坐核のドーパミンの枯渇が時間割引を大きくする訳ではなく、OFCでの枯渇が時間割引を大きくする。

74. Winstanley, C.A., Theobald, D.E., Dalley, J.W. & Robbins, T.W. Interactions between serotonin and dopamine in the control of impulsive choice in rats: therapeutic implications for impulse control disorders. Neuropsychopharmacology 30,

669–682 (2005).

75. Kheramin, S. et al. Effects of orbital prefrontal cortex dopamine depletion on inter-temporal choice: a quantitative analysis. Psychopharmacology (Berl.) 175, 206–214 (2004).

ADHDにおける時間割引の増加は、OFCのドーパミンの枯渇によるのだろう。

生物物理学的に現実味のある計算モデルによると、ドーパミンはPFCの表現を安定化させる効果がある。

76. Durstewitz, D., Seamans, J.K. & Sejnowski, T.J. Dopamine-mediated stabilization of delay-period activity in a network model of prefrontal cortex. J. Neurophysiol. 83,

1733–1750 (2000).

PFCの注意等におけるトップダウンの制御を考えると、ADHDでPFCのドーパミンが低いとしたらそれが全ての原因かもしれない。

この考えは、ADHDは抑制の欠如が原因だとする理論と対照的である。

ADHDの認知機能の不全は、必ずしもPFCのドーパミンの低下だけで起きるわけではなく、線条体でのドーパミンの低下も関与してるかもしれない。

逆にPFCの機能不全は実行機能の低下だけでなく、時間割引にも影響しうる。

ゆえに、神経系の機能不全と認知機能不全は一対一で対応するわけではないし、個々の患者で異なるかもしれない。

薬物依存

薬物による線条体のphasicなドーパミンの増加は、依存を強化学習の自然現象としている。

影響力のある強化学習理論は、phasicなドーパミンの増加は正の報酬予測誤差として機能するとしている。

14. Redish, A.D. Addiction as a computational process gone awry. Science 306, 1944–1947 (2004).

薬物は自然の報酬と異なり、完全に報酬の到来を学習してもドーパミン放出がゼロにならない。

薬物による正の報酬予測誤差は、際限なく状態の価値を上昇させ、さらなる薬物の使用を引き起こす。

この理論は依存の重要な特徴を説明するが、以降の研究で予測の一つが論駁されている。

この理論によると、薬物を未条件づけ刺激として用いると、阻害は起きない。

阻害（blocking）とは、AをUSと関連付けた時、Aと同時にBを提示してUSを与えても、BとUSは関連付けられないというものである。

もし薬物が常に正の報酬予測誤差をもたらすなら、Bとの関連性も学習されるはずだが、実際にはこれは起こらない。

80. Panlilio, L.V., Thorndike, E.B. & Schindler, C.W. Blocking of conditioning to a cocaine-paired stimulus: testing the hypothesis that cocaine perpetually produces a signal of larger-than-expected reward. Pharmacol. Biochem. Behav. 86, 774–777 (2007).

この知見により、依存の別の理論を求める動きが強くなった。

一つのアプローチは、従来のTD学習ではなく、平均報酬強化学習を用いたものである。

81. Dezfouli, A. et al. A neurocomputational model for cocaine addiction. Neural Comput. 21, 2869–2893 (2009).

平均報酬強化学習は…

時間tにおける効果的な…

このアプローチの動機の一つは、自然報酬に対する感受性の低下を表現することである。

直感的には、もし薬物が強い報酬価を持つなら、薬物使用の価値は増大し続けるように思える。

このモデルはしかし…

このモデルでは長期の薬物使用の後では、自然報酬に対する感受性が低下し、また上記の「阻害」も起こることが示された。

単純な単一要素の理論を探す動きは今でもあるが、依存には多様な強化の機構があるようである。

例えば、長期の薬物使用はOFCの構造的な変化をもたらし…

別の例では、オプトジェティクスによる直接路と間接路の刺激は、それぞれ薬物の強化を増強・抑制した。

50. Lobo, M.K. et al. Cell type-specific loss of BDNF signaling mimics optogenetic control of cocaine reward. Science 330, 385–390 (2010).

実際、間接路の感受性が低くなると、負の結果からの学習が困難になる。

統合失調症

統合失調症は陽性症状と陰性症状と認知障害からなる。

統合失調症は線条体のドーパミンおよびD2受容体の増加と、PFCのドーパミンの減少によって起こる。

ドーパミンがincetibve salienceだという考えに基づくある理論では、制御不能なドーパミン発火が、様々な概念や記憶にsalienceを付与し、それが妄想や幻覚を生じるとしている。

84. Berridge, K.C. & Robinson, T.E. What is the role of dopamine in reward: hedonic impact, reward learning, or incentive salience? Brain Res. Brain Res. Rev. 28, 309–369 (1998).

85. Kapur, S. Psychosis as a state of aberrant salience: a framework linking biology, phenomenology, and pharmacology in schizophrenia. Am. J. Psychiatry 160, 13–23 (2003).

別の理論では、異常な予測誤差によって不適切な関連付けや因果関係、注意が生じ、それによって精神異常が起こるとしている。

86. Corlett, P.R., Honey, G.D. & Fletcher, P.C. From prediction error to psychosis: ketamine as a pharmacological model of delusions. J. Psychopharmacol. 21, 238–252 (2007).

精神異常の患者では予測誤差に関して異常な神経活動が起こるが、これらの異常と精神疾患の関係は、まだ仮説の域を出ていない。

87. Corlett, P.R. et al. Disrupted prediction-error signal in psychosis: evidence for an associative account of delusions. Brain 130, 2387–2400 (2007).

88. Murray, G.K. et al. Substantia nigra/ventral tegmental reward prediction error disruption in psychosis. Mol. Psychiatry 13, 267–276 (2008).

陰性症状はおそらく報酬の感受性の低下を反映していると考えられるが、一貫した証拠があるわけではない。

仮説の通り、統合失調症患者は、正の予測誤差に対する神経活動が弱くなり、線条体の反応も減り、意欲消失が起こる。

統合失調症の患者は、Go学習の低下も見られるが、これは必ずしも陰性症状に対応しない。

これらの研究では、陰性症状はPFCの機能不全と関係があるようである。

無快楽症は、不確実性駆動探索？の低下と関連付けられる。

（不確実性駆動探索では、）

90. Strauss, G.P. et al. Deficits in positive reinforcement learning and uncertainty-driven exploration are associated with distinct aspects of negative symptoms in schizophrenia. Biol. Psychiatry (in the press).

これはおそらく、無快楽症だとする判断が、探索を必要とする好ましい活動の程度によってなされることを反映している。

正の予測誤差への反応の低下と、Go学習の低下は、線条体のphasicなドーパミンの低下を反映しているのかもしれない。

その代わり、tonicなドーパミンは、phasicなドーパミンを抑制しているようである。

実際、統合失調症の患者はGoバイアス（tonicドーパミンによる）が強いが、Go学習（phasicドーパミンによる）は弱い。

43. Waltz, J.A., Frank, M.J., Wiecki, T.V. & Gold, J.M. Altered probabilistic learning and response biases in schizophrenia: behavioral evidence and neurocomputational modeling. Neuropsychology published online, doi:10.1037/a0020882

(22 November 2010).

関連ループを通じて、GoバイアスがPFCで無関係な情報を関連付けてしまうのだろう。

PFCのドーパミンの減少も、情報の表現を変わりやすくしてしまう。

このPFCの極端な変わりやすさが、認知障害と陽性症状に繋がるのではないか。

臨床前動物モデル

強化学習モデルは…

一つの例は向精神薬のスクリーニングに用いられる、条件づけ回避課題である。

条件づけ回避課題は…

回避反応は負の状態から中立的な状態へ変位するため、正の予測誤差が生じる。

この正の予測誤差は、警告信号と回避行動の結合を強化する。

この考えを裏付けるように、側坐核の破壊（criticの削除？）や、黒質線条体投射の破壊（actorへの予測誤差の伝搬を阻害？）は、回避学習を妨げる。

背側線条体へのドーパミン投射を訓練後に阻害しても、回避学習が妨げられない。

これはアクタークリティックの理論に合致する。

なぜなら背側線条体への投射は、刺激と反応の学習には必要だが、刺激に応じた反応の発現には不要だからである。

背側線条体と異なり、訓練後の側坐核のD2阻害は、回避学習を妨げる。

回避課題の標準的な使用では、抗精神薬は訓練後に用いる。

低用量の向精神薬は回避を妨げるが、電気ショックからの逃避は妨げない（おそらくは事前の回避はできないが、加えられた後は逃げようとする、という意味）

これは側坐核の機能による。

側坐核のドーパミンは、道具的条件づけを調節する。

これはおそらく基底核のらせん状のループを介して、背側線条体に影響を及ぼすことによる。

回避反応の阻害は、おそらく道具的条件づけ行動の阻害による。

電撃からの逃避は痛みが恐怖を掻き立てるため、阻害薬投与の影響は小さい。

同様の現象は、報酬獲得でも起こる。

全身もしくは側坐核内への少量のドーパミン阻害薬の投与は、レバー押しを妨げるが、食物への接近や摂取は妨げない。

電脳ラボ

脳のコンピュータモデルに関する論文のレビューなどを細々と続けていこうと思います。

From reinforcement learning models to psychiatric and neurological disorders