電脳ラボ

脳のコンピュータモデルに関する論文のレビューなどを細々と続けていこうと思います。

A Model of How the Basal Ganglia Generate and Use Neural Signals That Predict Reinforcement

James C. Houkが自身で編集した本の中で、自分で書いてる章の内容(1995年のもの)。

ドーパミン系が報酬予測誤差をコードする機構についての仮説。

PCを整理していたら、以前この章の何割かを訳したものが見つかったので掲載してみる。

 

以前はHoukの研究室のHPからこの章のPDFをダウンロードできたのだが、今はリンクが切れているようだ。

ただ元の本が、Googleで無料で公開されているみたい。 

 

 

INTRODUCTION

 

報酬や罰の結果としての強化は、人間や動物の行動を形作る上で重要であり、また大脳基底核ドーパミンシステムが強化学習を行う上で決定的な脳の機構であるというかなりの証拠がある。強化はまた、工学的なコントロールにおける困難な問題を解決するための強力な戦略でもある。強化による学習は多くの有利な特徴を持っているが、責任割り当て問題という決定的な限界も持っている。生物学的観点から見ると、どのシナプスをどのタイミングで強化するのが学習を行う上で効果的かという問題である。ここで我々は、時間的な責任割り当て問題を、次の強化の予測を可能にする出来事の検知として扱う神経モデルを提示する。我々のこのモデルは、線条体の島構造の解剖学と生理学と、ドーパミンニューロンの伝達特性に基づいている。我々はまた、11章でバルトによって述べられている適応的評価理論に基づいた、認知的基礎を提示する。このモデルの原型となるものはすでに発表されている。

 

 

DOPAMINE NEURONS

 

ドーパミンニューロンが黒質緻密部と腹側被蓋野に存在し、行動の一次強化と強化刺激をもたらす行動の強化の両方に重要な役割を果たす。12章では、シュルツとその同僚がサルのDAニューロンからの電極記録の知見をまとめており、新しい課題を学習する際にはこれらの細胞は一次強化刺激に反応する。その後学習が進むと、これらの細胞は一次刺激に先行する刺激に反応するようになり、強化刺激の予測器として機能するようになる。たとえば、

 

 

ORGANIZATION OF STRIOSOMAL MODULES

 

大脳基底核の入力層である線条体は、ストリオソームと呼ばれる境界で囲まれた領域と、それを取り囲むマトリックス領域に分かれている。どちらの線条体領域も、棘ニューロン(大脳皮質や視床からの多数の入力を受け取る棘が突起の全体にあるためそうよばれる)を含んでいる。しかし、二つの領域は化学組成が異なり、投射するニューロンも異なる。ストリオソームの棘ニューロンは黒質のDAニューロン腹側被蓋野に投射し、マトリックス領域の棘ニューロンは淡蒼球の内側と黒質網様部にある基底核の出力ニューロンに投射する。この章では主に、図13.1のようにDAニューロンに投射しているストリオソームの棘ニューロンを扱う。

 

 

ストリオソームモジュールの別の重要な解剖学的性質は、入力を送っている部位と同じストリオソームの領域にDAニューロンが投射していることである。(図13.1を参照)このSPsとDAニューロンの集団間の相互結合の性質は現在4つの研究室で証明されており、ストリオソームモジュールの確かな性質だと見なせるだろう。

 

 

 

MECHANISM OF RESPONSIVENESS TO PREDICTORS OF REINFORCEMENT

 

図13.1に示したストリソームモジュールの構成から、…図13.2は、「強化の予測物」が…これらのシグナルが仮説上のタイムコースを示している。

…我々は、なぜDAニューロンは強化の予測物に反応し、視床下部側方からDAニューロンに投射しているにもかかわらずその後の一次強化刺激に反応しないのかを説明したい。

この章では、すでにSPsニューロンが後で述べる細胞内機構によって報酬を予期させる文脈に対してバースト発火するように学習していることを想定する。図13.2の「サイドループ」と「ダイレクト」の線は、この発火によって生じる興奮性の間接路と抑制性の直接路からの入力に対して予測されるDAニューロンの反応を示している。この興奮性の入力が抑制性の入力に先行するという想定は、皮質や線条体への電気刺激が、黒質ニューロンを興奮させた後に抑制させるという電気生理学的実験に一致する。しかしモデルでは、抑制が働く時間は電気生理学的実験の結果よりも長い時間を想定している。このような実験は今のところ、GABAA受容体を介する25 ms続く比較的速い抑制を示しているに過ぎない。遅い抑制はまだ示されていないが、黒質に高密度にあるGABAB受容体から存在が予測される。GABAA(※Bの誤植?)受容体はG蛋白質を介して働き、シナプスの前後で抑制性の効果を示す。

「プライマリー」と書かれた線は、視床外側核からの一次強化刺激によって起こると考えられる興奮性のシナプス後活動である。これが単独で起きた場合には、DAニューロンはこれに反応する。しかし、一次強化刺激が予測文脈による興奮の後に起こった場合、

 

ここまで我々は比較的単純な、一次的な予測物、例えば一次強化の直前の文脈依存的な出来事などに対する反応の場合を考えてきた。一般的に、より長い一連の出来事や行動が最終的に一次刺激をもたらすものである。例えば、図13.3に示した入力は、二つの前後した刺激を含み、それが連続する強化の予測物として機能している。二つの予測物をCa、Cbとし、Caはサルが食べ物の入っている箱に手を入れてりんごに触れたとき発生するもの、Cbはより早い二次的な予測物、つまりシュルツと同僚による実験の食べ物の入っている箱の開封にあたるものとする。一次刺激のrは、りんごの消費と考える。

input sequenceの下の線は、各入力に対する正味のシナプス後活動を表している。CaとCbに対する反応は初期興奮相の後に長い抑制が来るが、rに対する反応は単なる興奮である。Daニューロンはこれらの総和をとるものとみなすことができる。Cbの抑制相がCaの興奮相を打ち消し、Caの抑制相がrの興奮相を打ち消すのは明らかである。一番下の線はこれらの総和の細かい部分を無視し、DAニューロンの正味の反応を表したものであり、上記の打ち消し合いの結果、強化の最も初期の予測物による興奮のみが残る。これが食べ物の取り出しの際にDAニューロンで計測されるパターンである。(12章参照)

 

 

CORRESPONDENCE WITH THE THEORY OF ADAPTIVE CRITICS

 

バルトが11章で示したように、適応的評価

 

 

 

 

LEARNING TO PREDICT PRIMARY REINFORCEMENT

 

以前に我々は、サルの新しい行動課題の際にDAニューロンの予測反応を説明できる機構について述べた。この説明は、学習の際にDAニューロンに投射しているSPsニューロンが、強化刺激の予測を可能にする入力に対する反応性を獲得するという想定に基づいている。これはそれほど簡単な学習課題ではなく、一次強化刺激は遅れて与えられるものであり、強化に必要な予測可能な文脈との間に一定の間隔があるのである。シナプス可塑性は線条体ニューロンでも存在が示されているが、強化の遅れの問題については触れられていない。この節では、遅延DA感受性シナプス可塑性の細胞レベルのモデルを提示し、DA強化に先んじて起こる文脈をどのようにしてSPsニューロンが認識できるようになるのか説明する。

リズマンはCaM PKⅡというタンパク質複合体の独特な性質に基づいたシナプス可塑性のモデルを提案した。この分子はシナプス後肥厚の主要な構成物であり、可塑性に重要であるように思われ、また線条体にはかなり高濃度に存在する。カルモジュリンが結合することでCaM PKⅡは活性化され、その後自己リン酸化することで(おそらくはCaMを分子内に保持できるようになり)長時間活性を持続させる。活性化状態が持続すると、LTPを生じさせるためにグルタミン酸受容体を増強する。ここで提示したモデルは、このCaM保持の機構を考慮し、またCaM PKⅡとグリーンガードらによって研究されたDA刺激による細胞内シグナルも考慮に入れている。

図13.4の流れ図は、SPsニューロンのスパインでの様々な因子の相互作用の概要を示したものであり、図13.5はこのような反応がどのように強化刺激rに先行する文脈Caへの反応性を高めるのかを示したものである。図13.4の左上は、

 

 

LTPの生成にはさらに別の反応、すなわちCaM PKⅡの自己リン酸化が必要である。自己リン酸化はPKⅡとCaMの親和性を著しく変化させるため、

 

 

我々のモデルでは、自己リン酸化可能なCaM PKⅡへの変換はLTPの開始に重要であるが、これは適切な時期にDA強化シグナルの到達するかどうかに依存する。DAは

 

 

 

 

 

結果として棘ニューロンのシナプスは、強化刺激より非常に短い時間だけ先行する文脈は無視する。

 

前の節で議論した適切な時間間隔を決定する細胞内シグナルの時間スケールについては十分なデータがないが、おそらく数百msのオーダーだろう。この仮定はモデルの成立条件に基づいている。遅れてくる強化刺激が図13.2に示した遅い抑制入力の期間を超えないことが好ましい。これは前に議論したように、獲得した予測文脈への反応が、後に続く一時強化刺激への反応を打ち消す必要があるからである。

 

 

 

 

図13.4先行刺激の学習を支持する細胞内相互作用

本文を参照のこと。

 

 

図13.5強化刺激の予測物のLTPを生み出す細胞内外の事象の相互作用

前の図と本文の説明を参照。

 

 

 

LEARNING EARLIER PREDICTORS OF REINFORCEMENT

 

前節で議論したSPsニューロンのスパインのDA強化に対する反応の遅れは、一次強化物より一定時間早く発生する一次予測物を学習するのに効果的な機構を提供する。予測可能な文脈は、強化刺激より数百ms先行するが、これは行動の時間スケールではかなり短い間隔である。より高次の予測物への反応を学習することは、より長く様々な遅れが生じるため、困難な問題である。この節では、遅延DA感受性をもったSPsニューロンが組み込まれたストリオソームモジュール全体の学習特性について考えてみる。このモジュールは、強化刺激の予測を可能にする文脈の順序を認識することのできる再帰的な特性を持つ。以降の節ではこのメカニズムと適応的クリティックによる情報処理の類似性について考える。

文脈Caが強化刺激rに先行する際、文脈Caに先行する文脈Cbが、ストリオソームモジュールのDAニューロンを興奮させるのかについてはすでに述べた。そこで我々は、SPsニューロンがすでにこれらの文脈に対する反応性を獲得していることを想定したが、この節では学習の過程そのものについて議論する。特に、Caに反応して放出されるDAが、SPsニューロンをより初期の強化刺激の予測物であるCbに反応できるよう訓練する二次強化刺激として働くのかについて述べる。その後、その結果を一般化し、どのようにしてこのモジュールが、一次刺激を導く一連の出来事の連鎖を学習するのかについて述べる。

図13.6の一番上のグラフは、それぞれCb、Ca、rからの刺激を表したものである。まず、SPsが過去の履歴からCaに強く反応するようになり、Cbに対しては弱い反応しか示さない状況を考える。Cbに対する弱い反応は、Cbによって興奮させられるスパインで、DA感受性を微妙に増減させる。この後にCaに対する強力な反応が続き、これはCaによって興奮させられたスパインのDA感受性を上昇させる。DAニューロンの反応のグラフは、SPsニューロンの反応とrへの反応によるDA放出への正味の効果である。図13.2と図13.3の例に戻って考えると、

 

 

RELATION TO THE ACTOR-CRITIC ARCHITECTURE

 

この章で述べられているストリオソームモジュールのモデルは、11章でバルトによって述べられている適応的評価構造における適応的評価者の機能を満たしている。この構造は強化学習を実行する場合に有効であり、工学や情報科学で困難な非線形問題を解く際に用いられているものである。基本的な概念は、適応的評価者によって強化の予測を行い、「アクター」を支配する代理の強化物を提供することである。この節ではこの構造を基にして、大脳基底核においてどのように二つの情報処理モジュールが運動制御の「クリティック」と「アクター」のように相互作用するのか考えることにする。

以前、大脳基底核のストリオソーム部分とマトリックス部分で棘ニューロンの結合様式に違いがあることを述べた。図13.7に示したように、SPsニューロンはDAニューロンに、マトリクス棘(SPm)ニューロン大脳基底核の出力部である淡蒼球に投射する。図13.7は、これらの解剖学的部位がどのようにマトリックスモジュールを形成するか示したものである。これはすでに議論したストリオソームモジュールと部分的に類似している。SPsニューロンのように、SPmニューロンは標的となるニューロン(この場合淡蒼球ニューロン)を興奮させる経路と抑制する経路を別々に持つ。PDニューロンの下行性結合は図13.7では省いてあり、視床の特異的な部位を経由する前頭皮質ニューロンへの上行性の経路には焦点を当てている。我々はFニューロンのシグナルはマトリックスモジュールの出力として機能すると想定している。マトリックスモジュールの情報処理実行についての仮説はこの本の1章にまとめてある。

ここで、ストリオソームモジュールが適応的評価者として振舞うと仮定する。加えて図13.7では、線条体のDAの支配は、ストリオソームモジュールによるDAシグナルが隣接するマトリックスモジュールに伝わるほど拡散しているものとする。(この仮定については次節で再考する)単一のモジュールのみ示してあるが、95%の棘ニューロンはマトリックスモジュールにあり、ストリオソームモジュールの20倍ほど存在すると考えられている。これを根拠として、11章の図11.5に示したような競合的に作用するSPmユニットの存在は妥当だとみなせるだろう。同様に我々はここで、あるストリオソームモジュールから入力を受けるマトリックスモジュールの集団同士が競合的に作用すると仮定する。とするとマトリックスモジュールの集団がアクタークリティック構造のアクターとして振舞うのは自然であり、様々な行動を指令するシグナルを出すと考えられるのである。(より現実的な想定については以下で議論する)それと関連して図13.7に示したDA線維のSPm、SPs両方のニューロンへの枝分かれは、適応的クリティックとして機能するストリオソームモジュールとアクターとして振舞う周囲のマトリックスモジュールの十分な結合を提供する。ストリオソームモジュールによって作られた強化の予測物は、マトリックスモジュールを訓練する二次強化物となる。この訓練の影響として、マトリックスモジュールはSPmニューロンに収束してくる皮質入力を、Fニューロンに保持される行動命令の生成の基盤として学習するようになる。DAシグナルは、一次強化物の獲得を促すようにこれらの命令を形作るように働く。

ここで提示した大脳基底核とアクタークリティック構造との類似は、明らかに脳のこの部分の実際の解剖学的・生理学的を単純化して考えたものであるが、大脳基底核の機能として重要な原則や概念を生物学レベルで説明する際の手助けにはなろう。例えば、

 

 

 

 

MORE REALISTIC ASSUMPTIONS

 

前の節で示したモデルは単純で魅力的であるが、その仮定のいくつかは既知の解剖学や生理学の知見を無視している。ここで我々はいくつかの矛盾に目を向け、より現実的なモデルことの重要性について議論する。

前の節で我々は大脳基底核の役割について

 

 

 

 

Fシグナルと実際の運動指令の関係は明らかに柔軟なものであり、これが新たな不確定性の源となり、適応的クリティックと競合する要素となるだろう。これらの考えは前に述べた大脳基底核のアクタークリティックモデルを否定するものではない。しかしこのモデルには、より柔軟で複雑、そしてより強力なコントロールの手法が必要となるだろう。

 

 

 

SUMMARY

 

ここで示したモデルは、どのように大脳基底核のDAニューロンが強化予測能力を獲得し、またこれらのニューロンからの出力がどのようにして一次強化信号(報酬)を導く行動を強化するのかを説明するものである。DAニューロンはストリオソームモジュールに埋め込まれており、そこには線条体ニューロンの相互結合が含まれる。我々は棘ニューロンがDA入力によって訓練され、強化刺激より一定時間先に与えられる文脈を検知できるようになるという細胞レベルでの学習規則を提案する。そしてストリオソーム棘ニューロンはこれらの獲得した反応によって、自分へのDA入力をコントロールする。この再帰的な機構により、DAニューロンはより早い強化刺激の予測物を検知できるようになる。DAシグナルはまた、マトリックスモジュールの棘ニューロンにも分岐し、行動の計画や支配に有用な文脈を検知し登録できるようこれらのニューロンを訓練する。提案したスキーマは、困難な工学的な問題を解く際に用いられるアクタークリティック構造と興味深い類似がある。