報酬系の強化学習モデルに関する研究の流れ

1990年代前半のSchultzらによる一連の研究はインパクトがあったし、1995年前後の理論神経科学者による強化学習によるモデル化も見事だったと思うが、神経科学の領域しか知らないと、なぜあのタイミングで強化学習によるモデルが出てきたのか釈然としないかもしれない。

そんなわけで、報酬系に関する研究と、強化学習に関連した人工知能研究の流れを俯瞰してみたい。

参考文献は適宜挙げるが、主としてSchultzの1998年の総説や、SuttonとBartoの『強化学習』、RescorlaとWagnerの1972年の論文あたりを参考にした。

またブログ主は神経科学と情報工学に関してはある程度知識があるが、学習心理学に関して基礎知識が不十分なため、『メイザーの学習と行動』なども参考にした。

〈Schultzの実験と学習心理学〉

90年代前半にSchultzが行った実験は、食物等に対するドーパミン細胞の反応を詳しく調べたいという生理学的な関心によるものだったようだが、得られた知見は学習心理学の中心的な話題に神経生理学的な説明を与えるものだった。

その後の彼自身による実験の解釈や、理論神経科学者によるモデルは、学習心理学の流れに沿ったものが多い。

そのため、まずは学習心理学の流れについて概観する。

現在学習心理学が扱っている現象はそれなりに広いが、初期から一貫して「条件づけ」が主要な話題の一つである。

条件づけには刺激と刺激を関連づける古典的（パブロフ）条件づけと、刺激と行動を関連づけるオペラント（道具的）条件づけがあり、古典的条件づけはPavlovによる1900年代の研究、オペラント条件づけはThorndikeによる1890年代の研究が先駆と言える。

二つの条件づけには違いがあるものの、ブロッキングや隠蔽など、共通して観測できる現象も数多く存在する。

Schultzの行った実験は、行動が介在しているものもあるが、基本的に刺激と刺激の関連づけなので、古典的条件づけの実験と考えてよいだろう。

学習心理学の研究の流れを余すことなく説明するのは困難だし、十分な知識があるわけでもないので、ここではこのブログの主題に沿ったもののみ記す。

学習心理学における重要な法則のいくつかは、先駆者であるThorndikeやPavlovが発見したが、その後の研究によって明らかになったものもある。

「２つの刺激が数多く対にされるほど個々を結びつける連合が強くなる」という頻度の原理は、1820年にBrownによって提唱されたものだが、その後もHull（1943）によって詳しい分析がなされ、Estes（1950）やBush & Mosteller（1955）によって定式化された。

〈情報工学における試行錯誤学習の流れ〉

〈年表〉

電脳ラボ