電脳ラボ

脳のコンピュータモデルに関する論文のレビューなどを細々と続けていこうと思います。

オペラント条件づけにおけるブロッキング

オペラント条件づけにおけるブロッキングの研究に興味が出たため、まずは『学習理論の生成と展開』で関連する項目を読んでみました。

オペラント条件づけについての章である4章に、「Rescorlaの階層的連合理論(p.154)」という節があり、そこでRescorlaの行ったブロッキングの研究が紹介されています。

実験の概略は

予備訓練 (S1→)R1→O1, (S1→)R2→O2

ブロッキング (S1,S2→)R1→O1, (S1,S2→)R2→O2
       (S1,S3→)R1→O2, (S1,S3→)R2→O1

テスト S2,S3

というもので、テストでのS2の提示はブロッキングにより反応を増加させませんが、S3の提示は反応と報酬の関係を変化させるため学習を生じ、反応を増加させます。

重要なのは、S3の提示下では求められる反応だけが変化したのではなく、得られる報酬が変化したわけでもないのですが、反応と報酬の組合せが変化したため、(ブロッキングによって)無視されなかったということです。

Rescorlaはこのような観察結果から、S-(R-O)という図式を提案しています。

個人的に関心があるのは、強化学習モデルではどのように表現できるかということで、報酬そのものが変化しているわけではないので、S3に価値が生じるモデルにするには工夫が必要になりそうです。