Hanan Shteingart and Yonatan Loewenstein
Current Opinion in Neurobiology 2014, 25:93–98
ヒトのオペラント行動の強化学習モデルについてのreview。
model-free RLとmodel-based RLがあって、今までは前者ばかり着目されてきたが、後者も重要だ、といった話のよう。
model-free RLは、環境についての完全な情報を必要としないRLという意味で、TD学習などを含み、オンライン型の強化学習とほぼ同義。
model-based RLは、環境についての完全な情報に基づくRL(?)で、動的計画法やモンテカルロ法で学習するらしい。