ゆらぎと学習

2005/6/19

今日の研究会では、Berthier, Rosenstein and Barto (2005) Approximate Optimal Control as a Model for Motor Learning. Psychol. Rev.および東工大の鈴木さんの研究発表を聞いた。後者の方はまだ途中の段階だと思うが、これからの発展の可能性を秘めたおもしろい研究だった。ただ、この研究は発表前であり、ここで詳しく話してはまずいようなので(というようにこのエントリーのTB先で書いてあるので)、以下では始めの方の論文について感想を書いておく。


始めの方の論文だが、乳児のリーチング(到達運動)の学習過程をシンプルな強化学習によってシミュレーションをするというもの。ただし、肝は運動指令にノイズをわざとのせて、揺らぎを生じさせながら学習を行わせると言うところ。この結果、指令そのものではなく、別のアクションが実行されることになり、新しい可能性の探索が行われ、結果として学習が迅速に行われる。ノイズの量を減らすと学習は難しくなり、たとえば20%程度まで減らしてしまうと、ゴールの達成率が2/3程度に落ちてしまう。

この結果はとてもおもしろい。その論文でも、またこのエントリーのTB先のページでも指摘されているが、このアプローチはSieglerのoverlapping waves theoryという発達心理の新しい理論化と通じている。この理論はシンプルで、ある段階の子どもは複数の思考のモード(ストラテジーとか)を持っており、それにある種の強さ、つまり思考の頻度を決定するようなパラメタを持っていると仮定する。この強さに応じて、ある段階ではあるストラテジーが支配的となる。しかし、決してこの支配的ストラテジーのみが使われるというわけではなく、ある揺らぎによって別のより進んだストラテジーや、より劣ったストラテジーも使われる。こうした経験を通してここのストラテジーの強さが変化する、これが発達を構成している、というのがSieglerの考えだ。

この考えは、子どもの思考の変動性(子どもは決して1つのことに固着して考えているわけではない)を自然に取り込んでいること、また学習と発達との関係を明確にし、発達のメカニズムを探求することが可能になること、微少単位で子どものパフォーマンスを研究するという新しい研究パラダイムを提供していることなど、いろいろといい点がある。

ネタは全然異なるが、Tパズルなどの洞察課題においても、同じことが言える。被験者が一方向でものを考えて行き詰まっている状態であっても、そこでは一定程度の割合でその方向とは別の試行が行われる。つまり、意図的にか、無意図的にか、指令レベルなのか、実行レベルなのか、そこらへんは分からないのだが、普通のやり方を逸脱したものが行われる。そしてこれの頻度がうまく洞察問題を解決できる人と、そうでない人を区別するものとなる。

ただ彼らの論文で疑問として残ったのは、一律に誤差をのせるというようなアプローチはどの程度心理学的、生理学的に正当化できるのかという点。もう1つは、別の可能性の検討。彼らのモデルではある時点でのアクションは価値関数によって決まる1つのアクションとなる。これにノイズがのることにより、別のアクションが結果として実行されることになる。しかし、ある時点で実際に実行されるアクションは1つだとしても、潜在的には別のアクションがいくつも発火直前状態になっているとは考えられないだろうか。そして、実行された、その時点での勝者のアクションの結果により、潜在的に活性化されたアクション群はその強さを更新したり、そのアクションを実行したときに生み出される状態の価値を変更したりするのではないだろうか。

こういう微妙な問題はどのような実験によって解決できるのかは不明だが、私の立場からするとこちらの方がありそうな気がする(あるいは単に好き)。


Comments are closed.