人間が選択肢を考えるとき、脳はどのように動いているのか。その仕組みはまだまだ解明しきれていない。人間や動物が脳内シミュレーションによって、現在や将来の状態を推定する脳の仕組みをニューロンの回路レベルで解明しようとしているのが、沖縄科学技術大学院大学(OIST)の銅谷賢治教授だ。人間の脳活動計測や実験動物のデータを機械学習モデルと組み合わせることで脳の学習や意思決定の仕組みを解明する手法について伺った。

人間の強化学習の仕組みを研究
Q:機械学習というジャンルにおいて、どういった課題のもとで研究を進めていらっしゃいますか?
もともと、人間や動物が運動やスポーツで「なぜ、上達するのか」というテーマに興味を持っていました。この運動学習の仕組み、特に、「最初から何をやればいいのか、どういうパターンで動けばいいのかは与えられているわけではないのに、新しい技や運動のパターンを学習できるのはなぜだろう」、という疑問から研究を始めました。
機械学習の枠組みでいえばこれは「強化学習」の枠組みに相当します。それをソフトやロボットに応用したときにいかに確実に効率よく働く学習アルゴリズムを作るかという工学的研究と、それがロボットが人間や動物の脳でどう起こっているのかを調べるという脳科学研究の2つを進めてきています。
人間の脳については、まだまだわからないことがいっぱいあります。現在のロボットが人間や動物に比べて不器用なのは、器用さや賢さの仕組みが本当のところではまだ分かっていないためです。ロボットとかプログラムを動かしてみることと、脳が実際にどうなっているのかを調べることはお互いに助け合う関係にあり、両方進めていくことが必要なのです。「人間とか動物の脳で、いろんな運動学習がなぜできているか」が本当に分かったとしたら、そのやり方をまねてロボットに実装することが原理的に可能になります。
研究としてはシンプルなことから始めます。たとえば部屋の中に二つ穴があって、ネズミが左の穴を選ぶか右の穴を選ぶかといった問題です。この実験では、穴の選び方に応じて、ある確率でエサがもらえたりもらえなかったりします。二者択一の非常に単純な行動学習ですが、エサの出る確率を時々変化させると、それに応じてネズミも行動を変えてきます。このときのネズミの行動を再現するアルゴリズムを作り、そのアルゴリズムに対応する処理がネズミの脳内でどうなされているかを徹底的に調べる研究をしました。
この実験では、脳の中の大脳基底核という部分の細胞が、左右の行動の選択肢のぞれぞれが現時点でどれくらい良いかの評価に関わることがわかってきました。意思決定あるいは行動選択の基本的な要素の計算機構に迫ることができたのです。
これは単純な二者択一でしたが、我々の日ごろの行動というのはもう少し複雑な予測をしていることが多いわけです。たとえば喉が渇いたとき「手元にあるボトルで飲むか、ちょっと歩いて自動販売機まで行ってジュースを買うか」といった行動を考えてみると、その過程で何を体験して、それぞれどれくらい良いか、あるいは面倒くさいかを予測したうえで最終的な選択をしているわけですね。
このような予測やイマジネーションを使った意思決定の仕組みの研究が非常に進んできています。何かをやってみて良かったか悪かったかという単純な判断だけではなく、やってみたら何が起こるか、それは自分にとって良いものなのか悪いものなのか、それを予測して比較検討して行動を選ぶ。これを私たちは「脳内シミュレーション」というキーワードで捉えて研究を進めています。
2011年から始めた新学術領域研究というプロジェクトでは、この脳内シミュレーションをメインのテーマにしていました。たとえば被験者にあるゲームをプレイさせ、自分のコマをどう進めるとゴールにたどり着けるか、ボタンを押して操作を始める前にしばらく「考える時間」をとりました。この脳内でのシミュレーションで問題を解いているときに、脳の中のどこが活動するかを、MRI装置を使って調べました。思考などの高次な処理には大脳皮質の前頭前野という部分がかかわっているだろうと昔からいわれてきましたが、私たちがやった結果はそこだけではなく、大脳皮質でも空間情報の処理をする頭頂葉と、さらに小脳や大脳基底核の一部が活動しているとわかってきました。脳の複数の場所を使った幅広いネットワークが、脳内シミュレーションによる行動の計画に関わっているのです。
また別の実験では、脳の各場所で実際何が起きているかを調べるために、マウスやラットを使っています。人間の脳では個々の神経細胞レベルの情報というのは取りにくいためです。マウスに高度なゲームを解かすのは大変ですが、脳内シミュレーションを使うなるべく自然な行動を行なわせて、その時のニューロンの活動を解析するという研究をしています。
最近はカルシウムイメージングといって、神経細胞に遺伝子工学を使って活動すると蛍光を発する性質を持たせることができるようになりました。脳中の数百個のニューロンの活動を同時に記録することができます。
実験では暗闇の中で直線上を歩いていってゴールにたどり着くと砂糖水がもらえるという行動をマウスに行なわせました。どれくらいゴールに近づいたかは、間欠的な音でフィードバックされます。夜行性のマウスにとってはこれは自然な行動のはずです。マウスはゴールが近づいてくると、砂糖水が出るパイプをなめるようになるので、暗闇の中でもゴール距離を予測しながら近づいていることがわかります。さらに、音のフィードバックを一時切っても、自分が歩いたことに応じてゴールに近づいていたことを推定してパイプをなめることが増えることがわかりました。つまり、ごく単純なかたちでの脳内シミュレーションがマウスでもできるのだということです。ここでは「自分の行動(歩行)に応じて、ゴールへの距離の推定値を更新していく」ということをやっているわけです。
この行動中にマウスの大脳皮質の頭頂葉のニューロン活動を数百個同時に記録し、そこに一種の機械学習アルゴリズムを使うことで、ニューロンの集団がゴールまでどのくらいの距離を表現しているかを推定できます。その結果、音のフィードバックがなくて走っている状態でも、ニューロン集団の表現する距離は、歩行に応じてゴールに近づいていっているということがわかりました。つまり、頭頂葉のニューロンの集団が一種の脳内シミュレーションに関わっているのだということが、個々のニューロンの活動のレベルで分かってきたというのが最近の成果です。
Q:これまでも認知心理学でずっと古典的な研究というのは続いて来ていると思うのですが、意外にもまだ脳ってなかなか解明されない難しいところがあるのですか?
「外部からの感覚信号はなくなったけれども、先ほどは確かにこうだった」と覚えておくということを作業記憶といいますが、そのような仕組みが大脳皮質にあるということはかなり前から分かっていました。ただ、そのような脳内表現が自分の行動に応じてアップデートされていくという、もっとダイナミックな仕組みがあるということは、これまでの実験ではなかなかわからなかったですね。
感覚信号が必ずしもなくても、自分の予想に応じてアップデートしていくという現場をちゃんと記録することができた。これはやっていて非常に面白かったところです。
この、過去の状態と行動から現在の状態を推定する仕組みは、現在の状態からこの行動をとったらこういう状態に変化するだろう、という先読みにも使えるはずです。さらに現実にとらわれず、何らか想定した状態からその変化を予測する、「イマジネーション」にもつながっていくわけです。
この脳内シミュレーションの仕組みは人間の高度な認知機能の非常に重要な要素になっているはずで、その仕組みをニューロンやニューロンを繋ぐ回路のレベルで明らかにすることをテーマとして取り組んでいるところです。
Q:人間の勘と呼ばれるものと予測と呼ばれるものは違いますか?
私たちはそれをモデルフリー、モデルベースという言い方をします。勘というのは一発で「これはいい」とか「これはダメ」と評価しますが、それに対して先読みというのは脳内モデルを使って、これをしたらこうなるという予測を何ステップか巡らせた上で、これはいいとかやめておこうとなります。勘というのは非常に効率よく一瞬でできるけれども、やっぱり新たな状況や微妙な違いになってくるとそれだけではダメで、先読みが必要になります。いっぽう、先読みするには時間がかかるので、完全に読み切ることはできなくても、ある程度読んだらその先は勘で決める、という組み合わせもできるわけです。
モデルフリーの行動の選択には、主に大脳基底核が関わっていると考えています。それに加え、状況から脳内シミュレーションを巡らすところでは、その大脳基底核だけではなく大脳皮質や小脳も関わるネットワークが関与していると考えています。
Q:実際の動物実験で発見できたところ、まだまだわからないところはありますか。
カルシウムイメージングの実験では、大脳皮質のさまざまな深さのニューロンの活動を観測することができます。浅い層のニューロンは感覚情報を強く受け、深い層のニューロンはトップダウンの情報を強く受けるという解剖学的な特徴が知られているので、その層によってニューロンの活動が大きく違うのではないかと思っていましたが、これまで計測できた範囲では深さに応じた活動の違いはまだはっきりとはわかっていません。
一つは現在の計測技術の問題で、個々のスパイクのような早い現象はカルシウムイメージングでは捉えられません。数十ミリ秒程度の、ニューロンのスパイクに比べたらゆっくりとしたデータを解析しているために、異なる層の間でのより速いダイナミックな特性が見られていないという可能性があります。また一回の実験では、特定の深さの焦点面にあるニューロンを記録しているので、異なる深さのニューロンの間のダイナミックな関係を捉えきれていません。現在は、それらをほぼ同時に計測するような実験をやろうとしています。脳内の表現が行動に応じて変化する証拠は捉えたけれども、その変化を生む回路はどうできているのかを調べるにはまだもうひと頑張りしないといけません。
脳の表現だけではなく、その表現を変えていくダイナミクスは何なのか。あるいはアルゴリズムは何なのか。これらは調べていかなければいけないところだと思います。
今一番考えているのは、脳の中のコラボレーションの仕組みです。脳では必要なときに必要な場所が活性化して必要な場所と情報を受け渡しができる、これは一体どうして可能なのだろうということです。MRIを使った脳活動計測実験では、見せる刺激はほとんど一緒でも、「特定の形を選んでください」とか「特定の動きを選んでください」と指示することで、脳の異なる場所で活動が上がることから、ここが形の認識をする脳の場所、ここが動きを認識する脳の場所ということが推定できます。
私たち研究者は、こういった結果から論文を書いて生計を立てているわけですが、そもそも「なぜ必要なときに必要な脳部位が活動するのか」という原理はまだわかっていません。必要なときに必要な脳部位が活動して信号が伝えられわること自体すごく不思議なことだと思うのですが、それ自体を問題として研究した人はほとんどいません。ここが非常に面白い問題だと思いますね。
人工知能のほうでも視覚情報処理や音声情報処理など様々な学習モジュールが獲得されてきますが、それらを必要に応じて上手く組み合わせることが求められています。
私たちの脳は視覚認識や音声認識の様々なシステムを組み合わせて状況に応じた判断や行をしてているわけですが、このモジュールの組み合わせを探索して新しい回路を見つけていくことが次世代の人工知能で求められてきます。学習結果のフレキシブルな組み合わせを実現することが、人工知能の研究としても重要かつ面白い課題だと思っています。
スポーツの指導経験から、研究テーマを発見
Q:これまでの経歴をお話しください。
学生時代はスキーのサークルに入っていて、スキー漬けの毎日でした。お金があれば自分のトレーニングをするし、なければスキー学校でアルバイトをしているような学生でした。スキー学校の生徒にスキーの滑り方を教える中で「重心が遅れちゃいけない」といった言葉を使うのですが、多くの生徒は「言葉では分かっているけどもそうは体が動いてくれない」と言います。当時は第五世代コンピュータ、つまり記号論理ベースの人工知能が花形だった時代ですが、ちょっとそれは違うのではないかと思ったわけですね。
そこで、人間が新しい行動を学習する仕組み、あるいはロボットに新しい行動を学習させるにはどうすればいいのかということを考えるようになったわけです。卒業研究ではモーター2つで前後の脚を動かすロボットを作り、当時学部の学生でも自由に使えるようになった8ビットマイコンをプログラミングしてロボットを動かし出しました。
当時ロボットに自分で行動を学習させる方法などはどの教科書にも書いていなかったので、自分なりに色々考えて、まず動きのパターンを何らかの数値で定義して、それがどれくらい上手くいっているかを計測しフィードバックすることが必要だと気づきました。
そこでロボットの後ろにロータリーエンコーダーをつけて引きずらせ、どれくらいのスピードでどちらの方向に歩いているかが分かるようにしました。動きのパターンを決める数値をランダムに変化させて、より速く進むようになったらその変化を採用し、逆に遅くなったらもとに戻す、という単純なアルゴリズムでも、ロボットの体のダイナミックな特性をうまく使った運動を学習できることがわかりました。
当時は強化学習という言葉も知りませんでしたが、そういったことをやる中で研究がますます面白くなってきました。
その後大学院に行ってから、それを理論的に裏付けるような勉強をしました。博士論文では、内部にループを持つ神経回路モデル(リカレントニューラルネットワーク)に、ダイナミックな時間パターンを生成させるための学習アルゴリズムの研究をしていました。
博士号を取ったところで、人工的な神経回路の学習アルゴリズムは一応できたけども、その学習にはすごく時間がかかるし、あまり良くない解で学習が止まってしまうという問題がありました。そこで、実際の動物や人間の脳の神経回路の学習の仕組みはどうなっているのだろうということで、当時僕の研究に興味を示してくれたカリフォルニア大サンディエゴ校(UCSD)の生物学科のセルバーストン教授の研究室にポスドクに行きました。その頃サンディエゴというのはいわゆるコネクショニズムのメッカで、ニューラルネットワークを工学的に応用するというのと、それを使って脳の仕組みに迫ろうということを考えている人が集まってきた時期でした。
セルバーストンラボの後はUCSDの隣にあるソーク研究所のセイノウスキー教授の研究室に移ってポスドクをしました。当時研究室には世界中から脳の仕組みをニューラルネットモデルや統計解析で探ろうという野望を持った若い人達が大勢集まってきており、非常に刺激的な日々でした。そこで出会ったメンバーは現在世界各地でラボを率いて活躍しており、非常に強力な人脈です。
その後、日本の普通の大学の助教授などはあまり面白くなさそうだなと思っていましたが、日本にもATRという、非常に国際的で自由に研究ができるという研究所があることを知り、そこに10年近く在籍していました。ATRにいた頃、「神経情報科学サマースクール」といって、神経科学と情報科学の境界領域に興味がある学生を集めるサマースクールを開講しました。予算もあまりない中、偉い先生に手弁当で来ていただいたりして、学生も先生方も、新しい神経科学を開こうという熱気のある集団でした。
その後、沖縄に新しい国際的で学際的な大学院大学を作ろうという計画が持ち上がり、これこそ自分が一番やりたいことではないかと思って応募し、ここ沖縄科学技術大学院大学(OIST)の研究代表者の第一期生として採用されたというわけです。OISTでは学部とか学科の枠に縛られない研究をするということに魅力を感じました。 普通の日本の大学では、各学部の枠に縛られたカリキュラムでなかなか難しい面があります。それに対してこのOISTではそれができる。これは素晴らしいことだと思います。
Q:人工知能の研究分野について日本は進んでいますか?
世界中で競い合っているところだと思いますが、例えば自動運転でいえば、車の周りの状況認識に関してはディープラーニングを使ってかなり高度なことができるようになってきたと思いますね。しかしある状況下で次に何をすればいいのか、たとえば隣に車がいるときに先に譲って後ろに入ればいいのか、加速して前に入ればいいのかなど、他の車を見ながらそれぞれ何を狙っているか予測したうえで次の一手を決めるような運転、これは研究すべき面白いテーマだと思いますね。
Q:MRIの進歩によって、研究体制はどう変わりましたか。
MRI自体の解像度も上がっていますし、取ったデータをいかに活かすかという所でデコーディングという技術が発達しています。MRIの信号は2ミリ角とか3ミリ角ぐらいのボクセルと呼ばれる単位で計測されますが、かつては個々のボクセルの活動を増えた、減ったということで何らかの情報を表現することを探っていました。現在はそういったものが数百個集まった領域を考えて、パターンの変化から情報を抜き取ることができるようになりました。これはデコーディング技術という手法で、機械学習の手法を使ってだいぶ進んできました。
MRIに機械学習の技術を組み合わせることで、これまで見えなかったものが見えるようになってくる。これは大きな進歩かなと思いますね。ある領域の平均的な活動が増えるというよりも、その中の個々のボクセル(部分の活動の変化)を機械の学習を使って上手く抜き取ると、これまでは取り出せなかったような情報を取り出せるわけです。より細かい情報をそれぞれの人にカスタマイズした形で取り出せるようになってきたということですね。
Q:人工知能分野は今後進歩が望まれるジャンルだと思います。学生はどれくらいいらっしゃいますか?
博士課程学生が8人いて、OISTの研究室では多いほうです。シミュレーションやデータ解析をやっている学生もいるし、動物実験をやっている人もいるし、経歴と関心に応じて様々ですね。元々工学系の出身だけど脳に関心があるとか、逆に生物系の出身だけれども脳の学習機構をこういった機械学習とかの手法を通して理解したいという学生は非常に多いですし、これからも多様な学生がやってくると思います。
Q:この研究に興味のある学生には、何が必要ですか?
何でも色々興味を持ったらそれを探ってみることが大事ですが、ただ読み漁るだけじゃなくそれに加えて実際自分で手を動かして試してみることが大事だと思います。
機械学習に関しても多様なツールが出回っていて、それを使って自分で走らせてみることができるようになりました。脳の実験をするにはどこかの研究組織に属さないと難しいですけれども、脳の活動とか解剖学についてはたくさんのデータが公開されているので、データの解析ができます。これを自分で試してみることで、本に書いてあることを信じるのとは違った新しい発見があります。教科書に書いてあることはある先生が見つけたことかもしれないけど、実際に生データを見ていったり自分でプログラムを走らせてみたりすればそこでは抜けていたことに気付くかもしれないわけです。同じデータがあっても、それを解析する人によって抜き取れる知識というのは違ってくるわけですからね。
Q:最後に、目標とされていることについてお話ください。
大脳皮質のメカニズムをニューロンレベルできちんと明らかにしたい、というのは非常に大きな目標ですね。大脳皮質というものは、自分の行動とか過去の経験を元に現状を推定したり、今後何が起こるかを予測したりということに使われているのではないかと思いますが、それをより詳しく解明していきたいです。
もう一つは、脳のアーキテクチャにならったような学習エージェントモデルを作って実際ロボットに実装してそれがどう成長していくのか。これを工学的な方法で試してみたいと思っています。現在私たちが作っているのが、スマートフォンをベースにしたロボットです。最新のスマホも非常に高度な計算パワーと色々なセンサがついており、あとは車輪をつければ立派なロボットになります。ロボットを作る中で私たちが想定しているような脳の仕組みというのが本当に動くのかどうか、もし動かないとしたら何が欠けているのか。これを明らかにしていくことをやっていきたいと思っていますね。(了)

銅谷 賢治
どうや・けんじ
沖縄科学技術大学院大学 神経計算ユニット 教授。
1961 年東京生まれ。東京大学卒、博士(工学)。東大工学部助手から 1991 年にアメリカ、サンディエゴに移り、ソーク研究所等で脳科学を学ぶ。1994 年から京都のATR研究所にて行動を自ら学習するロボットの開発と、脳の学習の仕組みを研究する。
2004 年より、沖縄科学技術大学院大学先行研究代表研究者。2011年沖縄科学技術大学院大学神経計算ユニット教授、副プロボースト。
2007年学術振興会賞、塚原仲晃賞、2012年文部科学大臣科学技術賞。