ロボットが苦手な「視覚」を研究
Q:まずは、研究の概要について教えてください。
現代のロボットにできること、できないことを考えたとき、ロボットにできないことというと、一つは手で何かを掴むことが挙げられます。また、どんなものがどこにあってというような環境を認識することは特に難しいと言われています。 一番わかりやすいのは、家庭用のロボットですね。掃除機の役割を果たしてくれる自動ロボットはすでにありますが、それ以外で実際の生活の中で何かしてくれるロボットは今のところありません。基本的には表情が変わったり何かを話すくらいのものだと思います。洗濯や料理までしてくれるロボットは昔から映画などで目にするものの、実現するにはまだまだ遠いところにいるのが現状です。 人間はそれを視覚によって行なっています。ロボットの場合は必ずしも視覚でなければならないというわけではありませんが、一番有力なのは視覚だと言えるでしょう。 しかし、それがなかなか難しいということは昔から言われつづけています。現在、流行っている人工知能はだいたい60年代くらいに研究が始まったもので、知能というくらいですから機械が自ら考えるわけです。 例えばチェスを打つとか、機械にそういうことをさせるのはすごく難しいだろうと考えてみんな一生懸命に研究をしていました。 一方で視覚の研究は、簡単なものだと思われていたのです。人間は、視覚によって一目でどこに何があるのかを理解することができます。それは簡単なことだと思われがちですが、50年以上もの間世界中で研究が行なわれているにもかかわらず、ロボットに視覚を実現することはできていないのです。 近年では、ディープラーニングが出てきたことで10年前では想像できないほどの進歩を遂げていて、顔の認識などはわりとできるようになってきています。しかし、今どこにいるとか、目の前にあるのは何かというような、全体的な環境を把握するところまでは至っていないということです。画像認識と空間認識の組み合わせができるようにならないと、最初にお話ししたような生活に役立つロボットにはまだまだ遠いと言えます。もう少し時間がかかると思いますね。Q:そうしたなか、どういったアプローチで研究に取り組んでいますか。
人間が使っている方法でもあるので、やはり視覚だと思います。カメラもありますし、ロボットへの入力という意味では一番簡単な方法だと言えます。それ以外のアプローチとなると、三次元的な物体の形を捉えるのは結構難しいことで、カメラで考えると三次元ではなくて二次元になってしまいます。 三次元的にわかるようにするためには、まず一つ「TOFカメラ」という特殊なカメラを用いる方法があります。物体に光が飛んで返ってくる時間を計ることによって、距離つまり奥行きがわかるというカメラがあるんですね。 三次元的に物体との距離が分かるといくつかいいことがあって、例えば顔認識でも写真を見せて騙すことができなくなります。写真は平らなものですから、実際の人間のように立体的な形を判断できるかどうかは、一種のセキュリティになるわけです。 車の自動運転などもそうで、遠くに人が歩いているとか、近くにほかの車がいるとか、そういった情報をやはり三次元的に知りたいわけです。そのためには「ライダー」というレーダーのレーザー光線版を使います。物体にレーザー光線を打って返ってくるまでの時間を計るというもので、TOFカメラよりももっと遠くまで見えるものです。 このように様々なアプローチで研究がされていますが、どれも人間とは違う方法で物体を見ることになるので、私は本当は普通のカメラでできるようになるといいなと思っています。 もっと広い意味で言うと、何かの方法で得た情報は、ここに何かがあるとか、このくらい離れたところにこんな色のものがあるとか、結局は一つの情報に過ぎないわけです。それをコンピューターの中できちんと認識して他の用途に使えるようにするには、情報を取り込んだ後に様々な処理が必要になってきます。 例えば目の前にリモコンがあったとして、まずはそれがリモコンだと認識しなければなりませんし、掴むためには手を出すなどまた別の動作が必要になります。何かをするには、様々な段階を経ていかなければならないわけです。見て認識する、そして得た情報を次の動作につなげていく。つまりこれはロボットだけの話ではなく、情報処理全体を研究する必要があるということなのです。 もともと私は最適化というものを使って、コンピュータービジョンのある種の問題を解くことをしていました。それは低レベルといって比較的画像に近いところで、画像を領域に分けます(セグメンテーション)。ある写真の中で、ここが人間の部分ですよと、人間の部分とそうでないところを切り取るようなことをしていました。 ステレオといって、二つのカメラで同じところの写真を撮って、そこから三次元の形を再現していきます。昔よく研究されていた方法で、人間が両目で見ることによって立体視できるように、同じことを機械で再現するわけです。 これは車などにも使われている技術で、そういった研究を主にしてきました。この5~6年は、ディープラーニングが出てきたので、それを使って何ができるかを模索しています。最近はグラフィックス系のメンバーが少し増えたので、白黒写真をカラーにするなどグラフィックスへの応用もしています。 他には、画像に穴が開いていたら、それを自然に埋める研究とかもしました。これは何かいらないものを消した時、そこをうまく背景と合わせて自然に修整してしまうということにも使えます。そういう個別の研究をしながら、ディープラーニングはなぜこんなにも性能がいいのかを考えています。 すごく長期的な面では、先ほどお話ししたように視覚がどういうもので、どうしたらそれをロボットで再現できるかということですね。ただ、そう考えていると様々な問題も出てきます。分野ごとに課題のようなものがあって、そこに向けて少しずつ進歩していくようなイメージです。 また学生がやりたいことに向けて、つまり先にある応用に向けて何が必要かを考える場合もあります。私の立ち位置としては、同時進行でたくさんのテーマを持ちながら全体をまとめているようなところです。 誰でもそうかもしれませんが、研究室を持って学生がたくさんやってくると、自分で研究をする時間がだんだんとなくなってきます。今はどちらかというと、みんなが研究をしているところにアドバイスをすることが多くなってきた気がしますね。Q:研究室の最近の業績として、白黒写真の色つけが話題になりましたが、あれはどういった経緯だったのでしょうか。
3~4年前になりますが、マスコミに取り上げられたという意味では非常に話題になりました。 人間が物を見る場合、人の肌の色、空の青さ、植物の緑など人間はどんな色のものか、もともと知っている場合がほとんどです。あとは白黒のものでも、何が写っているかすぐにわかる。白黒の木が写っていても、これは木だからこの部分は緑だろうとすぐにわかるわけです。 しかし、これを機械にやらせるのはつい最近まで非常に難しいことでした。「一般物体認識」というのですが、何かを見たときにそれが何なのかを機械に認識させることは、10年前ではほとんどできなかったことです。それがディープラーニングのおかげで少しずつできるようになってきたので、色をつけられるようになりました。 ただ、進歩があったのは確かですが、まだまだできないことが多くあります。例えば、見る人が見ればわかってしまうのですが、不自然な色が付いている場合も多くあります。特に人工物は鮮やかな色が多いことと、一つの色だけでなく様々な色の種類があることも考えられます。そういった場合はどんな色か知りようがないので、適当な色を選んで後からつけなければなりません。我々がやった時は、たくさんの白黒とカラーのペアを学習させることによって、こういうものはこういう色だよと覚えさせたわけです。 消防車なら赤いとわかるかもしれませんが、普通の車ならあらゆる色があります。しかも白黒にしたら同じような明るさだけれども、実際は違う色ということもありえます。ただ、機械はそういうものをたくさん見るとどれなのかわからない。当時のものには、こういう時もあるという場合分けをするような仕掛けは入れていません。 今ならそういうものもあるのかもしれませんが、後から手で入れていく工夫が必要になってくるわけです。最初の段階でやっていたのは、単に覚えさせてどこまでできるか。その後は、だんだん開発になってきます。膨大なデータを処理できる体制をつくる
Q:研究の課題として、どんなことがありますか。
ディープラーニングの登場によって様々なことができるようになってきたのは確かですが、まだまだ問題点も多くあります。大きなところでは、非常に多くの学習データが必要であることです。 先ほどお話しした色つけに関してはカラー写真と白黒写真のペアで学習をさせるわけですが、これは比較的簡単に作れるものです。カラー写真はネットを使えば簡単に手に入りますし、それを白黒にするのは簡単なことです。何百万枚でも簡単に作ることができます。その意味では、研究自体が簡単なものだったとも言えるかもしれません。 一方で難しいのは、データが手に入りにくいようなものについてで、データがないためになかなかうまくいかないことがほとんどです。ディープラーニングは性能がいいのになぜ膨大な数のデータが必要なのか、人間であればいくつか見ただけで大体わかるようになることってたくさんあると思います。それが機械になると、現段階では難しいことが多い。それを乗り越えるために、理論的に考えていきたいと思っています。 また、ディープラーニングは5年くらい前に色々出てきたのですが、みんな研究が簡単な領域から取り組んでいるため、難しい領域は今でもたくさん残っています。 例えば、医療画像はCTスキャンやMRIなどがありますが 、どうしてもデータが手に入りにくいと言えますね。普通の写真と違って、年に1回撮るかどうかというものです。また、画像自体もすごくぼんやりしていてわかりにくいため、きちんと認識できないという課題があります。 ただし、これもこの5年でものすごく進歩したのは間違いないです。今はプロである医者の目にも迫る勢いで、超えるような場面も結構あるようです。そういった方面はすごく研究されていて、うちは今直接やっているわけではないのですが、今後はどこかデータを大量に持っているようなところと共同でやれたらいいかなとは思っていますね。Q:この分野を志す学生にはどんな力が必要だと思いますか。
積極性がすごく大事だと思います。過去には筋トレをやりたいっていう学生がいて、自分で筋トレの動画をたくさん撮っていて、そういうのって積極性ですよね。自分でこれのためにやりますっていう気持ちが必要です。 学生は基本的に何も知らないので、それを行動でカバーするということです。その間に様々なことを勉強する。もちろん理論的なことがしたい人は、いっぱい本を読んで勉強しないと始まりませんが。とはいっても、両方やってほしいというのが本音ですね。 この研究室もできてから7~8年になり、年に6~7人は卒業していきますね。AI人材という言葉がさけばれだしてまだほんの2~3年だと思いますが、卒業後の進路で多いのはいわゆる大手電機メーカーみたいなところですね。 これは学生の希望が大きくて、大企業ってたくさん人をとるので、そういうところに行きやすいのはあると思います。あとは安定性を求めているところもありますね。 最近流行りの人工知能で成り上がって儲けてやるぞっていう、意気込みのある学生は意外と少ない気がします。中国から来る学生の方がもうちょっと野心があるというか、どんどん経済が成長して、これで俺は儲けてやるみたいな感じが日本の学生よりも伝わってきます。Q:日頃交流のある企業からは、どんな研究ニーズがありますか。
学会などで企業の研究系の方と話すことは結構ありますし、あとはマスコミの情報を見て相談に来られることもありますね。こういうことはできませんかとか。「色をつけてください」ということもありますし、それとは全く別でそれぞれの企業さんのニーズがあって、あれができるならこれもできませんかという感じで類推してこられる方もいますし、技術的な面でピンポイントにくる場合もあります。 自社でどのくらいできるかも会社によって違うので、ほとんどを企業側でやるから助言がほしいというレベルもあれば、完全にこちらに委ねたいという企業さんもいますね。Q:最後に、今後の目標を教えてください。
簡単なことはやり尽くされて難しいことが残ってきます。人工知能ってすごいことがすぐできるのではないかと思う方も多いかもしれませんが、短期的な予想は下回り、長期的な予想を上回るのが技術予測のパターンです。 10年後にはこんなことができるだろうと言われていることも、実際は多分そこまでいかないと思います。良い例が自動運転で、5年ぐらい前には2020年ごろはもう自動運転車がその辺を走っているくらいのことを言われていましたが、今はまだそこまでにはなっていないですよね。5年、10年先の予想は多分下回ることになると思います。 逆に、50年後になると想像がつかないですね。方向性も変わる可能性があるので結構予想って難しくて、どうしても当たり外れはありますよね。一方でディープラーニングは、10年前にはこんなことになると誰も予想していませんでした。良い意味で非常に外れましたね。 自分としては理論的な研究が好きなのですが、実際に研究をする時間も減ってきて、学生さんの相手をしていることが多くなっています。大きな目標としては、このセクションの最初にお話しした、ディープラーニングがなぜ高性能なのか、もっと人間に近づけるにはどうしたらいいかを解明するということですね。 そもそもディープラーニングがなぜあんなにできるのか、実は全然わかっていないんです。なぜできるのかという理論が存在しないので、そこを考えないといけないかなと思いますね。既存の機械学習理論はあるのですが、それでは説明がつかないわけです。だから、どうしたらもっとよくなるかもわかっていない。根本的なところを追求していきたいですね(了)石川 博
いしかわ・ひろし
早稲田大学 理工学術院 教授。
1991年、京都大学 理学部卒業。1993年、京都大学 理学研究科
2000年、ニューヨーク大学計算機科学博士課程。博士(計算機科学) 。
2000年よりニューヨーク大学クーラン数理科学研究所Associate Research Scientistを務めたのち、2004年に名古屋市立大学大学院システム自然科学研究科講師となる。
2005年に、名古屋市立大学大学院システム自然科学研究科助教授(准教授)を務めたのち、2010年より、名古屋市立大学大学院システム自然科学研究科教授。
2010年より、早稲田大学基幹理工学部情報理工学科教授。
2009年より4年間、JSTさきがけ研究者(兼任)。2016年より、国立情報学研究所客員教授(兼任)。