人間の言葉を正確に理解し、自由自在に動かせるロボットは、人類の長年の夢だ。近年注目されているディープラーニングの技術をロボットに利用することで、そうした「汎用ロボット」の開発に取り組むのが、早稲田大学基幹理工学部の尾形教授。「本来、ロボットは多くの用途に使えるべき」だとする尾形教授に、汎用ロボットの開発と実用化について、現時点での見立てを伺った。

ディープラーニング技術をロボットに適用
Q:現在の研究の概要についてお話しください。
専門は「認知ロボティクス」です。ロボットを使って人間の知能をモデル化したり理解したりしようというところからスタートしています。その研究からさらに発展させて、近年人工知能の分野の中で中心になっているディープラーニングという技術をロボットに利用しようと考えています。
今までロボット単体では難しかった、仕事をさせることや、ある仕事のタスクの内容が変わっていったときに、それを学習で適用していけるようにする研究をしています。
今までのロボットというと、人間を支援する、災害時に働くなど、明確な目的が決まっていました。それを踏まえてハードウェアを作って、プログラムを変えることで様々な種類のロボットがたくさんいたのです。
例として僕がよく使うのが、スマートフォンです。カメラとして、ゲーム機として、あるいは辞書としてというようにたくさんの使い方ができます。多機能なものが一つになっていて、そこに新しい価値を提供することができるのです。
例えばロボットの腕ひとつをとっても、できる作業には様々な可能性があります。「移動する」という作業だけでも、たくさんの仕事ができるのです。
本来ロボットとはそういったものだと思っていて、「汎用」というのは強すぎるかもしれませんが、「多くの用途に使える」ことが本来のハードウェアの属性だと思っています。
では何が難しいのかという話になってきますが、そもそもハードウェアにポテンシャルがあるとしても、どのようにして作業させるかというプログラム、つまり知能の部分がとても難しいといえます。ディープラーニングはとても面白い技術で、同じ技術ではあるものの、それは画像処理にも使えるし、音声認識にも使えるし、翻訳にも使えます。
これらの属性をロボットに利用していくことで、ロボットが本来持っているポテンシャルを引き出せるのではないかと考えています。人工知能の多用途な可能性をソフトウェアにして、それをさらにハードウェアにして、ハードウェアも多用途に広げていきたいと考えています。
Q:ロボットの社会的ニーズには、どんなものがありますか?
一つ一つのロボットをハードからつくっていくことが大変なのは、今も変わりません。また、多用途ロボットをそれぞれすべて準備していくことは、スペース的にもコスト的にも大変なことです。そのため、性能が少し落ちるにしても、それで一台のロボットを同じ型でつくっていくことができるのであれば、様々なニーズが生まれるだろうと考えています。まさにスマートフォンと同じような感じですね。
研究開発をしていくときにも、同じハードウェアを様々なところでシェアできることには大きな意味があります。皆が共同で開発できますし、ソフトウェアもネットワークで繋ぐことができます。
その意味では、たとえ完璧なハードではなかったとしても、ハードの可能性を広げていく、分散させていくわけです。
「ペッパー」など、みなさんも知っているロボットが今はいくつかありますが、それらはそもそも単体のロボットであるものの、用途としてはマルチタスクをイメージしているハードといえます。こういったものが少しずつ出はじめているところで、社会的要請との知能研究というのが合っているのではないかなと考えています。
「ペッパー」で例えるなら、移動して人と会話をするだけでも様々な仕事ができます。もし、さらに少し物が運べたら、また広がりが出てくるかもしれません。その意味で、動作の部分は次のターゲットと言えます。
ロボットとして一番大切なのは、「世界に対して働きかける」部分です。今までなら、人間でなければできないといわれていたことの中にも、実は単純な作業がたくさんあります。これについても学習の面でフォローするのが一つの狙いです。
Q:実際の研究方式はどのようにしていますか?
先ほどディープラーニングを使うとお話ししましたが、今までのロボットには難しかったタスクをあえて選んでいます。展示会などでよく紹介しているのは、服やタオルなどの柔らかいものをハンドリングすることです。
なぜ、服をたたむことがむずかしい仕事になるのか説明します。
今までのロボットが何か物体を掴もうとする時、まずはその物体のきれいな三次元モデルを自分の中に作ります。
例えば物体がカメラに映っている時に、ここに物体があるのだと認識しなくてはなりませんが、同時にその物体について知っていなければならないのです。そしてその物体が今どんな向きでどんなふうに置かれていて、どこなら掴めるのかも判断しなければなりません。
つまりロボットは物体をセンサーで見た時に、まずセンサーの情報と自分がすでに知っている三次元モデルとを一生懸命すり合わせ、
・その位置や置かれ方からどの部分が掴めそうか
・そこに手を持っていくには関節をどう動かせばいいか
などをすべて計算していくのです。ですから、物体について情報が少ない状態でスタートすると、動き出すまでに時間がかかってしまうのです。さらに置かれている物体がタオルであれば、物体そのものが曲がったり、シワができるなど、様々な変化をしていきます。
つまり、ロボットが最初に行なっている、物体の三次元モデルをつくる段階から難しくなりますし、その後に続く位置や向きの判断ももっと難しくなってしまうのです。
一方でディープラーニングという技術は面白くて、画像さえあれば、三次元モデルをつくるのもそれほど繊細に考えずに見た画像のままで物体の認識をすることができます。今までは物体がどこにあって、どんな形でなどと細かく判断していたところを、もう少し抽象的に表すにはどうするかと考えてきたのです。
ディープラーニングは、物体の画像をたくさん入れていくことで、他の物と見分けるために重要な部分をネットワークの方が見つけてくれるという技術ですが、それと同じことをロボットにもおこなわせるのです。つまり、物体を掴むという経験さえできてしまえば、その経験を何度か繰り返すことで必要な情報をネットワークの中でつくってくれるというわけです。
タオルだったらタオルだけを20~30回くらいたたみ続ければ、たとえ見たことがないタオルであったとしてもたためるようになります。これを「汎化」と呼んでいますが、学習した経験を学習していないところにまで広げていくというディープラーニングの能力を、ロボットに利用していこうというわけです。
タオルの件については、一つの象徴的なタスクとして紹介しています。一方で、全く同じ枠組みで物を掴んだり、箱に入れたりということも実際に行なっていますが、そういったものは汎用性も結びつけつつ、今までのロボットではなかなか難しかった仕事もやっていこうと考えています。
タオルをたたむことの次に、今ではシャツをたたむところまできています。タオルよりもシャツのほうが複雑なたたみ方になりますが、ディープラーニングをベースにすればある程度はできるようになります。
さらにもう一つ象徴的な仕事として、言語があります。最近ではGoogle翻訳も、高い性能を発揮しています。日本語から英語というように、シーケンスと呼ばれる列を変換しています。日本語の文字の列から、英語という文字の列に変換しているのです。
このように列から列に変換するディープラーニングがあるわけですが、それを全く同じように使うと言語という列から、運動という列を出すこともできます。つまり、言葉を理解して動くことができるようになるのです。
自然言語をロボットに使う時に、従来までは面倒な点がいくつかありました。
例えばロボットに「名刺を取りなさい」と指示をしたとします。「名刺を取る」という言葉は一つですが、名刺がどこに置いてあるかによって、ロボットは動作を変えることになります。また、そもそも名刺がそこになければ指示を無視しなければなりませんし、名刺が2枚ある場合も考えられます。つまり一つの言葉に対して、考えられる動作のパターンはたくさんあるわけです。
数えきれないほどのパターンを、人間が一つ一つ教えるのは無理な話です。ですから全部ではなくいくつかのパターンについて経験をさせてあげて、もし初めてのパターンがあったとしても「これは、できるかできないか」の判断ができるのです。
このように、言語を扱うことは大変なことでした。言葉を現実の世界にはギャップがあります。この言語のギャップをディープラーニングの技術を使ってある程度埋めていくことができるだろうと、一昨年NIPS2016でデモンストレーションさせてもらったところです。
なお、現時点ではたたむ時に強化学習は利用していません。模倣学習(プログラミングバイデモンストレーションとも呼んだりもします)というアプローチです。タオルの話で例えると、ロボットは最初人間に操縦されていて、何も考えずにタオルをたたみ続けていたところ、急に人が手を出さなくなったらどうするのかという学習です。
強化学習では、人間が手を出さず、ロボットが自分で試行錯誤をします。この方法ならもしかすると人間のやり方よりよい方法を見つけ出すかもしれません。しかし非常に時間がかかりますし、試行錯誤の中でロボットが壊れてしまうかもしれません。
AlphaGoはよい例です。最初のAlphaGoはまず人の棋譜で勉強をし、ある一定の強さに達してから強化学習をする形にしました。様々なエキスパートの棋譜を並べて、そのとおりに再現できるようにトレーニングをします。ただその意味については、全くわかっていません。
意味がわからないまま手に入れたネットワークはきっと盤面の価値を評価する何かを手に入れているはずですから、その部分を強化学習していくわけです。具体的にはエキスパートの指し手を予測するように学習したネットワークを、この盤面は、どっちがどのくらい良いかを判断するネットワークに転用します。
AlphaGoの最新版は、このようなエキスパートの棋譜を参考とせず、全く0から自分の自己対戦だけで強くなっていくような仕組みができていますが、これには実際はシミュレーションによる自己対戦を500万局ほど行なっているのです。
一方、ロボットのような物をつかむなど物理的接触が入ってきたりする場合は、まだまだシミュレーションの実験だけでは不十分な部分が多くあります。実際にロボットを動かさなければならないことが多いのです。
例えば、Googleが少し前に行なっていたのは、14台のロボットを並べて80万回の物体ピッキングを2ヶ月間強化学習させるというアプローチでした。とてもインパクトのある方法ですが、大学で真似ることは現実的ではありません。
このようにやり方は様々ですが、そもそも人間も最初は模倣から入ることがほとんどです。人の真似をしつつ、ある程度の段階からは、自分の中での訓練をしていきます。バッティングなどがまさにそうですね。最初は形から入るけれども、だんだんと自分なりのフォームにしていくわけです。現在のロボット学習を考えるとするならば、こういった順番が正しいのではないかと思っています。
ニューラルネットワークを一貫して研究
Q:現在に至るまでの経緯についてお話しください。
先ほど「認知ロボティクス」という言葉を使いましたが、ロボットとディープラーニングのもとであるニューラルネットワーク(人間の脳のモデル)をつなげて、ロボットに認識能力を与えよう、人とコミュニケーションができる能力を与えようということは、僕の学生時代からのテーマでもあります。
理化学研究所の脳科学総合研究センターや京都大学の情報学研究科で仕事をさせてもらって、また早稲田大学に戻ってきましたが、ありがたいことにこのテーマをずっと変えずにやってくることができました。具体的には、ニューラルネットワークという、生物がそもそも使っている神経回路のモデルが実際の身体を与えられることによって、どのような知能になっていくのかということは、ずっと興味の対象でした。
ディープラーニングというのも、僕の中ではニューラルネットワークです。5~6年前に初めて使ってみた時は確かに驚きましたが、非常に自然な流れで現在のテーマにたどり着いている気がしています。
Q:国内と海外の違いについて感じることはありますか?
ロボットと機械学習は、通常であればなかなか結びつかないものです。なぜかというと、ロボットは基本的に機械屋さん(ものづくり)の範囲で、物理の知識、微分方程式などを使った、安定性解析などが研究テーマになる。一方で情報や機械学習の世界では、確率統計の式を扱っています。
このようにそもそも分野間のコンセプトが少し違っていると思います。そこを埋めなくてはならないという意識は皆が持っています。例えば東大なら機械情報学科などのように両方教える野心的な試みもあります。しかし、普通はなかなかそこをスムーズにつなげられていない状態です。
日本は機械の分野には強いですが、アメリカは情報に強いわけです。その意味では、方向性が同じロボティクスとはいっても、機械をベースにするのが強いのか、情報をベースにするのが強いのかという違いが、日本とアメリカの違いと言えるかもしれません。
日本としては情報技術をどう上手く使うか、ディープラーニングは少し極端な例ではありますが、情報技術、AIをどのように使っていくかというのがあるでしょう。アメリカのほうも、数年前から人間型ロボットハードウェア開発が盛んになっていますから、今後は競争していくようになるでしょう。日本とアメリカ以外ではドイツも強いですし、これからはおそらく中国が出てくると思います。
中国は情報系に強いです。中国の優秀な学生さんたちが、アメリカで博士号を取り、それなりのポジションになってから中国に戻るパターンもよくあります。技術のベース、競争力という意味で、特に人工知能の世界ではアメリカと中国が2トップになりつつあります。
今まではロボットといえば日本とアメリカだといわれていましたが、特に2017年ごろからはディープラーニングを使ったロボット研究も一気に出てきましたので、その意味での危機感はありますね。どこで差がつくのかのポイントに関しては、個人個人の研究領域を越えた交流が必要と思います。機械側の方々が、情報にどれだけ興味を持つか、反対に情報側の人が機械にどれだけ興味を持つか、ということですね。
Q:直面している研究課題はありますか?
現状では、様々な可能性があるものを一気に試すことはできません。ロボットはコストが非常に大きく、ハードウェアの発展に関しても実は面白いものがたくさんできているのですが、それがただのアイデアで終わってしまうことも多いのです。実際にどう使うか、どうプログラムするかはなかなか具現化できるものではありません。
具体的には、これをディープラーニングでやらせてもらえたら面白そうだなと思ったものを、全て試すわけにはいかないのです。今後、今までロボットの中で問題とされていたものに対して、こんな使い方ができるのではないかというアイデアがたくさん出てくるはずです。
また、ディープラーニング自体、今はここまでいける、さらに先にいけるという感じで、言葉も翻訳も人間に近くなって、画像の認識も一部は人間を越えて進んでいっています。しかし、今後はどこかの時点で、これは無理だという話が出てくるはずです。
例えば、僕はよく「ディープラーニングだけでは人間にはならないだろう」と言っています。ディープラーニングは確かに革新的な技術ですが、シンギュラリティとは直接つながるものではないと僕は思っています。これも、根拠を説明するのは難しいことですが。
これは開発できる人材が足りないという問題にも関連します。人が少ないので、これ以上は無理だというラインになかなか到達できない。まずは興味を持ってくれる学生が増えていくことが重要かなと思います。開発する人を増やすという意味では、学生だけでなく企業との共同開発も重要になるかと思います。ディープラーニングのような革新的な変化は今までにはあまりありませんでした。この流れの速さについていこうとしている企業や、一方でなかなかついていけない企業など、様々なタイプの企業とお付き合いをする形になっています。
もちろんスタートアップは動きやすく、小さいベンチャーさんなどはすぐに動きますが、大きい会社は本当に様々な考えの方が、現場にも上にもいらっしゃいます。その意味では、これが課題の一つといえるかもしれません。
表面だけを見て「なんでもディープラーニングを使えばいいよ」と言ってしまうレベルがあるかと思うと、現場での危機感からきちんと使わないとまずいと思っている人たち、さらにその中間には今のAIは軽いノリだからこんなのに簡単に乗っかっちゃダメだという人もいます。意見統一がしづらい部分がある感じはしますね。
一方、大学の場合は様々なスタイルがあります。先端をやっていらっしゃる先生であればもちろん迅速に対応されていますが、独自の考え方を持っていらっしゃる方もいます。それぞれの考え方にギャップがあるのは確かです。
どの考えも重要だと思うものばかりですので、それをどのように融合させていくかが大事だと思います。
Q:学生に伝えたいことはありますか。
ここ最近、この分野に興味を持ってくれる人が増えてきたなと思っています。
私は現在、表現工学科というところにいます。ここでの狙いは数字にならない価値を考えよう、ということだと思っています。例えば情報系なら認識率が上がったとか、通信速度が早くなった、機械系なら手先の位置精度やエネルギー効率などを評価軸にします。
しかし、たとえばみなさんがお使いのスマートフォン端末は、その評価軸には乗りません。カメラとして見たときにはスマートフォンよりもっとすぐれたカメラがあるし、ゲーム機として見たときはもっといいハードがあります。
ここからわかることは、数字が評価基準になってしまうと、スマートフォンのアプリが勝てるものはほとんどないということです。けれどもスマートフォンは売れるわけです。
つまり、人間が物に対して価値を生み出したり、それを買ったり、利用したいなどと思う欲求の中には、数字で評価できる部分を越えた何かがあるはずだということになるわけです。
人間とロボットのコミュニケーションは典型例で、そもそも数字で測ることができません。例えばアイボと人間のコミュニケーションなどは数字になる価値観ではないのです。でもエンジニアがつくる時にはそれを意識しなければなりません。人工知能もそうですね。
翻訳精度や認識率などといっているうちはいいのですが、それが人との会話や、これが欲しいというように人間の心の問題となると、話が少し飛んでしまいますね。そういうところまでをコンセプトに含めるべきだというのが「表現」という言葉に込めたイメージです。
もちろん技術は一番大事ですが、これを勉強した上でそこに生み出される価値、数字以上の何かというものを学生に意識してほしいなと思いますね。これはAIやロボットだけではなくて、様々な分野についていえることだと思います。
私の学科では3年生から研究室に配属されます。学生さんにはたくさんの可能性がある中で、自分の道をできるだけ早く決めて、そこに集中した勉強や理解を進めてほしいなと思います。
Q:この分野で研究するなら、どんな学生が向いていると思いますか?
この分野に限らないかもしれませんが、一つ挙げるなら「海外に行かせてくださいと言える人」だと私は思っています。これからの時代は様々な研究がオープンになっていきます。この研究室でないとできない何かがあるのはもちろん重要ですが、それだけでは、もう通用しないのです。
誰かとコラボすることによって新しい価値を生み出す。企業とでもいいし、海外の先生とでもいいのです。このようなコミュニケーション能力の中で、価値を見出せる部分が重要になるだろうと考えています。
私の研究室では海外の学生を受け入れることも積極的に行なっていますが、さらに外に出ていくことを楽しめて、それを自分の価値につなげられることが大切です。英語を勉強しにいくのではなく、自分のやりたいことのために外に出たら、周りが英語しか喋っていなかった。やりたいことのために仕方ないから英語でやるしかない、という感じです。恐れずにいける人は向いていると思います。
学生の中には博士に行く人もそれなりにいます。早稲田大学の中にはリーディング大学院プログラムというものがありまして、国のサポートを受けて5年一貫、修士〜博士まで、少し給料ももらいながらやっていきます。その中には海外に半年インターンをするという必修プログラムがあります。もちろん僕が最初のきっかけをつくるケースが多いですが、彼らが自分たちで海外の求人にコンタクトするということもあります。怖がらずに様々なところに出ていくことは大事ですね。
Q:企業に期待することはありますか。
先ほども少しお話ししましたが、一部、表面的な研究になっているものも見受けられる気がします。予算”だけ”を準備する(もちろん、予算はとてもありがたいのですが)、とならないようにして、ディープラーニングやロボティクスに関する知識を活用し、具体的なテーマに持っていくことが重要だと思います。具体的には現場の人たちのニーズを理解していただきつつ、その上で早い動きを見せることです。
現在、「日本ディープラーニング協会」の理事を務めています。ここではディープラーニングという言葉を切り出しています。インパクトがある技術であるがゆえに、しっかりとした間違いのない理解が必要である、というのが主旨としてあります。
ディープラーニングは何でもできるツールではありません。しかし、無視していいツールというわけでもありません。そのバランスをどう理解するかということが、結果として企業の発展にもつながっていくと私は考えています。
ロボットも含めてですが、どんなアプリケーションが出てくるか、まだまだわからない研究領域ですので、そういったところをぜひ一緒にアグレッシブにやっていきたいなと思います。(了)

尾形 哲也
おがた・てつや
早稲田大学 基幹理工学部表現工学科 教授。
1993年、早稲田大学理工学部機械工学科卒業後、1995年に同大学院理工学研究科修士課程修了。1997年から日本学術振興会特別研究員(DC2)を務めたのち、1999年より早稲田大学理工学部助手となる。2001年に理化学研究所脳科学総合研究センター研究員、2003年に京都大学大学院情報学研究科講師、2005年に京都大学大学院情報学研究科助教授、2007年より同准教授を経て、2012年より現職。
2017年 産業技術総合研究所人工知能研究センター特定フェロー(クロスアポイントメント)に就任。