人体の仕組みはいまだ解き明かせぬ謎に溢れているが、その人体の限界を越え、一足飛びに進歩する「高速化」の技術が、我々の世界を席巻しつつある。その領域で、日本のみならず世界の研究においても先頭を独走しているのが東京大学の石川正俊教授だ。我々の目にも止まらぬ高速技術は、社会や生活に何をもたらすのか。高速の視点から得られるビジョンについて、石川教授にお話を伺った。

「高速」があらゆる分野に変革をもたらす
Q:現在は画期的なロボットの研究開発に取り組んでいらっしゃるのでしょうか。
現在の研究では、より幅広い応用分野を視野に入れています。ロボットに関する内容は全体の4分の1くらいで、高速のセンサーに基づいてロボットをできる限り高速で動かす研究です。もちろん知能ロボットですが、センサーの性能を上げたことによってロボット全体の性能が上がるのです。
特に、ロボットの“目”の部分をとにかく速くしようとしています。具体的には、1秒間に1000枚の画像処理ができるようにしました。それが実現したことで、あらゆることに応用の幅が広がったのです。
それによって、人間の目には見えない世界が分かるようになるので、人間の目には見えない世界で様々なことを制御しようと取り組みました。その中の一つが三次元の形状計測を人間には見えないスピードで行なうことです。その技術を使えば、本を1分間に250ページもスキャンしてしまうことなども可能になります。
また、様々な検査にも応用が可能です。例えば、柿の種のような小さな部品を一度にたくさん、ざっと落としただけで一瞬のうちに検査が終わってしまうことも。あるいは、時速100キロで走る車から、トンネルの壁のわずか0.2mmのクラックを判別することも可能です。これによって時速100キロの車の流れがあるトンネルで、通行止めにしなくても検査ができるようになります。このように様々な分野に応用してきました。
そうするうち、今度はヒューマンインターフェイスの領域にも波及していきました。1秒間に30枚だった認識を1秒間に1000枚まで上げると、システムが人間より高速になり、面白いインターフェースをもたらしてくれるのです。一つ例を挙げると、ボールのようなものにプロジェクションマッピングをする技術があります。布や紙でもできます。それを動かしても、あたかも画像がそこに張り付いているかのようにプロジェクションマッピングできるのです。これを「ダイナミックプロジェクションマッピング」と呼びます。
これまでのプロジェクションマッピングでは、ディズニーランドでも東京駅でもUSJでも、動いていないものにしか画像を表示できませんでした。それが、この技術によって、動いたり変化したりしているものにも対応できるようになったのです。
そのようにヒューマンインターフェイスを徹底的に改善する取り組みから派生して、人間の動きをきちんと撮れれば、そのような動きをトレーニングすることができるようになりました。ここで使われている技術を「トラッキング」といいます。例えば、卓球のボールをきちんとトラッキングすると、卓球のボールの回転が分かるのです。
Q:では,現在のご研究では高速ロボットやヒューマンインターフェイスが中心なのでしょうか。
いえ、もっと多岐にわたります。高速ロボット、FA (ファクトリーオートメーション) 検査、ドローンを含む自動車や交通、さらにセキュリティも最近始めました。
それから、バイオや医療で使われる顕微鏡像の制御。これによってゾウリムシや精子をトラッキングすることができるようになります。精子はとても速いスピードで動くのですが、そうしたものでもトラッキングできるようにするのがバイオ医療分野への応用です。
そして先述のように本を電子化するアーカイビングやヒューマンインターフェイスもあります。プロジェクションマッピングはメディアの分野に含まれます。これらを総称して、我々は8分野と呼んでいます。
それらの分野を貫く基本の部分が、高速の画像処理技術です。つまり人間の目よりも速いものを作り、それを使って世の中を変えていこうと取り組んでいます。現在変えているのがこうした8分野なのです。高速の技術の真価は、理解されにくい部分です。そのためこれまで遅すぎてうまくいっていなかった分野には、我々が技術を使って高速にしてあげると、本当にびっくりされるのです。
8分野に関しては実に色んなリクエストがあり、様々な会社から依頼が飛び込んできます。そのため、色んな会社と共同研究をたくさんしているのです。 メインは社会的に影響力のあるこれらの8分野ですが、さらにこれ以外にも応用展開できます。だいたいの分野では速くできていないので、我々が速くしてあげると大抵の人が驚いてくれます。
例えばヒューマンインターフェイスでは、これまで遅すぎたために没入感が得られませんでした。そのため、この分野において速さが勝利したのです。昔はゲームの操作でもカーソルが実際の手の動きと全く合っていませんでしたが、我々の作ったものは実際の動きと画面上の動きが完全に同期します。すると没入感が全然違うのです。これを身体性と言います。同じように動かすことができると、「あのバーチャルの手は自分の手だ」と認識できるのです。遅れると自分の手とは思えなくなってしまいます。
この高速の技術を使ってゲームを制御するジェスチャー認識を作りました。高速で遅れがないので、画面上の手を自分の手のように認識することができ、インストラクションなしでいきなり操作してもらっても、誰でもすぐに遊ぶことができるのです。3歳くらいの小さいお嬢さんでも自分の手だと自然に思い込んで遊んでいます。
また、「空中像」も同じです。空中に浮いているように見える絵ですが、自分の指の動きと連動させて、思いのままに絵を動かすことができます。まるで映画「マイノリティレポート」のワンシーンのようでしょう。この指の動きに描かれた絵が遅れると一体感が得られないのですが、この「空中像」は遅れが全くないように作っているので、高速性の勝利なのです。
それから、コニカミノルタと一緒に取り組んでいる研究をご紹介します。自動車のフロントに3次元のディスプレイを表示する技術です。1月の中旬に記者発表しました。他には、シリコンバレーのベンチャーから話を持ちかけられて作った3次元の像を手で動かす技術です。
先述した、卓球のボールをトラッキングして画像を張り付けるシステムでは、ミラーの動きを精密に制御しています。卓球のボールは初速で時速200キロ近くにもなるのですが、完全にトラッキングすることで動くボールの中心をぴたりと捉えられているので回転が見えるようになります。普通はこの回転が見えません。このように、今まで見えたことがないようなことが見えるようになるのです。
このように我々の技術を導入しているのは、現在では8分野を越えて幅広い領域に広がっています。それぞれの分野で民間と協力して実用化に乗り出しているのです。
Q:画像処理にはじまり、アクチュエーター、そしてディスプレイへと広がっていった高速化・これらの革新を可能にしたコアの部分が、高速の画像処理なのでしょうか。
そうですね。ところが、高速の画像処理だけでは全体が動きません。ロボットの場合は、さらに高速のアクチュエーターを作る必要があります。メディアの場合は高速のディスプレイを作らなければなりません。全体の中で遅いところがないように、全部を速くする必要があるのです。
なぜ全部を高速化する必要があるかというと、一箇所でも遅いところがあるとそこに全体のスピードが合ってしまうためです。一番遅いところに合わされてしまうのです。だから順番に全部を速くしてきました。
先述のように、ネクスコ中日本と共同で行なった時速100キロで走っていても画像を認識する技術や、柿の種くらい小さく膨大な部品を検査する機器も、高速の画像処理を用いた事例です。さらに小さい砂の粒を一度に落とした場合でも、一粒一粒全部にトラッキングがかかっていて、そのデータをプロットし、その検査結果がCG映像で表示されます。そのスピードで計算、電子化が全て行なえるのです。
バイオの領域では、普通ならば顕微鏡で観察する対象が通り過ぎてしまい、よく観察できないのですが、それをトラッキングしてずっと観察できるようにしました。台座が高速で動くので精子のように小さく、速く動く対象も追跡することが可能です。さらに深さ方向にもたくさんの画像を撮る機能を開発したことによって、ピントがずれることなく鮮明な画像が見られるようになりました。それらの画像を合成して、「全焦点画像」と呼ぶ全ての方向にピントの合った画像がとれるようになったのです。この技術を利用して自動焦点老眼鏡や、ピントの合った細胞検査が実現可能になりました。
また、ロボットもさらに進化しました。まずは2個のカメラを搭載していて、ボールを投げると必ずバットに当てられるバッティングロボット。そして3本指でボールをつかんで投げるロボットも作りました。そのハンドは、非常に高速で繊細な力加減が可能なので、生卵を上から落としても割ることなくつかむことが可能です。他にも、投げ上げたボールをキャッチしたり、ドリブルをしたりといった様々な動きを実現できるようになりました。現在では小豆を箸でつまむような細かい動きができるロボット、一瞬で布地をつかめるロボットなどもあります。
そして有名なのが、じゃんけんロボットです。人間の手の動きを素早く認識するため、同じタイミングで勝つ手を出すことができ、後だしではないのに絶対に負けることがありません。
それを逆さまにして、手を足にするとロボットが走ります。ただカメラはロボット本体とは別に置いています。カメラは重たいので本体には付けられないのです。その分、前転などアクロバティックな動きが実現しました。スピードを変えても転ばずに走ったり、障害物競走をしたりすることもできるでしょう。こうしたロボットを全部合わせると、ロボットだけで野球ができます。
基本的には今まで遅くて困っていた分野に入っていって、全部高速化してきました。効果が低い分野にはあまりいっていません。特に効果が高い分野が、ご紹介した8分野だったのです。
高速化の研究をとりまく様々な流れ
Q:色んなことが可能だからこそ、分野を選定することも必要なのですね。どうしてこのようなユニークな研究に取り組むようになったのでしょうか。
もともと所属していたのは、生体工学の研究室でした。そのときは人間が行なうこと、機能、そして構造などをできる限り工学的に作ろうと取り組んでいたのです。そのため脳や手と同じような仕組みを作ろうとしていました。卒業後、経産省の研究室でも同じような研究をしました。ところが、途中から「人間は遅い」と感じるようになったのです。
そのときカメラの最高速度はまだ人間と同じレベルの30フレーム/秒くらいでした。しかし「将来はきっとこの速さを超えるだろう。そしてそのとき、全く違うことがその速さにできるようになるだろう」と考えたのです。そうして、現在のように人間を超える性能をもつ知能システムを研究するうちに、本当に人間を超えられるのだと実感していきました。
最初に研究していたのは、人間を真似る触覚センサーです。しかし触覚だけでは何も分からなかったので、次に視覚も同時に研究するようになりました。それをセンサーフュージョンと呼びます。視覚と触覚を一緒にすれば、視覚のみ、あるいは触覚のみでバラバラに取り組むよりもずっと良いものができるのです。
そのうちに、どうも重要なのは視覚でも触覚でもなくアクチュエーターだと分かりました。それでアクチュエーターを扱うようになり、そうした全てを組み合わせてロボットができるようになったのです。このような流れだったので、実はロボットの研究からはじめたわけではありませんでした。
結果として、人体の再現にとどまらずに様々な研究へと可能性が広がりました。例えば、ロボットのアクチュエーターをディスプレイにも使えば、高速のディスプレイができ、プロジェクションマッピングなどが可能になります。このように、多数のことが人間よりも速くできるのです。
Q:もはや、高速システムにできない部分はないのでしょうか。
いえ、ここでは「帯域」、つまり周波数が重要です。これをダイナミクスと呼んでいますが、ダイナミクスには必ず上限があり物理的に決まります。つまり大きさと重さと長さからその物体のスピードが決まるのです。
例えば大きなクレーンはゆっくりとしか動きませんよね。小さくすればするほど速く動きます。スピーカーでも、大きいのが低音で、小さいのが高音でしょう。それと同じで、大きい方が低い周波数、小さいのが高い周波数なのです。
だから小さくすればするほど高速になるのですが、ロボットはそこそこの大きさがなければ動かすことができません。ロボットのハンドだって5cmなり10cmなり、ある程度の大きさが必要ですから。そのように大きさや重さが決まるとその最大のスピード、最大帯域も見えてきます。そしてそれがどうやら1000フレーム/秒、1秒間に1000枚の画像処理だと分かりました。それ以上の速さは出せないようです。
しかしロボットをもっと小さくしてマイクロマシンにすると、その分速くなるので1000フレーム/秒では足りなくなります。またスピーカーは10キロヘルツくらいで振動するので、その振動を画像で見て制御しようと思ったら、やはり全然足りません。つまり、小型化すると高速化がさらに必要になるのです。現在は1000フレーム/秒で十分ですが、マイクロマシンなどもっと小さなものを扱うときには限界帯域も高くなるので、もっと速くしなければ制御できません。
Q:単に小型化すればいいのではないのですね。近年はAIブームで盛り上がっていますが、研究に影響はありましたか。
もちろん、我々の研究している分野には色んなところからたくさんの話を持ちかけられており、8分野全てで様々なコンタクトがありますよ。けれども最近になって増えたかというとそうではなく、10年間くらいずっとそんな状況です。
近年の大きな変化としては、装置がどんどん安くなっていることと、割と性能が上がってきたことがあります。我々の活動も、そうした性能向上には多く寄与していると自負していますが、我々だけではなく製造関連の技術が向上してきたからでしょう。半導体が非常に進歩しているため、色んなことにおいて機能が上がってきているのです。コストも極端に下がってきています。
Q:研究開発にとって良い環境に進んできているのですね。
そうですね。そのため、企業に関してはメーカーに限らず、先述の8分野からは多くのコンタクトがあります。また、日本国内だけでなくアメリカからも多くありますね。というのも、高速の画像処理に関しては我が研究室が世界のトップを走っているのです。これだけ色んな領域を扱っているところはまず他にありません。
Q:なぜ海外にはこのような技術がないのでしょうか。
要するに、部品のテクノロジーがしっかりと築かれた上でシステムを組み立てる必要があるからなのです。アメリカはシステムを作るのは上手ですが、部品のテクノロジーを突き詰めていないのですよ。この技術は市販の部品を使っても実現できないので、部品とシステムの両方が揃った我々が突出しています。一方で部品を作るのが得意な台湾や韓国がこの技術を真似しようとしましたが、やはり高度なシステムがないといけないので、だめだったのです。我々を模倣しようとする大学、企業、外国は多いですが、どこもあまりまともにはできていません。アメリカでは200フレーム/秒までは出せますが、それ以上はできないようです。
武器となる基盤技術に磨きをかけ、革新的な応用で新しい市場を拓く
Q:これまで人間とロボットなどの技術が共に進んでいくイメージが主流で、人間をはるかに超越する性能を追究する考えは衝撃的なものですが、この分野に携わる人に対してどのようなメッセージを発信していきたいですか。
世の中の多くの人は画像処理に関するシステムを組もうとすると、市場に出回っている画像処理装置を買ってきてしまうのですよね。そうすると、せいぜい30〜60フレーム/秒くらいの性能です。そのような画像処理装置を買ってきてシステムを組もうと考えるのは、大きな間違いなのです。
まずは、「このシステムが、何に対応するシステムなのか」と考える必要があります。そしてその対応する対象が、どのくらいのスピードをもっているかを正しく認識することが最初のステップなのです。それから、そのスピードに対応するためにはどのくらいのフレーム/秒で動くシステムが必要なのかを決めます。それによって、どんなハードウェアをもつ高速画像処理の装置が適しているのかが分かるでしょう。それが正しいシステム構築の順序なのです。
もう一つの課題は、人間の目をベースにしているがゆえに、人間の目で見ても分からないものを研究したがらないことです。人間の目は30フレーム/秒ですが、我々が扱っているのはその目では見られない世界です。つまり、人間の目で見えるならば、それは遅い、ようするにシステムの限界まで届いていないと言えるでしょう。機械の目は人間の目よりも上をゆくのですから、機械の目ではどのように見えるのかと追究していかければいけません。
Q:今後は速度の先入観を排して、研究や開発のあり方も変わってくる可能性がありますね。
はい。だから、制御すべき対象が目で見えているのならば、それは我が研究室の領分ではありません。制御したいのに、人間の目では細かい部分まで見えないのならば、我々の技術の出番です。「何か動いているのはわかるのだけれども、細かいところまではどうもよく見えない」といった問題を抱えている人にとっては、我々の技術がぴったりなのです。先に挙げた例でも、時速100キロで高速道路を走っているときに、トンネルの0.2mmのクラックなんて見えないですよね。もっと言えば、車で走っているときに太めの髪の毛2本分なんて、肉眼では見えないでしょう。我々が取り組んでいるのはそういう世界です。
Q:高速の技術を求めて多くの企業に声をかけられると思いますが、その際に企業が注意すべきことは何でしょうか。
一つ挙げるならば、「実用化にもっていく話をしましょうよ」と言いたいです。我が研究室の技術はかなり先をいっていますから、少し開発を進めていけばすぐに実用化につなげられるのです。それなのに、「基本的な実験から」と言っていては、遅すぎます。
その上、これまでも多くの企業と協力してきたので、割とそういったことに慣れています。話がきたときに、「こういうものを制御したいのです」と聞いてそれが遅いものだったら、「うん、それは我々ではなくて別の研究室だ」と見当がつくのでお断りしています。「それはうちではなくて、別の30フレーム/秒の画像処理でもできるよ」といったように。
あるいは「分解能を上げたいのですが」と言われたら「分解能は我々の専門ではありません」とすぐに教えて差し上げることができます。これはどういうことかというと、実は分解能を上げるためにはスピードを落とした方が楽なのです。先ほどのバッティングロボットやじゃんけんロボットのカメラなどは、500×500、つまり25万ピクセルなのですから。今や分解能の先端は2000万や、1億に到達しようとしているくらいの世界なので、我々の取り組んでいることとは方向性が全く異なるのです。
Q:今後この分野を研究していく学生に向けてメッセージをお願いします。
「新しいシステムを組む」というマインドをもっていることが重要です。ベースとしての高速画像処理技術は既にしっかりと確立されているので、これを利用してなるべく違う分野へと羽ばたいていってほしいと思います。今まで応用されてこなかった分野に持ち込めば、そこを独壇場にできるからです。
そのための絶対的な条件は、それが「速いものが勝つ」ような分野であることです。高速にすることで価値がぐんと上がるような分野でなければなりません。言うなれば、他だと100年かかるならば我々が10年でできてしまえるのです。例えばトンネルの検査の場合、実は対抗馬がいるのですが、対抗馬の技術では100キロの速度を出せないので、検査する場所を通行止めにする必要があります。このように、高速であることによって雲泥の差が出るのです。
Q:経産省の研究員であったキャリアもお持ちですが、規格を決めたり科研費を出したりと研究に影響を及ぼす行政に対して期待することはありますか。
我々の研究には、規格はあまり関係がないのです。研究費も潤沢なので、あまり意識することはないですね。つまり、この研究においてベースの部分は基本的な蓄積によって磨かれてきましたが、応用の部分は完全にアイディア勝負なのです。ベースがしっかりとあるから、どんな応用もどんなアイディアも実現でき、世界のトップにすぐ立つことができます。
その基本の部分はいいのですが、今後分野を広げていくことにおいては、アイディアをどう出すかが重要なのです。しかし新しいことを取り込むことにはリスクがあります。このリスクには技術的なリスクも当然ありますが、他方で「ウケない」リスクもあるのです。
研究開発投資をして研究を後押ししていると、その研究の成果として必ずモノができますよね。そしてそのモノができたとき、社会がそれを受入れるかどうか。それをできる限り早めの、アーリーステージでチェックする必要があります。その中でウケの良さそうなものを実用化にもっていくことが重要なのです。
そのように新しいシステムが価値を生むかどうかを判断するのは、とても難しいことです。そこでPOC(Proof of Concept)と呼ぶシステムを作ります。つまり、我が研究室では道具がかなり磨かれていますから、そうした道具を使ってすぐに作ってみるのです。そのようにアピールすると、「この製品はこのような性能がでますが、社会はその価値を認めますか」と問うことができます。そこで手応えがあればもう少し進め、あまり手応えがないようなら終わりにします。そのような手順を繰り返していくのです。だから、面白い装置をたくさん作っているのですが、それが世の中に受入れられるかどうかは分かりません。
このリスクをきちんと理解していくことが必要だと思います。「この問題を解けばいい」といえる問題が先にあり、それを解くためだけの科学技術ではなくなってきているのです。我々にとって問題はそもそもありません。つまり単純に「面白いものを作りました。これを皆さんは価値だと思いますか、思いませんか」と提示するだけです。それで「素晴らしい、ここで使いたい」と言われたら、そこにすぐ投入しますし、誰も手を挙げないようなら闇に葬るのですね。もったいないと思われるでしょうが、そんなことはありません。社会が受けつけないのなら仕方ないのです。
Q:日本の社会は新しい価値を受け入れるのが苦手な印象があります。
そうですよ。海外の方が反応のいいことは、我々の出している「研究成果集」が海外だけで年間で1800〜9000ダウンロードもあることからもよく分かります。YouTubeも総計で800万アクセスあります。他で上げられているビデオも合わせると1500万アクセスにも上るのです。
「研究成果集」をダウンロードしているエリアを見ると、その6割がアメリカです。それに対して日本は1割しかありません。ようするに、日本は新しいシステムに対するレスポンス、感受性が弱いのだと感じます。日本では、どこかに問題があって、その問題を解くための科学の方に、より大きな価値を見いだしてしまうのです。けれども、「問題がある」ということはつまり、新しい技術ではありません。その場合、改良型の研究となります。改良型の研究だと次のマーケットは作れないのです。だから我々は改良型の研究ではなく、基盤技術を磨いて、それを与えられた問題を解くために使うのではなく、自ら新しいマーケットを作るために使いたいと考えています。
よく「システムを作るのは大変でしょう」と考える人がいるのですが、これは勘違いです。それよりも大変なのは大本の技術を磨くことです。現在我々は高速の画像処理と、高速のアクチュエーターと、高速のディスプレイ、この3つの武器をもっています。この3つを組み合わせて、突然変わったことを実現するのが我が研究室のスタイルです。
例えば、じゃんけんロボットは高速の画像処理を研究して15〜16年目くらい、高速のハンドを研究して10年目くらいのときに1日で作ってしまいました。では簡単に成し遂げたことだったかというと、そうではありません。組み合わせたのは1日でも、方や10年、方や20年近くそれぞれ費やした技術があってこそできたことでした。それが、これまで述べてきた基盤技術の重要さなのです。長い間ずっと磨いてきた基盤技術があったので、そこからアイディアを出してシステムを組み、じゃんけんロボットを作るのは1日でできました。つまり、これを1日で作れるのは世界中で我々の研究室だけです。
Q:そうした武器を磨いて、新しい研究に応用されていく方針を確立されているのですね。
そうです。このような試みを繰り返しています。基本技術を磨く研究スタイルとそこから飛び出す研究スタイルは割と相反するものですが、そこを両立させるのが我が研究室におけるスタイルなのです。これは我々の特色と言えると思います。なぜなら、大学では基本技術を磨くだけで終わってしまうことが多いからです。我々は基本技術も扱いますが、そこから飛び出して、突拍子もないところで応用することまで全て行なうのです。それをうまく行なえる研究室としての自負もあります。
※石川正俊教授が副会長を務める「WINDSネットワーク」(高速画像処理技術を活用したオープンイノベーションを促進するプロジェクト)のセミナーが3月21日(火)に開催されます。最新の技術動向や応用事例にご関心のある方は、ぜひご参加下さい。https://www.winds-network.org/

石川 正俊
いしかわ・まさとし
東京大学大学院 情報理工学系研究科システム情報学専攻教授。センサー工学やロボット工学のシステム情報学の研究に従事する。1977年東京大学工学部計数工学科卒業。1979年東京大学大学院工学系研究科計数工学専門課程修士課程修了。1988年工学博士(東京大学)。通商産業省工学技術院主任研究官、東京大学理事・副学長などを歴任し、現職。2011年紫綬褒章を受賞、その他受賞多数。