日々増大しつづけるウェブ上の情報。人々がよりウェブを使って社会を豊かにしていくために、情報の整理と活用が求められている。セマンティックウェブと呼ばれる観点からウェブのよりよい可能性を追求するのが、国立情報学研究所の武田教授だ。AI分野一筋であるが、自らも「先がわからない分野」だと述べる武田教授に、次世代のウェブの形について伺った。

セマンティックウェブの分野で、ウェブを分析する
Q:研究の中心的な内容についてお聞かせください。
私の専門は、人工知能とウェブ情報学です。自分自身ではウェブ情報学と呼んでいますが、かっこよく言うとウェブにある情報を科学するものだと思っていて、主にこの二つの間を研究しています。詳しく言うとその中間にあるもの、専門用語で言う「セマンティックウェブ」が研究の中心になっています。
元々セマンティックウェブという言葉を言い出したのは、今年、コンピューター賞では最も権威のある賞であるチューリング賞を受賞したウェブの発明者であるイギリス人のティム・バーナーズ=リーです。この人はみなさんもご存知のWorld Wide Web、つまりウェブを作った人です。彼は正確に言うとコンピューターサイエンスの研究者ではなく技術者ですので、万人に使いやすいコンピューターを作ろうとしてできたものがウェブなのです。
今あるウェブは、彼が公開した時にはすごくシンプルなものにしたものです。普及のためによかったのですが、これは彼が本来実現したいものではありませんでした。彼が本当にやりたかったのは、人間とコンピューターの両方が分かる情報にする事でした。普通のウェブは人に見やすい読みやすい風に情報を見せることを主眼としているために、人間には分かりますがコンピューターにとっては実は分かりづらい構造になっています。それをコンピューターが分かるような意味をつけていく仕組みがセマンティックウェブというものです。セマンティックウェブはコンピュータにも人間にもわかる意味がつけられたウェブというものですから、ちょうどウェブと人工知能の中間にあるわけです。
私自身、最初は人工知能の研究をしていて、その中でも知識ベースシステムを主に作っていました。これは人間の知識を入れておくとそこから推論してくれるものですが、1980年代の第二次AIブームにエキスパートシステムという名前で有名になったものです。ここでの最大の問題は、知識を入れるのがとても大変だったことでした。あるシステムを動かすのに100も200も知識を入れなければならないのは、非常に難しいことでした。
ところがウェブが出てくると、それらは全てユーザーがウェブに書いてくれるわけです。診療システムで例えるなら「こんな症状を見たらどんな判断をしますか」といった事をそれまでは知識として入れていたのが、ウェブが出てくるとそんな事はみなさんが書いてくれます。これを見て、ウェブを分析すれば知識が得られるじゃないかと気づき、そこでウェブを研究しようと思いました。じつはこれこそが、ティム・バーナーズ=リーがセマンティックウェブと名付けていたものだったのです。
Q:ウェブで情報を集めて、それをコンピューターによって統合・整理するのはまだこれからということでしょうか。
そうですね。両方のアプローチがあって、ウェブ側を良くすればより情報が取りやすくなりますし、コンピューターの分析技術が向上しても情報が取りやすくなります。今はその両方からアプローチしている段階です。一番の目標は世界中の人達の知識を集めて使えるようにすることです。これができると僕らは信じています。そのため、僕は社会にある知識を集めて使う事をテーマとしています。
Q:知識を「集める」と「使う」は別ですか?
全く別物ではないと思いますが、研究的には分けて考えています。具体的には世界の共同プロジェクトとしてウィキペディアから知識を取るプロジェクトがあります。これはDBペディアと呼ばれるもので、ウィキペディアを変換して使える部分だけを知識としてみんなで使うプロジェクトです。
ご存知のようにウィキペディアには言語版があり、英語版は現在ドイツを中心とする研究グループでやっています。我々は日本語版のDBペディアを運営していて、それをみなさんに使ってもらえるような取り組みをしています。もちろんウィキペディアからそのまま使おうとしている研究者もいます。自然言語処理の研究者などは、そこから意味ある構造を抜きだそうとしています。しかし残念ながら自然言語処理ではまだまだ上手く抜き出すことができていません。
DBペディアの方法はもっとシンプルで、汎用性もあります。ウィキペディアの一部分の構造的な情報だけを抜き出して、それをコンピューターが使いやすい形に変換しておき、皆さんがアクセスできるような形にして置いておく方法です。この使いやすくなっている形を「リンクト・オープン・データ」あるいはLODと呼んでいます。
このLODという形式でウィキペディアだけではなく他のデータも扱うことができます。例えば地理に関する情報で有名なオープンストリートマップというものがあります。Googlemapのウィキペディア版のようなものですね。Googlemapは無料で使えるものだと思っている人も多いかもしれませんが、実は商用です。要はGoogleが作ったものをたまたま無料で使わせてもらっているだけですので、実際にはお金のかかるものなのです。そこでみんなで地図を作るプロジェクトがあり、これを「オープン・ストリート・マップ」と呼んでいます。これはウィキペディアと同じようにボランティアで地図を作っていく形で、世界中の人たちが活動しています。現在では世界中を網羅しているオープンストリートマップがありますし、これも先ほどと同じようにデータとして使えるようにしてあるわけです。
同じデータの形式にしていればデータ同士を繋ぐ事ができますから、そのデータの一部となって我々も活動しています。まずデータベースをしっかり作り、それを繋げて使ってもらうという事ですね。
ニコニコ動画は「見る」と「作る」を近づけた
さらにもう一つ別の話として、SNSなどのデータを分析して人がどのように繋がりを持っているのか、そこからどのような事に繋がっていくのかを分析しています。人間のネットワークと、そこで起きている事象のネットワークですね。我々が手がけた中で一番ユニークなのは、ニコニコ動画の分析だと思います。
ニコニコ動画の中でちょうど初音ミクが生まれた頃に、その動画がどのようにできていくのかを分析しました。 まずソフトを買った誰かが機械に歌を歌わせている動画を投稿します。次はその動画に画をつける人が出てきて、さらにそれを動画や3Dにする人も出てきます。このようにして、次から次へと新しい形が生まれてくるわけです。 研究としては、それがどのようにして生まれてくるのかを分析していました。なかにはすごくヒットする動画もありますから、そのヒットの始まりはどこからだろうというような分析もしました。
進めていくと、あるパターンが見えてきました。初音ミクの場合であれば、オリジナルソングが一つ出てくると画がついてきて、動画になってというパターンですね。また初音ミクはユーザーが作って投稿するものですから、YouTubeとはまた違うものであると言われていました。YouTubeはわりと独立した動画が投稿されて、それが良い動画であればすごくヒットします。一方でニコニコ動画の場合は、ある動画が投稿されるとそれを少し変えた動画が流行ってきます。そこには誰々を参照しましたというリンクがあり、この派生関係が面白い構造を作っているわけです。
ある動画がヒットすると、それを派生する動画がたくさん出てきます。そこを調べると、動画を作るネットワークと動画の派生関係が見えてきます。そこに対する閲覧数は、良い相関を取っているのですね。これは一見当たり前のように見えますが、特筆すべき事実です。作り手と見る側が同じ動きをしていますが、これは今のメディアにはない動きです。
TVやマスメディアは作る側と見る側は全く別世界で、そこに相関はありません。しかしニコニコ動画の場合は、その壁がものすごく薄いのです。実際に見ているうちに、作りたくなる人が出てくるといった感じですね。ここがYouTubeとの違いで、これがデータで裏付けられた事はとても面白い発見だと思っています。
この部分でも社会的な知識が欲しいと思っているわけです。先ほどのウィキペディアの話もそうですが、見る側と書く側の壁がすごく薄いです。読み手と書き手は紙一重で、ニコニコ動画もそうである事がわかりました。そこから皆さんの知識がどのようなものか、あるいはその知識をどのようにすれば獲得できるのかを、手を替え品を替え研究しています。
私の研究スタイルはデータを見て考えるというものです。例えばニコニコ動画のこんな状況を分析したい、ではそのためにはどうすれば良いか。既存の方法があればそれを使いますし、なければ自分達で考えます。そういった部分は、普通のコンピューターサイエンスの研究のやり方とは少し違うと思います。
普通は仮説を立てて立証しますが、仮説は今までの情報科学の理論からの延長線上にあるわけです。そういった意味ではどちらかと言うといわゆるフィールドサイエンスに近い態度かもしれませんね。ちなみに先ほどの初音ミクの件では論文も書いていますが、おそらく初音ミクのタイトルのついた初めての学術論文だと思います。これは絶対に面白い現象だからと、初音ミクが出た時からデータを取り始めていました。こういった部分も、普通の研究者との違いかなと思っています。
ウェブの「量」の問題を乗り越える
Q:技術的にできる事やできない事など様々な壁もあると思いますが、完璧な情報環境に対して感じられている課題などはありますか?
やはり量の問題が大きいですね。正直ウェブは、Googleですらページ数のカウントを止めていると思います。それほど巨大なウェブは、我々にとってまだまだ挑戦すべきものだと思っています。いまやっているのは本当に切り取った一部でしかないですから、そこがある種の無限のチャレンジと言えますね。
いくらウェブが人工的なものだと言っても、もはやものすごい量になっています。いかにより多くのウェブのデータを分析して使えるようにするかという面で、量的な課題はかなり大きいと感じています。
我々は知識のモデルにあたるものをオントロジーと呼んでいます。オントロジーには哲学の存在論の意味がありますが、これをコンピューターサイエンスでは、概念の構造を示すようなものといった意味で使っています。
例えば同じ「物」でも触れるものと触れないものがあったり、親の反対は子であるというような関係性についての意味合いですね。今使っているオントロジーはわりとシンプルなものですが、人間の考えている事はもっと複雑ですから、そのような抽象的な世界をきちんとモデル化する事はまだまだできていません。例えばコンピューターに「民主主義」という概念が理解できるかということですね。民主主義を辞書で調べても、全然分からないわけです。もちろん大量のデータを集めてくればなんとなく分かると思いますが、それは民主主義を定義している事にはなりません。 どのようにしてコンピューターが使える形にするのかは、まだまだチャレンジ段階であると言えますね。
いまは、事実に近いような問題に取り組んでいますので、これは答えが明確です。東京と言ったらどんな属性を持っているか、これはなんとなく全員が合意できるわけで、こういった知識に関してはやりやすいですね。しかし民主主義のように抽象的でみんなの意見が分かれるようなテーマは、どのように表現すれば良いのか、ここがチャレンジですね。
Q:産業面での課題はありますか?
この手の研究は、研究としての評価はなかなか難しく、評価されにくいです。ある技術があって、それを少し良くした技術を作れば論文になるのが研究の世界です。つまり論文を書かなくては評価されません。論文を積み重ねて書いていく分野は比較的業績を作りやすいですし、その結果研究資金も得やすいわけです。先ほどもお話ししましたが、私のようなアプローチはデータを見てどんな分析方法か、どんな構成かを考えることです。技術ベースでやっていないぶん、なかなか論文になりにくく、評価もされにくいです。
AIの分野もアルゴリズムを作っている人達はわりと論文を書きやすいですが、システム化する部分はあまり論文にはならないですね。アルゴリズムを作る人達は改良する度に論文を書けますが、システムの人達は3年かけて一生懸命システムを作っても、論文は一本しか書けないなんて事もありうるからです。こういった意味でのハンデはあると言えますね。
実際にGoogleを作ったブリンとページも、元のアイデアはたった一つの論文しか書いていません。ページランクはテクニカルレポートと言う大学の技術報告のようなもので、ただ単にやりましたとレポートを上げているだけです。しかしそれだけでも産業界にはかなりのインパクトを与えています。ですから、学術の評価と実用性や社会に対するインパクトの評価は違うと思っています。単にお金になるかだけではなく、社会に大きな変化をもたらすかどうかです。この辺りがAI研究の面白さでもあり、研究者としては辛いところでもありますね。
Q:日本は世界の中でもAIの研究が進んでいる印象がありますが、その辺りはどう思われていますか?
個人的には国内ではあまり進んでいるとは言えないと思います。残念ながら人工知能の研究者は、第二次AIブームが終わった頃にものすごく減ってしまいました。それもあって人工知能と名乗らない研究を皆さん続けてきたわけです。今のブームが長く続いて、若い人達が興味を持ってこの世界に入ってきてくれれば嬉しいと思っています。
Q:現在の各国共通プロジェクトはどこが中心になっていますか?
私の分野、セマンティックウェブの研究は、世界中で見ると、ドイツのグループが中心になっていますね。例えば先のDBペディアのプロジェクトも元々ヨーロッパのプロジェクトでドイツが中心のチームでやってきましたが、今はNPO化してデータを使う活動はそちらに移しつつあります。じつは我々も同様の活動をしていて、私も一つNPOを作ってリンクトオープンデータを社会に普及するNPOを作りました。これをどうすれば使ってもらえるかなどの問題に関しては、研究としての価値がなくても社会的に価値があるならやろうと考えています。そのためにわざわざNPOとして立ち上げましたので、ちょっと変わったアプローチかなとも思っています。
予測できない未来を楽しむ
Q:これまでの経歴をお聞かせください。
現在はAI分野の教授ですが、元々出身は機械系の学科を出ていて、博士を取ってからは人工知能を専門分野にしています。大学までは東京大学、その後ヨーロッパの大学にポスドクで行って、その後奈良先端大学、そして2000年からこの国立情報学研究所にいます。国立情報学研究所の創設時からのメンバーです。
ちょうど僕が学生の頃が第二次AIブームでしたので、一番盛んな頃から落ちる時までを体験してきました。分野の流行、落ちてからまた上がってくるまで全てですね。その頃はまさか自分が将来初音ミクを研究する事になるなんて、考えてもいませんでした。そもそも僕が学生の頃はウェブでさえも想像できませんでしたので、そう考えるとこれから先の10年がどうなっているかも分からないですよね。
コンピューターサイエンスの世界が面白いのは、やはり自然ではなくコンピューターやネットワークなどの人工物を相手にしている所だと思います。5年後、10年後がどうなっているか分かりませんが、逆にそれを楽しめる所がいいなと思っています。たまたまティム・バーナーズ=リーが作ったものが流行っただけで、もし彼があの時作っていなければ今のようにはなっていなかったかもしれません。そういった意味では独自の世界であると言えますね。ただ、人間が作ったものでもウェブの世界はもはやコントロールができません。そこは自然と似ているかなと思っています。
Q:企業に対して伝えたいことはありますか?
特に言いたいのは、これからの社会では知識インフラが社会もビジネスも重要で、こういったインフラ部分を良くするために企業ももっと協力してほしいという事です。我々がやっているDBペディアを維持するのにも、労力がかかるわけです。こういった所に、寄付や研究協力などどんな形でも良いので何かしらの協力をしてもらえたら嬉しいですね。うちのNPOでは小額でコンサルティングもやっていたりします。
AIと言うと深層学習などアルゴリズム作る分野だと考えられがちですが、じつはウェブをベースにした知識のインフラを作るのも重要な分野の一つです。私はある種の公益的なミッションだと思っています。みんなが投資してみんながメリットを得る部分もあるので、ここにも興味を持ってもらいたいですね。
また、維持に関して問題点もあります。我々は日本語で生きていますが、世界で見ると日本語の環境はとても小さいものです。そのため放っておくと日本語の環境が消えてしまう可能性も考えられるわけです。日本語の知識インフラを維持するためには、日本の企業に協力してもらうしかありません。ある意味、世界の事はGoogleに任せてしまっても良いと思いますが、日本のことは日本でやらなくてはなりません。放っておいて維持できるものではありませんので、この危機感も共有したいと思っています。
日本語の辞書で例えるなら、良い辞書は有償のものばかりですしデータも公開されていません。オープンに使える辞書がないわけです。今我々が使っているのは英語の辞書の日本語訳で、これは元々英語の概念ですから日本語に合わない部分も出てきます。しかし日本語でオープンに使える辞書がないため、それを使わざるを得ません。そうなると、もう英語のものだけでいいのでは?となってしまう可能性もあるわけです。これでは困ってしまいますよね。こういった部分を維持していく事は、日本の文化の維持でもあると思っています。
Q:日本でもデータベースを作られていますね。
確かにそれぞれの用途に合わせたデータベースは沢山あります。ただ、多くはオープンで繋がるデータベースではありません。それではバラバラのままです。そこれで我々も例えば横浜地区でのアートイベントをデータ化して供給するプロジェクトに参画してオープンで繋がるデータベースを作っています。これもLODのデータとして供給するので、みんなが自由に使えます。単なるイベントカレンダーとしてウェブに乗せるだけではなく、他のデータと組み合わせるなど自由に再利用ができます。
Q:今後、現在のAIブームを経て研究分野を志望する学生も増えてくると思いますが、学生に期待している部分はありますか?
いまの若い人たちは生まれる前からウェブがあるため、ウェブがある事が当たり前になっていると思います。当たり前すぎてあまり意識しないかもしれませんが、実はものすごい発明ですよね。自分たちが当たり前に使っているものでも、そこに興味を持つと結構面白い事が見えてくるわけです。
もはやウェブは我々の社会の基盤になっていて、歩くためや建物を建てるための地面のようなものです。しかしこの地面は人間が作ったもので、単なるインフラと言うよりも我々の情報や知識を乗せているものです。個人の頭の中の知識ではなく、社会の知識を見るのはとても面白いテーマだと僕は信じていますから、ここに興味を持ってもらいたいですね。(了)

武田 英明
たけだ・ひであき
国立情報学研究所 情報学プリンシプル研究系 教授。総合研究大学院大学 複合科学研究科 情報学専攻 教授、副専攻長。
2003年、国立情報学研究所 教授に就任。2004年、総合研究大学院大学 複合科学研究科 情報学専攻 教授に就任。2005年から2008年まで東京大学人工物工学研究センター客員教授、2006年から2010年まで国立情報学研究所 学術コンテンツサービス研究開発センター センター長、2008年から2010年まで東京大学 人工物工学研究センター 特任教授を務める。