次世代シークエンサーの発展により、医科学・生物学の分野では膨大な量のデータが産出されるようになりりつつある。これらのビッグデータに対して、新たな情報処理アルゴリズムの基板研究開発によってこれまで不可能だった解析を可能とし、医科学を新しい次元へ進展させることをめざす研究を行なっているのが、東京大学医科学研究所 ヒトゲノム解析センター・シークエンスデータ情報処理分野の渋谷 哲朗准教授だ。今回は渋谷准教授に、「バイオインフォマティクス」と呼ばれる領域の可能性について話を伺った。
増加するデータに対応するアルゴリズムを開発
Q:研究の、社会的なニーズについて教えてください。
近年、DNAをものすごいスピードで安価に読む「次世代シーケンサー(NGS)」が出現するなど、世の中に存在するデータの量は増大の一途をたどっています。1年間で2倍以上ともいわれる速さで増えている状況です。
もちろん、データだけではなく計算機もスピードアップしているので、データが増えるスピードよりも計算機のほうが速ければ困ることは少ないかもしれません。「ムーアの法則」にもあるように、計算機の能力も2年で倍くらいの速さでアップしています。
しかし、1年と2年ではかなりの違いがあります。たとえ現在、そのコンピューターで何かしらデータを解析できていたとしても、10年後も同じようにできるとは考えにくいです。
そう考えると、どのようにスパコンを使ってデータを扱うかが非常に重要になってきています。そこを何とかしなければ、データはたくさん集まるものの昔よりもレベルの低いことしか解析できず、科学が進んでいるのか遅れているのかわからなくなってしまいます。そこを何とかしようというのが研究のねらいです。
次世代シーケンサーはDNAをものすごい速さで読むことができますが、実はそこまで賢いわけではありません。非常に短い領域しか読むことができず、例えばヒトゲノムは30億塩基が連なってできていますが、そのうちたった100~200くらいしか読むことができず、その断片をたくさん同時に並列に読んで、「全部読んだ」としているわけです。そのため、最初はどこかわからない状況で同じ場所を何十回、何百回と読んでいきます。
読んだ後、人のゲノムの場合は調べている人のゲノムに対して、読み取った短い断片がどこから来たかを探します。また、ヒトゲノムではないものだったり、ヒトゲノムでも人によって配列が少し違っていたりするので、今まで知られていない配列があった場合は、それをうまくパズルのように組み合わせて作り直さなければいけません。
そこで、我々はそれに対するアルゴリズムを一つ開発しました。
この処理を行うには多大な計算資源とメモリが必要となります。例えばヒトゲノムを解析する時、従来の手法であれば3〜4テラのメモリが必要で、イメージとしてはノートパソコンのハードディスクと同じくらいのものになります。さらに最近出てきている研究では、その10倍ぐらいのゲノムを持った生物もシーケンシングされています。我々のヒトゲノム解析センターでは、そのような解析を行うことが可能なように非常に大規模なスパコンシステム「Shirokane」を持っています。
さらに、人の腸の中のゲノムをサンプリングして、住んでいる腸内細菌を全部シーケンシングする(メタゲノム)となると、ヒトゲノムの100倍ぐらいのゲノムが入っているという結果が出ています。それでも本来あるべきものよりもはるかに小さく、大体1グラムの試料の中には人間1人分の DNA の1万倍入っているといわれています。たった1グラムで、です。これは人の腸に限らず、環境ゲノムも同様です。
そういったものを調べようとすると、今までには知られていない配列ばかりですから、すべて組み上げるとなるとなかなか大変なことです。それに対して、従来の手法と比べてメモリを100分の1程度で済む手法をつくりました。この技術によって、これまで不可能だったサイズの巨大ゲノムの解析が可能となりました。
また、この技術を用いれば、ヒトゲノムくらいのサイズのゲノムであれば、ノートパソコンがあれば解析できます。おそらくゲノムは将来的に個別化医療の方向に進んでいくと思いますが、人1人をシーケンシングして、解析して、治療方針を決めるとなった時、1人に何百万円もかかってしまっては治療ができませんから、なるべくコストを下げなければいけません。
シーケンサー自体は年々安くなってきており、現時点でも10万円以下、数年後には1万円を切るかもしれません。ただ、それを解析するのにスパコンが必要となってしまっては本末転倒ですので、ノートパソコンやスマホで計算できることが重要になってくると考えています。
現状でも、USBスティックほどの大きさの「半導体シーケンサー」という、ノートパソコンにつけるだけでシーケンシングができるものも出ています。こういった技術がこれからどんどん進んでいけば、10年後くらいには治療方針などが手軽に手元の小さな機器で簡単にわかるSFのような世界がやってくるのではないかと思います。
Q:特徴の一つである「索引」技術とは何でしょうか。
「索引」は、とにかく早く探し出す技術のことです。対象は何でもよくて、おそらくみなさん普段はグーグルなどを使って検索すると思いますが、調べたいものについてすぐに情報を提示してくれる裏側には、検索あるいは索引のアルゴリズムがあります。
例としてグーグルの話をしましたが、DNAの場合もヒトゲノムの場合はマッチングさせない、知られている配列にここからきたということ探し出さないといけません。
これも高速にしかもなるべくコンパクトなメモリで探さないといけない。これは過去10年でものすごく進歩した研究領域で、検索とか索引とか比較などの領域はこの10年で非常に進歩しているといえます。
それ以外にも例えば「タンパク質の立体構造」というものがありまして、タンパク質は人間を構成する最も重要な分子です。ではその分子の機能は何かというと、何かしらの形をしていて、他のものと結合することで機能を持つわけです。
重要なのはその形で、形が似ていると機能も似ているかもしれないということで、類似した機能のものを探すために、類似した形のものをデータベースの中から探してくる、といったことも我々は行なっています。
Q:研究室の独自性としてどんな点がありますか。
世界中で競争している感じではありますが、東大白金台キャンパスにある我々の研究室の属する医科学研究所には「医科学研究所附属病院」があるという特徴があります。
私はコンピューター科学専攻を兼担していまして、情報科学寄りの人間なのですが、この医科学研究所では、情報科学研究から医科学の臨床の最先端をやっている先生方、さらに基礎をやっている方が非常にコンパクトに固まっています。
自前でスパコンを持っていますし、NGSも持っていて、患者さんもいらっしゃいます。そういった部分が独自性といえるかもしれません。病院がある大学は多いと思いますが、うちのように様々な分野の研究室がしっかり連携がとれているところは少ないのではないかと思います。
臨床シーケンス自体が発展してきたのは、ここ10年くらいのことだと思います。NGSについても10年でかなりの進展がありました。情報科学でいうと、索引系の話はここ15年くらいでしょうか。それぞれの分野が進展した時期がちょうど重なって、この先の個別化医療という方向に進みだしたところですね。
プライバシーの保護が必須
Q:研究上の課題としてどんなことを感じていますか。
プライバシー保護についての取り組みが、さらに求められると考えています。
臨床シーケンスにはセキュリティがものすごく重要で、うちの研究室でもそのために非常にセキュリティの高い部屋を用意して情報解析を行なっています。個人のデータにはかなりの機密性が求められるため、個人情報保護法だとか倫理指針など守らなければならないものがたくさんあります。
一方、ここ10年ほどで、プライバシー保護の技術もものすごく進歩しています。例えば絶対他人に見せたくないものには、よく暗号化という方法が用いられますが、最近、暗号化したまま計算する技術が脚光を浴びています(秘匿演算といいます)。
他にも、データベース内にあるデータを人に見せないように使える匿名化技術や、暗号化してもどこにアクセスしているかを観察していれば、何をしているかわかってしまう場合があるので、アクセス自体を秘匿するという技術も出てきています。
このように様々な技術が進歩してはいますが、まだまだ粗削りといいますか、まさにアルゴリズムの革新が求められる部分でもあります。新しい技術は出てきているものの、実際の個別化医療に対してつなげていくにはまだまだ詰められていないところがあるという感じです。今後はそういったところをもっと近づけていきたいですね。
Q:現在、研究室の体制はどうなっていますか。
学生が5人と特任助教が1人、私も含めて7人体制で研究をしています。学生は、博士1人、修士3人、学部が1人です。情報理工のコンピューター科学専攻というところを担当していて、学部は理学部の情報科学科になります。
Q:この分野を志す学生にはどんなことが必要でしょうか。
当分野は学際領域ですから、様々なことに興味を持つのが大事です。さらに自分の得意分野があれば、それを核にして研究ができます。プログラミングや統計科学、アルゴリズム理論では負けませんとか、あるいは生物系のこの分野に関してはもう完璧ですとか、とにかく何かしら得意なことがあるのは強みになります。何かに興味を持ったらしっかり勉強すると同時に、他のことについても広く浅く情報を得る、この両方が必要かなと思いますね。
Q:企業との共同研究などは進めていますか。
私は現在、クレストというプロジェクトをやっていますが、その中で索引構造をつくる研究グループを動かしており、グループ内には企業の方も参加しています。
例えば通信を速くするためにデータを圧縮して送って、解凍するという形にすれば、大量のデータをやりとりすることができます。単純な話のようですが、小さな機械の上でリアルタイムにやるためには、IoTのすごく小さな作業領域で高速にやらなくてはいけません。それができるようなアルゴリズムをつくって、実際に素子をつくってビジネスに繋げているという感じの人が我々の研究グループの中にもいます。まさに、アルゴリズムが産業に直結しているところですね。
企業は企業、我々は我々でやりたいことがあって、まったく同じことをやりたければいいのですが、なかなかそうはいきません。たまたまやりたいことが重なった時に協力できれば、新しいものが出てくると考えています。常にアンテナを立てて、一緒にできる企業さんがいるかを探すことが大事ですね。
企業に対しては、問題意識に対して味付けをせずに、ニュートラルに話してくれたら嬉しいなと思いますね。話していくうちに協力し合えるところに気がつくかもしれません。バイオインフォマティクス固有の問題としては、企業が取り組む際にビジネスに繋げるためのハードルが高いという点があります。
よく使われているツールは誰かが無料でつくったもので、わざわざ企業がつくった有料のツールを使ってもらいたくても、そこに相当の差がなければ使ってもらうのは難しいです。その意味で、企業がビジネス化することは難しいのですが、この先個別化医療で診療に繋がった時にほとんどの病院で使われるとか、電子カルテ並みに使われるような技術になれば、ビジネスチャンスが生まれてくるので話は変わってくるかもしれませんね。
Q:今後の目標を教えてください。
まずはプライバシーの保護について、何かしら新しい技術を出していきたいです。おそらく早ければ5~6年後くらいから、日本国民のほとんど全員がゲノムデータを持つ時代がやってくると思います。そういった状況になると今までできなかったことができるようになります。
例えば「家族性疾患」という遺伝が関係する疾患がありますが、これを解析するには患者さんの親やご兄弟、親戚などに試料やカルテをくださいとお願いして、遺伝子の領域を比較しながら原因を予測する形で解析を進めていきます。もしそこで日本全国全ての人のデータがあったら、倫理的に越えなければならない壁は多いものの、同じ領域や同じ症状を持っている人を探し出すことができるだけで、親族に限定して比較しなくてもいいことになります。こういった、まったく違う方向からの研究を可能にする情報技術を、なんとか開発していきたいと思っています。
巨大なデータベースを検索するのは簡単なことではありませんし、倫理的な観点からはプライバシーの保護も必要です。やらなければならないことはたくさんあって、目指すところは10年後ですが、10年後につくっても間に合わないのでせめて数年後には何かしら形にできたらいいなという野望はありますね。(了)
渋谷 哲朗
しぶや・てつお
東京大学医科学研究所ヒトゲノム解析センター准教授。
1995年、東京大学理学部情報科学科卒業。1997年、東京大学大学院理学系研究科情報科学専攻修士課程修了。
1997年より日本アイ・ビー・エム東京基礎研究所研究員となり、7年間勤務したのち、2004年より東京大学医科学研究所ヒトゲノム解析センター 講師に着任。
2009年より現職。