従来の生物では活用できていないタンパク質のポテンシャルを創出するために、多くの研究者が人工タンパク質の研究に取り組んでいる。しかし有用な人工タンパク質の設計は、成功率が極めて低く、運任せになってしまっている。その理由は、タンパク質の基本的な法則が解明されていないところにある。特に、タンパク質の機能や性質に関する良質なデータは限られており、深層学習モデルの構築のボトルネックとなっていた。そこで、機能性を示すタンパク質分子の割合を規定する重要な性質である「構造安定性」を効率よく、大規模に測定できる方法を開発したのが、東京大学 生産技術研究所 坪山 幸太郎講師である。今回は、坪山氏が目指す人工タンパク質の合理的設計の研究概要と現状の課題について、詳しく伺った。
タンパク質の構造安定性を、効率的かつ大規模に解析できるデータ手法を開発
Q : 研究概要について教えてください。
主には、人工タンパク質を合理的に設計する研究を行っています。身体の主要な構成因子であるタンパク質は、20種類という限られたアミノ酸が一列に並んで多数つながっている多量体です。多様なアミノ酸同士が相互作用することで、そのような多量体が複雑な構造を形づくり、タンパク質は多様な機能を生み出すことができます。
たとえば、生物が光を感知できるのは「ロドプシン」と呼ばれるタンパク質が網膜に存在するからですし、「アクチン・ミオシン」という2種類のタンパク質が、ずれる動きをすることで筋肉を動かすことができます。このように生命活動の多くは、タンパク質によって支えられています。
さきほどタンパク質に含まれるアミノ酸が20種類しかないと申し上げましたが、100個アミノ酸が並んでいると、1箇所について20通りの可能性があるため、タンパク質の種類は、20100(20の100乗)という途方もない数になります。その数は非常に膨大で、宇宙の原子の数よりも多いと言われており、タンパク質が持つ潜在能力の高さを物語っています。
それだけ多種多様なタンパク質が存在しますが、生物が本来活用できているのは、アミノ酸配列の空間中では、ごく一部でしかありません。つまり、高いポテンシャルがあるにもかかわらず、生物はタンパク質の多様な機能を使いこなせていないのが現状です。そこで、人工タンパク質を設計できれば、従来の生物では活用できていなかったポテンシャルを活用できるのではないかと考え、研究に取り組んでおり、それが私自身の研究へのモチベーションにもなっています。
Q:では、人工タンパク質は具体的にどのようなことに活用されているのでしょうか?
身近なものでは、新型コロナウイルス(covid-19)の感染拡大を防ぐようなタンパク質を創出することができます。新型コロナの感染抑止にはワクチンが有効でしたが、人工タンパク質を活用した新型コロナ治療薬の開発も進められていました。ただし、人工タンパク質には致命的な欠点があります。それは、治療薬として有用な人工タンパク質のアミノ酸配列をどのように設計すればよいのかが解明できていない点です。
新型コロナウイルス(covid-19)の治療薬として有用な人工タンパク質は10万個ほど設計されましたが、そのうち実際に必要な機能を示したのは9個程度でしかありません。成功率でいえば、ほんの0.01%程度です。宝くじで一等を当てるような運任せの研究になっているのが実状ですので、これを打破しようと、私は人工タンパク質の合理的な設計の研究に取り組んでいます。
そもそもなぜ成功率が低いのかというと、一番の理由は、タンパク質の基本的な法則が解明されていないからです。タンパク質は非常に複雑な立体構造ですが、元々はアミノ酸が連なった紐です。この長い紐が、どのようにして複雑な構造を形づくるのか。どのようにアミノ酸を配列させれば、きちんとした構造を保つことができるのかが、よく分かっていません。
こうした基本法則が解明されていないため、人工タンパク質もどうやって構造をつくり、その構造がどのようにして機能を果たすのかを、なかなか解き明かせないでいます。そこでもう1つの研究テーマとして取り組んでいるのが、「タンパク質の基本法則の解明」です。
たとえば、タンパク質の構造に関しては、非常に優れたデータベースがあるのですが、その一方で、タンパク質の機能や性質については、役立つデータがほとんどないのが現状でした。あったとしてもサイズが小さかったり、低品質なものばかりだったのです。そこで2023年に、私は構造安定性といったタンパク質の性質を大規模に解析できるデータの取得可能な方法を発表しました。これによって、少しずつですが精度の高い人工タンパク質の設計が現実のものになりつつあります。
タンパク質の基本原則を理解したり、人工タンパク質を合理的に設計したりするには、もはや深層学習(機械学習)を駆使しなければほぼ不可能な領域になってきています。そのツールを有効活用できるようにするためにも、大規模かつ高精度なデータが必要になってきます。目下のところ基盤となるそのデータベースづくりが課題になっています。
Q : 現在、どのような研究を行っているのでしょうか?
タンパク質の性質を規定する基本原理の解明です。例えば、タンパク質の大部分は、大腸菌や細胞を使って製造されていますので、タンパク質をそれらのなかでどれだけ安定的に存在できるのかを研究しています。これにより、より簡便に大量生産可能な人工タンパク質を設計できるのではないかと期待しています。
また、タンパク質はさまざまな特徴や性質を持っていますが、そのなかで最も重要な機能の一つは、タンパク質同士がパズルのように相互作用する性質です。例えば、新型コロナウイルス(covid-19)の感染の鍵となるのは、新型コロナウイルス(covid-19)の表面にあるスパイクタンパク質が、私たちの細胞上の受容体に吸着することで、細胞の中にウイルスが侵入してしまうステップです。先ほど述べた人工タンパク質は、スパイクタンパク質と強力に相互作用することによって、ウイルススパイクタンパク質が細胞上の受容体と相互作用できなくさせることにより、ウイルス感染を防いでいます。
ただ、このタンパク質の相互作用は、パズルのようにくっつきますが、お互いどういう形状が最適なのか(あるいは不適合なのか)のメカニズムまでは解明されていません。だからこそ、現状の人工タンパク質の設計は宝くじを引くような状況になってしまっています。逆に、相互作用する法則を解明できれば、人工タンパク質設計の成功率の精度をもっと高めることが可能になります。そのベースとなる研究にも重点的に取り組んでいるところです。
Q : 独自性はどんなことにありますか?
近年タンパク質科学において、深層学習(機械学習)モデルの導入が積極的に行われています。しかし、活用するためには膨大な高精度のデータが必要で、それらが不足していることが大きな課題になっています。それらデータを収集しつつ、かつ深層学習の知見を持って、データがほしいところに的確にアプローチできるところが、私たちの研究室の独自性になっています。実際、世界中見回しても、それができている研究室はほとんどありません。それができるのは、私たちが一般的な生物学と、深層学習(機械学習)の両方の知見を持っているからです。
Q : 現在の研究に取り組むにいたった経緯を教えていただけますか。
元々医師になりたいと思い、医学部に入学しました。そんな中、水島昇教授の研究室に入って、オートファジーというタンパク質が分解される機構の研究を経験したことで、基礎研究へのモチベーションが高まり、本格的にタンパク質の研究に取り組むようになりました。
水島研究室では顕微鏡を活用して、細胞の中にあるタンパク質がどういう挙動をしているのかを研究していました。そこで基礎研究のベースを学んだ後、さらに分子レベルの研究を経験してみたいと思い、泊幸秀教授の研究室に移りました。泊研究室では1分子FRET計測といわれる2種類の異なる蛍光色素を用いて、距離の変化を時系列に観測することができます。この1分子の動きを計測する技術で、タンパク質が機能するための構造変化を観察しました。また、その過程で、加熱しても固まらない特異な性質をもった「HEROタンパク質」も発見しました。こうした研究を通じて、タンパク質の潜在能力を痛感し、タンパク質が非常に高い多様性と多機能性を持つ分子だと考えるようになったのです。タンパク質は生体のなかで、さまざまな特性を持っており、いろいろな分子が協調して生命現象を織りなしています。そういう点が非常にユニークな存在だと思います。
そしてしばらくして、Googleのグループ会社であるDeepMind社によって、深層学習「AlphaGo」という圧倒的な性能を発揮する囲碁AIが開発されました。「生物学、タンパク質科学でもこれからは深層学習が必要だ」と考え、Northwestern大学の Rocklin研究室に留学、そこでタンパク質を大規模に解析する方法を修得し、今に至ります。
いろいろな分野を経験して、それらを統合できる力を身に付ける
Q : 研究テーマにおける課題はどんなところにありますか?
まず技術的な課題としては、データを大量に取得する必要があるため、コストを抑制できる「技術の開発」が求められるようになります。基本的にDNAを合成する際には、安くて1本10円、高ければ1本1000円程の費用がかかります。深層学習に活用するには、10万〜100万のデータが必要です。例えば、1本100円で100万種類のデータを取ることには、それだけで1億円かかることになります。そのため、そのコストを抑えられる技術をいかに開発できるかが、タンパク質の大規模なデータを取得するための一番の課題になっています。今でこそ、DNA合成を高精度で行う技術力が高まっていますが、まだまだ難易度は高いです。短いDNA鎖は大量にできても、長いDNA鎖を正確に合成するのは、今でもボトルネックになっています。
もう1つは倫理的課題です。人工タンパク質の業界をリードしている研究者が最近サイエンス誌にも投稿していましたが、人工タンパク質は非常に高いポテンシャルを持っているため、治療薬などの役立つものに活用できる一方で、毒になるものも創り出せます。例えば、「ボツリヌス毒素」という、筋肉が麻痺して全身がけいれんするという毒素があります。実はこれもタンパク質で、人工的に創出することが可能です。ですから、仮に合理的な人工タンパク質設計技術を開発できたとすると、こうした猛毒を(理論的には)簡単に設計・製造することもできてしまいます。
Q : この研究領域を目指す学生にメッセージはありますか?
研究に取り組む方法としては、大きく分けて2通りあります。1つは、ひとつの分野にこだわり追究していく方法。もうひとつは、さまざまな分野を経験して、それを自分の中で統合しながら研究できる分野を広げていくやり方です。私が薦めるのは、後者の方法です。私自身、いろいろな分野を経験し、自分の中でそれらを統合できる力を身に付けたことで、今のような研究テーマを見出すことができました。
3つの分野を転々としてきましたが、当時は目標を決めて変わってきたわけではなく、どちらかといえば興味の赴くままに進めてきたところがあります。
2023年に発表した、タンパク質の構造安定性を大規模に測定する手法も、それ以前に在籍していた泊研究室で失敗したプロジェクトでやっていたことが実を結び、形になりました。研究は仮説を立てて取り組みますが、その通りにいかないことがほとんどです。目標を立てて取り組んでも、何が起きるか分からない、未来予測が難しいのが研究の領域だと思います。ですから、自分がその時に「これだ」と思ったことにチャレンジしてみるのも、アカデミアの道を進む上では、最良な方法の1つだと思います。
それに自分の決めた目標にこだわりすぎると、反対に身動きがとれなくなり、行動を狭めてしまう恐れがあるので、目標を定めるなら、変更ができるぐらいの柔軟性があるといいでしょう。
Q : 最後に、今後の展望を教えてください。
現在、Googleの子会社が開発した「AlphaFold」によって、アミノ酸配列からタンパク質の構造が、かなり正確に予測できるようになっています。もちろん、まだまだ課題は山積みですが、 7〜8割は解決してきたと思います。また、タンパク質の構造安定性についても、これまで理解が進んではいなかったのですが、そこも私の研究で少しずつ予測できるようになってきました。
ただ、その一方で、最適なタンパク質の相互作用などを含む、タンパク質の機能や性質を理解するためのデータが揃っておらず、それを実現するには10〜15年がかかると言われています。
「タンパク質のアミノ酸配列は構造を決め、その構造が機能を決定する」というAnfinsenのドグマのタンパク質の原理原則は、50年前に提唱されましたが、今でも生物学では常識ともいえる法則です。しかしアミノ酸配列から、タンパク質の構造、さらにその機能を正確に予測することは今なおできていません。深層学習(機械学習)と大規模なデータを取得可能な手法を組み合わせることで、タンパク質の基本法則の正確な理解を、少なくともこの10年で目指していきたいと考えています。(了)
坪山 幸太郎
(つぼやま・こうたろう)
東京大学 生産技術研究所 講師
2016年 東京大学 医学部医学科卒業。2019年 東京大学 大学院新領域創生科学研究科 メディカルゲノム専攻 博士課程修了。東京大学 定量生命科学研究所にて、日本学術振興会 特別研究員 (PD/CPD)、Northwestern University 日本学術振興会 特別研究員 (CPD)、Human frontier science program Long-term fellowなどを経て、2023年4月より現職。