「病院での診断をできるだけ自動化したい」と、医療分野におけるAIの活用が望まれている。こうしたなか、自然言語処理の技術を用いて認知症の診断技術の開発に取り組んでいるのが、奈良先端科学技術大学院大学の荒牧英治特任准教授だ。認知症の判定には、一人の患者を長期間にわたって深く観察することや、正確な計器などさまざまな条件が必要になってくる。「情報技術は一定の確率で失敗が起こるため、それをカバーするために2つの解決方法がある」と語る荒牧特任准教授に、技術的な観点から産業応用に必要な条件を伺った。
自然言語処理技術を医療に応用
Q:研究の概要についてお聞かせください。
自然言語処理の医療応用を研究しています。
自然言語処理というのは理系の分野の中では人工知能研究の一分野と言われています。
画像を扱うのは画像処理、音声を扱うのは音声処理、言語を扱うのは言語処理といったように扱われていますが、自然言語処理はそれら基盤となる技術の一つです。
通常は漢字変換やGoogleの検索、最近では音声翻訳など言葉を使ったものをコンピューター技術で支えるものになっています。
極めて理系的な分野の一つでもあるのですが、それと非常に離れた分野であると思っているものの一つが医療分野です。
言語処理の研究の中で離れた組み合わせを考えた時に、医療での応用についてはこれまで試されてきませんでした。新しい分野を作りたいという思いで医療分野での応用に進みました。
社会的ニーズについて考えてみると、実はこれといったものが思いつかないのが現状です。
例えば医療と画像という組み合わせであれば、レントゲンという例が挙がります。しかし、医療と言語と言ってもピンとくるものはないのではないでしょうか。
こうして、私自身も研究する社会的ニーズがどこにあるのか最初わからない状態からスタートしました。
当初研究を行なったのは、電子カルテ検索システムでした。言語処理は電子カルテなど言語を検索することが得意ですから、電子カルテのシステムの高度化などを研究のスタートにしました。
これは医療においてはバックエンド領域で、患者さんの目には触れません。
これではせっかく医療と言語の組み合わせを追求しているのにもったいないと考え、他の組み合わせを探しました。それが10年ほど前です。
そこで一つ思いついたのが、言語そのものが損なわれる病気でした。
代表的なものは失語症などですが、これらはそれほど数が多いものでありません。失語症に対してもっと数が多く、言語にも影響がでるものを考えてみると、認知症がありました。
認知症の特徴として喋っている内容に繰り返しが多い、最近自分が話したことを忘れてしまっている、などが挙げられますが、これらの言語的特徴から、認知症などの判定に応用できるのではないかと思いました。
もうひとつのアプローチとして、医者一人では見きれない大量の情報処理をおこなうという方法もあります。いまでいうところのビッグデータ研究です。
大量の情報処理能力を活用する対象として思いついたのが、インターネット上にある大量の情報を処理して有用な医療情報を抽出できないか、というものでした。
代表的なものが風邪やインフルエンザです。風邪やインフルエンザはインターネット上でも話題になりやすく、計測しやすいものです。これらの情報の分量は、リアルタイムで実際に病気が流行している割合と相関関係にあるのではないか、と分析することができます。
ツイッターなどのSNSを利用した医療情報の取得という意味で、大量の情報を処理するというアプローチが可能になります。
以上二つが、 医療と言語の組み合わせとして、面白い研究分野だと考えています。
Q:患者の観察など、実際の研究手法はどうなっていますか?
認知症の研究であれば、認知症の診断の際の前後の会話を録音します。また、「最近楽しかったことは何ですか?」といったオープンクエスチョンに対し、どういった返事をしたか回答を分類することで、平均的な発話量との比較が可能になります。
しかしながら当然、発話量だけでは認知症であるかどうかの決め手にはなりません。話している言葉は個人差が大きいものですから、理想的には同じ人をずっと追い続けて1年後、2年後、3年後…と徐々に会話量・単語量が減っていくかどうかを測定する必要があります。
一回だけの測定では認知症の判断は難しく、70%程度しか分かりません。今後、特定の患者を長い期間言語計測しようという計画を立てている最中です。
当研究室では同時に、SNSの流行分析データ処理を行なっており、研究手法として全く異なるような印象があるかもしれません。しかし、研究としては実は近い部分があると思っています。
情報処理の応用を行なう際には、二通りの方法しかありません。それが、スピードと即時性で解決するか、量で解決するかということです。
情報技術は一定の確率で失敗が起こるため、100%正確なものではありません。100%正確ではないものに人の命を預けることはなかなか難しいものです。不完全な技術を使う場合の解決方法のひとつとして、即時性を高める、つまり話した内容をリアルタイムで解析して知ることが一つの方法です。
例えばある計器で診断した場合には認知症らしいと出るけれども、別の計器を追加して測ってみたらどうなるだろうというかたちで確実性を高めていくのです。計ってすぐに結果を返すことで、実用度を高めることができるのですね。
もう一つの解決方法は、取得量を増やして確実性を高めることです。例えばインフルエンザについてのつぶやきを取得する場合、ひとつひとつのツイートは90パーセント程度の確実性でも、同様のツイートを何千も何万も集めることで、多少外れのツイートがあったとしても全体の確実性を高め、流行傾向を取得することができます。
情報処理の二つの解決方法の極端な例が、認知症応用とインフルエンザ流行解析というわけですね。
最終的には、即時性と量との両方を組み合わせた研究も可能かもしれません.
海外の研究では、認知症になる30〜40年前から、認知症になる可能性が高いかどうか言語分析から明らかにできる、と報告しているものもあります。
MCIになる前の中年期から、認知症にあるかどうかがある程度判断できるのですね。
一般的な認知症になりやすいリスクとしては、運動しない、学歴が低い、肉体労働が多いなどの傾向があると認知症になりやすいとされています。といっても、これらは一定の生活習慣がもとになってつくられているため、言語からわかるというよりは、認知症になりやすい生活習慣が言語を作っているというほうが正しいでしょう。
しかしこれら認知症の事前診断があまり一般に広がっていないのは、言語を測定する手法があまり確立されていない事が原因に挙げられます。
ひとつは、計測の問題だということができます。体重は体重計で測れますし、太っているかどうかはBMIの測定によって明らかにできます。食べているエネルギー量はカロリーで計算できます。
ところが言葉は、「1日にどれくらい言葉を喋れば健康か」と言った基準が作れません。また1日にどれくらい言葉を喋ったかを正確に計測する計器もありません。
もし万歩計のように、1日で話した言葉の数を計測できる機器があって、「今週一週間のあなたのコミュニケーション量は少なすぎるため、このままでは認知症になってしまいます」と警告してくれればよいのですが、そんなものはありませんからね。
Q:医療と言語を結びつけるという研究は、国内でも独自のものなのでしょうか?
医療と言語を結びつける研究を専門に行なっているのは、日本のなかでも当研究室だけです。海外ではいくつか他の研究もあります。海外で多く行なわれている研究は、電子カルテの処理など病院内でのシステム処理が多いです。
言語に関する研究はそれぞれの国ごとに事情が違っています。その国ごとの言語に応じた研究手法の確立が必要です。
なお、よく「日本語を処理するのは難しいのではないか」という質問をいただきますが、
言語処理においては言語ごとの難しさはそれほど差ではありません。
日本語固有の検証を研究することは「国語学」の領域になります。いっぽう、言語一般に関係するものを扱うのが「言語学」となります。そのため、言語処理は、各言語固有の事情を扱わないということがルールになっています。このため、日本語ならではの難しい部分を扱うことはありません。
日本語は省略が多く、方言や敬語が多様で厳密ですが、英語には英語の難しさがありますから、どの言語が難しいということはありません。
現場からの声を大切に、技術と発想で応えていく
Q:現在はどのような研究体制をとっていらっしゃいますか。
現在研究員が3名おり、学生が10名おります。
ここは大学院大学ですから、全員大学院からの進学となります。
当研究室は医療と言語だけを扱っているわけではなく、言語をメインとして医療、SNSなど複数のテーマからひとつを選ぶことになっています。
研究室の名前が「ソーシャルコンピューティング」という名前になっているのはそのためです。学生のほとんどはSNSの研究に興味をもっていますね。
Q:技術的な課題について、感じていらっしゃることはありますか?
研究では、患者の声を拾う最初の部分が大切になっています。患者の声をどのように拾うかの方法は、今後大きく変わっていくと予想されています。
例えば、近年広まっているスマートスピーカーによって爆発的に音声ニーズが高まってくることが予想されています。
これまでは、「声で認知症を判定する」といってもどのように計測するかは様子見の面があったのですが、今後ホームスピーカーの普及によって各家庭での音声認識や判定が容易になっていくといえます。
各家庭にホームスピーカーがあって、人の発話を常時判定しているという状況が実現されれば、継続的に計測することがきわめて簡単になりますからね。
またSNSの長期的な測定も必要です。
ソーシャルメディア自体がそもそも歴史の浅いものですから、ソーシャルメディア上の発言を研究すると言っても 継続的に測定することはこれまで行なわれてきたことはありません。ツイッターですらようやく10年の歴史があるだけです。
ツイッターについて長期的に研究していても、サービスそのものが終わってしまえば研究そのものが無に帰してしまいます。
今後ツイッターがさらに社会のインフラとして根付いていくかどうかは、研究そのもののやり方を左右する要因です。どのソーシャルサービスに研究を依存させていくかは慎重な判断が求められます。
Q:産業面への応用について、現場応用はどれくらい先を見据えていらっしゃいますか?
研究成果をいかに早く臨床に応用できるかが求められています。
医療において基礎研究ばかりをしていても歓迎されず、できたものからすぐに現場に応用して患者を救っていくことがよしとされています。そのスピード感はもちろん大事なのですが、その一方で倫理的な問題も解決しなければいけません。
個人情報保護法はもちろんのこと、認知症そのものを本人に伝えるかどうかという倫理的な問題も解決しなければいけません。
日本人からすると意外かもしれませんが、海外では認知症であることを本人に伝えないことが当然だとされている国もあります。日本の場合祖父母と同居しているケースが多いため、本人に伝えることが必要なのですが、海外では高齢者単身で住んでいるケースがほとんどです。
単身で住んでいる高齢者に「あなたは認知症ですよ」と伝えてもどうしようもできないという面があるため、それならば伝えないでおこうという考え方をしているのですね。
例えば家族がいる場合には家族にのみ伝える、また単身者の場合でも財産の相続や遺言など財産の整理が必要で証拠能力の有り無しが重要になるケースであれば伝える、などの一定の基準が必要になります。
このように、認知症判断の産業的応用は、倫理的判断と密接に結びつくものであると言えます。単に認知症かどうかがすぐにわかるから便利、というわけではなく、診断技術をいかに社会に実装していくかまで同時に考えていく必要があるのですね。
Q:この分野を志す学生に伝えたいことはありますか?
人工知能の分野は現在非常に人気が高く、人工知能や自然言語処理に関係する学部は人気がある状況です。しかしそれは企業に就職できるというメリットを見て志望していると言うのが実態です。
優秀な学生がどんどん人工知能の勉強をして企業に就職していくことが一つの流れになっており、企業の一員として働くことで技術を社会に還元できるという部分はあるかもしれません。
しかし、本当の意味で長期的な視野に立って研究を行なうと思った場合は、 企業ではなく大学で研究することも必要です。
大学でしかできないようなことはたくさんありますし、大学で大きなテーマをじっくり研究することが選択肢の一つとして入ってきてもいいのだと思います。「技術をいかに社会実装できるか」というテーマについて、一企業だけではなく大学の視点で見てみることも大切ですね。
この研究室の当初の目的も、言語処理技術から最も遠いテーマを選び、倫理的な問題を含めて考えていこうというものです。
いくつか、学生と共に研究を進めている研究成果をご紹介していきます。
先ほどご紹介したインフルエンザの流行とツイッターの相関関係を見る研究から発生して、個人情報を保護する技術もあります。
例えば、誰かの「水族館でペンギンを見た」というツイートがあった場合に、場所を特定することが今の技術で可能です。というのは、このデモンスとレーションで対象としているのは京都エリアなのですが、そもそも京都には水族館がひとつしかありません。つまり、京都で「水族館にいる」といえば場所はほぼ特定されてしまうのです。
このように、発言の中の表現から位置を特定できるということは、逆にいえば「何を隠せば情報を保護できるのか」がわかるということを意味します。これまで個人情報保護といえば、名前や住所やIDが入っていたらそこを消す、などの直接的な方法しかありませんでした。しかしこれだけでは、思わぬところで情報が漏洩している場合に防ぐことができません。漏洩を防ぐためには、まずコンピューターが場所を特定できる要素がなにかを明らかにし、どこを消せば特定されないのかをはっきりさせることが有効です。
話している内容から、話者がどこにいるのかを特定する。これはSNS分析の基本的な技術ですが、一つの技術から「特定」と「隠蔽」が両方できるということになりますね。
これは研究室で議論しながら行なう複数人での研究の面白いところで、あるひとつの研究がいろんなところに応用され思わぬところに発展するという例ですね。
Q:企業との共同研究はいくつか進んでいるのですか?
企業と共同研究することは非常に多いです。医療業界や通信業界などからお話をいただくことが多いです。
ひとつ面白い例が、ハンバーガーの全国チェーンを展開する企業からのご相談でした。
当時、他社店舗で異物混入がSNS上で報告され炎上してしまったケースがあり、自社での同様の事故を未然に防ぐためにSNS上で何がウォッチできるかという相談でした。
店舗や商品についてどのようなツイートがなされているのかを解析し、「虫」や「食中毒」など該当する特定ワードが発見されたらすぐに対処する、という方式でした。
こうした企業ニーズがあることは相談されなければわかりませんし、研究側としても非常に面白い研究対象となりました。
もう一つ興味深い研究例として、iPS研究所からのご相談がありました。
iPS研究所もSNSを注意深く見ているのですが、それはiPS細胞がもたらす医療へのインパクトが大きく、世間がどのような観点で技術を受け入れているのかを知りたい、というニーズがあります。
たとえば、「人間の細胞を豚に移植して、その臓器を人間に返す」という技術が実現できそうなとき、「人間の DNA が少し入ってしまった豚は一部人間なのではないか」という声が生まれます。先進医療がもたらす医療に対しては、このように様々な声が寄せられます。
情報の出し方やタイミングを一つ間違うと、世間からの大バッシングを受けて研究が足止めされてしまうおそれもある世界です。
ポジティブだと思って伝えたニュースリリースが世間ではネガティブな印象を持って受け入れられていないか、また、伝えた内容が勘違いされていないかなどは、ニュースリリースを出した直後にどのような声がネット上に出たかを見ることで判断することができます。
このようにiPSについての情報が世の中でどう受け入れられているかを慎重にウォッチするために、当研究室では逐一ツイッターを監視し、なにか動きがあれば早めに報告するという体制をつくっています。
Q:産業応用について、企業に期待することはありますか?
共同研究についていうならば、これから本格的な共同研究ができればなおよいなと考えています。
多くの場合はうちの研究室を持っている、テキストの解析技術を提供するかたちになります。 本来共同研究はともに何かを作っていく関係性が理想ですが、なかなかそこに至れていないという面はあります。企業の方が研究室に来ていただくなどの関係をつくっていきたいですね。本格的な共同研究ができれば、お互いにメリットがある状態になっていくと思います。(了)
荒牧 英治
あらまき・えいじ
奈良先端科学技術大学院大学 研究推進機構/情報科学研究科 特任准教授
産業技術総合研究所 人工知能研究センター 客員研究員
筑波大学 知的コミュニティ基盤研究センター 客員准教授
2000年、京都大学総合人間学部卒業後、2002年に京都大学大学院情報学研究科修士課程修了。2005年、東京大学大学院情報理工学系研究科博士課程修了。博士(情報理工学)取得。
2005年より東京大学医学部附属病院特任助教となり、2008年より東京大学知の構造化センター特任講師を務める。
2015年京都大学デザイン学ユニット特定准教授を経て、2016年より現職。
Filed Under: AI/ICT/Robotics