近年めざましい発達を遂げるAI(人工知能)は、クリエイティブの分野でも活用が期待されている。長年にわたって音楽の専門家がおこなう操作の事例をデータベースに蓄積し、再利用するシステムを構築していたのが、理化学研究所 革新知能統合研究センター(AIP)の音楽情報知能チームの浜中雅俊チームリーダーだ。一般の利用を踏まえた音楽研究について、その最新状況をうかがった。
音楽家の直感を「構造」であらわす
Q:まずは、研究の概要について教えてください。
音楽を作ったり曲を編曲したりすることは、足し算・引き算のように記号で表現をして計算することができるものです。例えばある式ができて、別の曲にそれを足したり掛けたりすることで、また新しい曲ができたりするわけです。
これは言い換えれば、「音楽のメロディーに対する操作をデータベースに蓄積していくと、音楽を再利用することができる」ということを意味します。
映画やゲームの分野など、次々と音楽をつくらなければならない現場はたくさんあります。プロの技術まで到達することはなかなか難しいと思いますが、さまざまなバリエーションの曲をつくらなければならないとき、自動化してしまえばより早く音楽をつくることができる。ある程度のレベルであれば、数式を組み合わせるだけで音楽ができてしまうのです。
もちろん、最後のチューニングは音楽家が様々なことを考えて行なうほうが最高の物はできるわけですが。ある程度のレベルのものであれば、蓄えている操作を適用していくだけで曲ができるような時代が来ると考えています。
Q:AIが絵や文章をつくるようになってきていますが、それの音楽版といったところでしょうか?
いいえ、実はそれとはちょっと違うんです。音楽の場合は、「音楽理論」というものによって分析ができます。分析した結果は、音楽家が見て「自分たちがそういうことを考えてつくっているよ」ということを表したものなのです。
他の分野でも分析はすると思いますが、我々の部門の場合、音楽家の直感は「構造」という形で表されると考えています。構造を抽出して、足し算・引き算、演算ができるようになるわけです。一つ一つの直感を足せば整っていることがわかりますし、再現可能だということです。
こういった研究を、15年ほど続けています。
Q:通常の音楽制作の流れというのはどういうものになるのでしょうか?
どちらかというと1から曲をつくるというよりは、メロディーを加工して操作するほうに注目しています。
あるメロディーをちょっと変えたいなと思ったときに、「他の選択肢」がどんどん提示されるイメージです。
例えば、誰かがほどほどの音楽をつくり、それを聴いた人が「ちょっといまいちだな」と思ったとします。どこをどう直せばもっといい曲になるだろうと考えたときに、0からつくり直すのは難しいから、アクセスして理論から生み出されたものを適用する。ピンポイントである部分をちょっと変えると、すごく良くなるよということが導き出されるという感じですね。
変えたいところがあったときに、どの音符をどれだけ変えるかを素人が判断するのは難しいことです。ただ、「ここをちょっとモーツァルト風にしたい」というくらいの希望であれば、実現できるようにしたいわけです。
こうした背景から開発してきたのが、メロディーの「モーフィング」という仕組みです。これは、2つのメロディーを入れるとその中間を計算で算出してくれるものです。
いまあるメロディーをちょっとだけモーツァルトっぽくしたいと思ったら、そのメロディーとモーツァルトのメロディーを入れて計算をします。ただ中間を出すだけでなく、「モーツアルトに寄せすぎたから少し元のメロディーの雰囲気に戻したい」というような細かい調整も可能です。
Q:音楽のジャンルはどういったジャンルになりますか?
データが揃っていることに加えて著作権の問題がないため、クラシックを中心にやっています。
分野としてチャレンジングなのは、ジャズですね。コード進行が非常に複雑で分析が難しいのですが、試みていこうと思っているところです。
なお、この音楽理論自体は「ホモフォニー」まで対応しています。まず「モノフォニ―」というのが単旋律で、同時に鳴るのは1音だけというものです。その次が「ホモフォニ―」で、同時に複数鳴るのですが、それらは独立ではなくて1音のメロディーに和音が付いているものです。ここまでは、「GTTM」という音楽理論で分析できます。
Q:研究室の体制はどうなっていますか。
10年以上にわたって音楽理論「GTTM」の分析をずっと続けてきたのですけれども、少しずつ性能は上がってきています。
まずは内部に、理論に書いてあるルールを1つ1つプログラムに翻訳して、実装するという仕事をしていました。
それでも性能が出なかったので、次は確率モデルというものを入れました。確率でモデルをつくって分析をすると、性能が少し上がりました。
急速に性能が上がってきたのは、2016年にディープラーニングを使った分析をするようになってからです。現在は音楽を分析するところにAIを導入している状態です。さらに、その分析した結果に出てきた構造を、さらに人間が足し算・引き算に使います。人間が操作するために構造を使うというかたちですね。
最初につくった300曲は8小節くらいの短いものでしたが、いまでは32小節という4倍くらいの長さのものを50曲ほどつくっています。分析手法からツールの開発、ツールの操作法まですべて自前で研究している点は、独自のアプローチになると思います。
僕はあまり学会などでアピールをするタイプではないのですが、最近になってようやく学会に行くと「おっ、GTTMガイだ」などといわれるようになってきました。僕の名前よりも、GTTMという言葉で覚えられはじめたという感じですね。
Q:GTTMという言葉自体は誰がつくったのですか?
GTTMという言葉そのものは、レアダールとジャッケンドフの2人がつくった言葉です。レアダールは音楽学者で、今コロンビア大学にいます。ジャッケンドフは言語学者です。ただ、2015年にニューヨークに行って、レアダール先生に会ったとき、彼もコンピューター上でGTTMを使うという我々の研究に関心を持っていて、非常にありがたく思っていただけているようです。
そもそもGTTMは、人間が音楽を分析して深く理解するための理論ですので、人間でないとできないところも結構あります。基本的に分析の仕方は書いてあるのですけれども、ルールがたくさんあります。ルールのどの部分が重要かというのは曲によるわけです。順番にルールを適用していっても、最後の結果をどうするかというところはすべて人間に任されています。
私も、最初はルールをプログラムに翻訳してみましたが、理論に書かれていない部分は勝手に作るしかありません。一つ一つのルールの重要度は、パラメーターで変更できるようになっています。システム自体はできたのですが、分析をするためには人間がパラメーターを上手く調節しないといけないというわけです。
次に確率モデルを使ったプログラムを作ってみましたが、そうすると人間がチューニングしなければならないところが減ってきます。ディープラーニングになると、もう全自動に近い感じですね。ネットワークにすべて任せるという形になります。
音楽ソフトでの実用化をめざして
Q:技術的・産業的な課題としてどんなことを感じていらっしゃいますか。
まず、分析もまだ完全だとはいえません。
GTTMの分析は何段階かに分かれていて、目標はタイムスパン木という構造を自動で求めることです。現段階ではグルーピングといって、どこで曲が大きく分かれるか、あるいはリズムのどこが強くてどこが弱いかというようなところはディープラーニングで分析できることがわかっています。ここまできたら、タイムスパン木を獲得することも時間の問題だろうと考えています。
現在行なっていることは、もしすべてを自動化できたら、この技術は本当に使えるのかということです。散々時間をかけて分析をしても、音楽家が見てなるほどというだけのものになってしまうのは非常に残念です。
まず使えるのか、あるいは一般の人に使ってもらった場合に楽しいのか。こういったことを考えて、様々な応用システムをつくっています。
最終的なアプリケーションとしては音楽ソフトで、困ったときに候補を出してくれるのはいいですね。その前段階まではきています。
メロディーを別のものに取り換えることを積極的に楽しめるような、アミューズメント性のあるものをつくっています。名前は「メロディースロットマシン」といって、スロットマシンのレバーを倒すとメロディーがダーッと回転します。自分(の指)でさらにダイヤルを回して回転させてもいいですし、自動に任せて回転させてもいいのですが、曲自体は無限に近い組み合わせがあります。7小節を11パターンに切り替えられるスロットになっているので、11の7乗っていくつでしょうみたいな、かなりの組み合わせをつくれるようなデモシステムです。
ただ、それだけだと音楽に興味がない人は見てくれないだろうということで、たくさんの人に見てもらうために演奏家の撮影をし、それが演奏するものも作りました。人が演奏している様子を再現したホログラムを写して、メロディーをチェンジすると、ホログラムのお姉さんが叩くマリンバの音が変わるという物です。
Q:研究で実現したものを世の中に広めていくため、どういった動きが必要でしょうか。
SIGGRAPHという世界で最大のCGカンファレンスなど、様々なところに応募し始めています。みんなに見てもらえるようなところに持っていって、理解してもらわないといけませんからね。
押し付けるのではなく、これを使いたい、これで遊びたい、これで曲をつくりたいと思ってもらえるよう、みんなに見てもらえるところに持っていこうと考えています。2019年中には世に出していきたいです。
そんな中で、実は問題がありまして。先ほどのホログラムの話ですが、メロディーは自然に切り替えても、さほど違和感はありません。
問題はマリンバの映像の場合、曲によっては叩いている人を瞬間移動させなければならないパターンが出てきます。映像のほうで違和感が出てしまうのです。私たちは決してそこで妥協せず、早稲田大学のVR系の研究室を訪問して一緒に取り組むようにお願いをしました。12月から学生さんに来ていただいて、一緒に研究をしています。
Q:音楽情報知能チームは、現在何人くらいの組織になるのでしょうか?
現在は8人で、ほとんどはミュージシャンですね。3人は完全に作曲家で、そのうちの1人はもう10年以上一緒に仕事をしています。
このGTTMの分析をしっかりできる人は、世界でその人しかいないと僕は思っています。理研に来た時、さすがに1人でやっていたら効率が悪いので、さらに有望な人の紹介を受けて2人加わりました。現在は3人体制で分析しています。
3人が分析の作曲家、あと1人はプロのクラシックギタリストが入っています。
ギタリストは楽譜に色んなメモを書いて、色んな奏法を組み合わせるやり方をとります。「タイムスパン木」という機構図を使っていますが、これとギターの奏法は何か関係があるのではないかということを予測しています。自動で見つけることはまだできないとしても、手動でつけていくのにこのタイムスパン木の構造がしっかりできているものにつけていくと、少し楽になるのではないかということでチャレンジをしています。
現時点では比較的に上手くいっていて、手動でタグ付けをしていくと、8割くらいは奏法を貼り付けるのにタイムスパン木が使えるということがわかっています。ただ、これと全然関係ないような奏法もあって、それについてはちょっと別の方法を使わないといけないなという感じです。
Q:企業との共同研究などは進んでいるのでしょうか。
残念ながら音楽ではあまりないですね。だからこそ、私たちが頑張って研究しているのです。
苦労して曲を量産している人が世の中にはたくさんいますが、そんなに儲からないはずであると。どんどん使われていく量産型の曲の生成はなるべくAIに任せて、作曲家や音楽家は最後の細かいチューニングに時間をかけて曲をより良くすることだけに集中していただきたいと思っています。
Q:最後に今後の目標について、教えてください。
基本的な手法であるメロディーのモーフィングを使えば、様々な面白いことができるような気がしています。
その一つがメロディースロットマシンなのですけれども、第2弾、第3弾と毎年積み重ねていって、いずれは皆さんの目の届くところまでいくように努力していこうと思っています。
やはりスロットはゲームでは慣れているかもしれないのですが、慣れていない人もいますし、人によっては自分で体を動かして演奏に変化を与えたいと考える人もいると思います。様々なパターンがあると思うので、あらゆる要望にお応えできるようなシステムを次々とつくって、たくさんの人に楽しんでもらいたいと思っています。(了)
浜中 雅俊
はまなか・まさとし
理化学研究所 革新知能統合研究センター(AIP) 音楽情報知能チーム チームリーダー。
2003年、筑波大学大学院工学研究科電子・情報工学専攻博士課程修了。
2003年より、2007年 産業技術総合研究所において音楽情報処理の研究に従事する。筑波大学,京都大学で講師,研究員を歴任したのち、
2017年より理化学研究所 革新知能統合研究センター(AIP) 音楽情報知能チームのチームリーダーに就任。