作詞・作曲をするAI「Jukebox」登場 120万曲からアーティスト、ジャンルなどを学習

jukebox
このエントリーをはてなブックマークに追加

Thumbnail Photo by Spencer Imbrock on Unsplash

テスラのイーロン・マスク氏などが設立に関わった人工知能研究の非営利団体「OpenAI」は、ジャンルとアーティストを選ぶだけで歌詞付きの楽曲を生成する技術「Jukebox」を発表した(論文)。

生成モデルの限界を押し広げようと考えた

Photo by OpenAI Jukebox

AIの生成モデルとは、サンプルデータから学習済みのAIが新しいデータを生成するモデルのことだ。ディープラーニングのデータ不足解消などに役立てられていたが、その機能を応用した画像などの生成も有名である。

その生成モデルを使って音楽を作ろうとしたのが、今回の主役Jukeboxだ。

生成モデルは新しいデータを作ることができるため、さまざまな分野で活用が期待されているものの、音楽の生成は難しいとされてきた。

音楽は色や形で構成された画像データなどと異なり、楽器・音色・歌詞・歌声・抑揚・ノイズなど多くのデータが混在し情報量が多い。曲を作るAIを育成するために、機械学習をしようとしても解析段階で情報量が多すぎては、その後の調整や改善にも同じ量のデータを扱う必要が出てくる。

そこで、OpenAIはRAWデータ(加工などをしていない生のデータ)から人の知覚では感じ取れないようなデータを必要のないものとして破棄し、CNN(畳み込みニューラルネットワーク)で圧縮することにした。圧縮されたデータで音声生成モデルを訓練し、生成された音楽をアップサンプリング(広義的には音質などのデータ信号を高音質なものへと変換)することで、楽曲データとして出力される。

楽曲はこちらで試聴可能

データセットは120万曲、発売年やムードのメタデータも学習

Photo by OpenAI Jukebox

Jukeboxでは、インターネットをクロールして集めた120万曲(内60万曲は英語)のデータセットを作成し、対応する歌詞とLyricWikiからのメタデータとペアにした。メタデータには、アーティスト、アルバムのジャンル、曲の年、各曲に関連する共通のムードやプレイリストのキーワードが含まれている。

音の増減などのデータだけではなく、その曲が生まれた年やアーティスト、ジャンルなどのメタデータと一緒に学習することで、音楽を構成する要素の特徴までも学習したのだ。

これにより、Jukeboxは学習したデータからアーティストの傾向も分析し、ジャンルごとに分類できるようになった。
関係性の強いアーティスト同士は近くに表示されるようになっており、ジャズで有名なTommy DorseyとGlenn MillerやバンドのColdplayとRadioheadがほぼ重なっていたり、なかなかの音楽オタクである。

音楽に関する知識では一歩秀でたJukeboxだが、肝心の音楽生成では、まだ人間の作り出す作品には匹敵しないという。

研究チームによると、聴き馴染みのあるコードパターンやソロパートは生成されたが、コーラスの繰り返しなどの音楽構造は聞こえてこない。より多くの音楽情報を読み込めるようにすれば、さらに特徴的なリズムが生成できるであろうとしている。

今回は約半数のデータが英語の曲だったが、今後は他の言語や特定地域の音楽なども取り扱っていきたいとのことだ。音楽が自動生成される日は案外すぐそこかもしれない。

Jukebox

GitHub