AIが音楽を作る時代?Googleの音楽 × AIの実験プロダクトをまとめて紹介

このエントリーをはてなブックマークに追加

「デザインやクリエイティビティの分野にはAIは入ってこれない」

なんてこともよく言われていますが、人間の感性が深く関わる音楽分野でも、AI技術の波が押し寄せています

今日は、GoogleのA.I. Experimentsの中から、音楽×AIという切り口で、実際にいじれる4つのプロダクトをまとめて紹介します。

AIが新しい音を作り出す。NSynth: Sound Maker


(引用元:https://aiexperiments.withgoogle.com/sound-maker)

NSynthとはNeutral Sythesizerの略称で、従来のシンセサイザーが持っている「音を合成する」という役割にAIの機械学習を適用したもののようです。

NSynth自体の機能としては、オルガンの音から犬の鳴き声にいたるまで、無数の音を合成し、新しい音を生み出すというもの。

従来の音声合成と違うのは、300,000種にも及ぶ膨大な音を学習させたニューラルネットワークを用いて、各音の数学的な特徴を見つけ出し、2つの音から全く新しい音を生み出すことができること……なんだとか。

といっても文章だけだとなんのこっちゃだと思います。以下のサイトから実際に使ってみると、イメージしやすいです。

>> NSynth: Sound Maker

かなり未来感ありますよね。

かつてない音を作れるということは、音楽制作に大きなインパクトを与えそう。今後、音楽制作の現場で活躍してくることでしょう。

音の特徴を分類して、リズムマシンへ。The Infinite Drum Machine


(引用元:https://aiexperiments.withgoogle.com/drum-machine/view/)

The Infinite Drum MachineはAIの学習機能によってあらゆる日常音を体系的に分類したもの。

簡単に言うと、日常のあらゆる音の特性をAIが学習し、特徴の似ている音を特徴次元分の空間で近くに配置するといった具合で、色や位置を割り当て、高次的に表現したものだそう。ただ、ここでは私たちが使いやすいように2次元で表現されているみたいです。

そして名前の通り、それらの音を組み合わせてループさせることで、リズムマシンを作れるようになっています。

>>The Infinite Drum Machine

実際に触ってみて、いろいろな音でリズムを刻んでみるとおもしろいと思います。最大4つの音色を合わせてリズムを刻めて、音の種類は数え切れないほどたくさんあります。

音を分類する際に用いられたのは、t-SNEというテクノロジー。これはサイバーセキュリティ、ガン検出、生物情報学などの分野にも応用可能だとか。とにかく人間にはうまく判別できないものを、いい感じに判別してくれるテクノロジーだとざっくり思ってくれればいいです。

このテクノロジーはGoogleが公開しているBird Soundというプロダクトでも使われています。これは膨大な鳥の鳴き声のデータを上と同じ手法でAIに分類させることでできた鳥の鳴き声図鑑みたいなやつです。こんな使い方もできるんですね。

今後、人間にはむずかしい膨大なデータの分類作業をこのようにAIが代替してくれれば、多方面での活躍が期待できますよね。

にしても、その分類を「音」に対してやってしまうあたり、いろいろな可能性を感じます。

スネアの音と意外に○○が近かった! なんて新しい発見もありそうです。

1人でもセッションができちゃうAI Duet


(引用元:https://aiexperiments.withgoogle.com/ai-duet/view/)

楽器を練習してても1人じゃ、つまらない?

大丈夫! AIがいい感じにデュエットしてくれます! ってのがこのツールです。

私たちが弾いたフレーズに対して、それに対応したフレーズで返してくれるというもの。

適当に弾いているだけなんじゃないか? と思ったら、とんでもない。ちゃんと弾いたフレーズと掛け合いになるようになっていて、短いフレーズでもアレンジされて返ってきます。

>>AI Duet

無数のメロディを学習させることで、メロディやタイミングなどをAIが特徴として掴んでいきどんなフレーズにでも対応できるようになったそう。

今回は音楽分野に対しての適用ですが、将来的には、私たちの日常の行動に、柔軟に対応できるサービスの領域にも裾野を広げていきそうな予感も。んー、めっちゃ楽しみだ。

AIが凄腕ラッパーに! 画像認識との合わせ技Giorgio Cam


(引用元:https://aiexperiments.withgoogle.com/giorgio-cam)

画像認識技術といえば、AIと呼ばれる技術の中でもよくつかわれているものですが、Giorgio Camは画像認識技術 × エンターテイメントという観点で、その一歩先をいっています。

Giorgio Camは写真で撮ったモノを画像認識した上で、それに基づいた歌詞を作ってくれるという技術。厳密に言うと、画像認識したものを音声合成で歌詞として表現し、元々あるリズムの中に落とし込んでいるようなイメージです。

実際に撮った写真が即座に歌詞として現れると、ちょっと感動します。画像認識技術をエンターテイメントとして応用した新しい例だと思います。

>>Giorgio Cam

この技術、何がすごいかというと、リアルタイムにまわりの状況によって違う音楽(歌詞)ができあがるということ。

音楽では、そのときの雰囲気やまわりの反応などをみつつ、演奏している側もアレンジが必要とされることが少なくないと思います。

そこのハードルを超えてきてる……! というのが、この分野でもっといろいろなことができる可能性を示してくれている気がします。

AIの画像認識という「目」ができたからこそ、可能になった新しい表現ですよね。

AIはエンターテイメントの世界にどう絡んでくるか

音楽に関するAIの応用例をまとめてきましたが、人間の感性が深く関わるこの分野にAIがどれだけ介入できるかは、まだ未知数です。

ただ、AIによって生み出される音楽の偶然性みたいな部分にはかなり期待できそう。

実際、今回のデモだけでも十分遊べたり、新しい発見があったり……かなり刺激になりましたし。

これらのAI技術がなんらかの形で既存の音楽に影響を与えていくと思うと胸おどりますね。今後の動向に注目しましょう。