レッジ主催のAI開発コンテスト、Audiostockでの「類似曲検索」が最優秀賞に

このエントリーをはてなブックマークに追加

株式会社レッジは、ソニーネットワークコミュニケーションズ株式会社の技術協力のもと、企業データを用いてディープラーニングに挑むAI開発コンテスト「Neural Network Console Challenge sponsored by Audiostock(NNC-Challenge)」を2020年9月16日(水)から2020年10月19日(月)の期間で開催しました。

本稿では、改めてNNC-Challengeとは何なのか? 説明し、実際に受賞した作品や受賞者のコメントを振り返ります。

「Neural Network Console Challenge」とは?

まずは、NNC-Challengeとは何なのか? ご説明します。NNC-Challengeは、与えられたお題に対して、ソニーネットワークコミュニケーションズ株式会社の提供する「Neural Network Console」を用いて自分なりの解を出す、ハッカソン/アイディアソンです。

Neural Network Consoleとは
コーディングなしでディープラーニング(深層学習)を用いた高度なAI開発を実現するAI開発ツールです。ブラウザ上で動作し、直感的なユーザーインターフェースが特徴です。ニューラルネットワークの構造を視覚的に確認しながら、ドラッグ&ドロップなどの操作で設計、学習、評価ができます。あらかじめ用意された関数を組み合わせてニューラルネットワークのモデルを構築し、学習したモデルの履歴を管理、性能比較まで同環境で可能なため、開発効率を大幅に向上できます。

参加者にはAIモデルの作成だけでなく、結果をプレゼンテーション形式にアウトプットし、TwitterやQiitaなどに投稿していただき、そのアウトプットによって以下の賞を決定します。

第2回となる今回は、日本最大級のロイヤリティフリーBGM・効果音ストックサービス「Audiostock」に1万点もの音声データを提供していただきました。参加者は、Aの指定テーマまたはBの自由テーマを選んで応募できます。

うれしいことに、96名と多くの方々にご参加いただきました。ありがとうございます。

前回の入選者による「類似曲検索」が最優秀賞に輝く

見事、受賞を勝ち取った3名は以下のとおりです。受賞にあたっていただいたコメントも掲載します。なお、今回は応募のなかに優秀な作品が多く、追加で「特別奨励賞」という枠も設けました。

最優秀賞 sponsored by Audiostock

アプローチの角度や方法が面白い、突き抜けたチャレンジをしたChallengerに対して贈られる「最優秀賞 sponsored by Audiostock」を受賞したのは杉田雄一さんでした。杉田雄一さんは前回の「Neural Network Console Challenge sponsored by PIXTA」でも、「NNC賞」を受賞されています。

受賞者氏名:
杉田雄一さん
チャレンジテーマ:
自由設定
チャレンジタイトル:
「類似曲検索を実現する」
タイトル概要:
実際にAudiostockのUXのなかであったら良いと感じた類似検索をテーマに設定。結果的に有効で高精度な類似検索アルゴリズムを開発している。
受賞にあたってのコメント:
今回は前回よりもさらにテーマ選定に時間がかかりました。「何をやれるか」をいろいろ考えて、実際にAudiostockさんの会員に登録しました。自分は「今から会社のプロモーションビデオを作る」という想定をして、実際にホームページで曲を選んでみました。そうすると、ものすごく曲がたくさん出てきました。数百曲ぐらいはリストが出てくるので、全部聞けないと感じました。

ですが、順番に曲を聞いていくと、「こういうものが狙っていた曲だな」というものが見つかります。そうしたら、後の曲は全部聞きたくありません。似たような曲だけをサジェストしてくれたら良いと思い、今回の類似曲検索をテーマに選びました。紆余曲折を経た結果だったので、テーマ選定までに2週間ぐらいかかりました。

また、私が作ったシステムでは、学習済みニューラルネットワークの途中出力を取り出す部分があります。かなりマニアックなので、「ちょっとめんどくさい」と思っていましたが、実はNeural Network Consoleだと簡単に実現できます。ウェブで検索してそのことに気づき、「Neural Network Consoleは、なんとかゆいところに手が届く、良いツールなんだ」と感動しました。

前回のテーマは画像でしたが、今回は音声です。画像と比べたら、音声のほうが判断をする時間はものすごくかかります。力ずくでアノテーションするわけにいきません。

さらに、Audiostockさんからタグ付けの一覧表をいただいていましたが、実はこの一覧表をそのまま使うと、あまり精度がよくありません。というのも、タグ付けはクリエイターの方がやられているので、クリエイターの方によってバラつきが出るからです。

同じタグが付いていても、違う曲になっているような場合もありました。タグ付けをもとにして、自分で聴いてみて判断しないと、なかなか一貫性がある基準になりません。「じゃあ、どうしようかな」というのが、今回の悩みどころであり、やりがいでもあったところです。

受賞理由:Audiostockより
今回のチャレンジをまとめたブログずっと読ませていただいていました。実際にAudiostockのサービスを使ったり、Audiostockとはどういうサービスで、どういう人が使っているのかといったところを見たりしたうえで、課題を選定しているのはすごく感動しました。

また、着眼点も非常に的を射ています。今回の作品は「この曲がいいなと思ったら、それに似た曲が出てくる」という類似曲の検索です。実は弊社としても、別のアプローチで、同様の機能をβ版でリリースしています。

そのような機能が求められていることをしっかりと見たうえで、開発していただいたのは、非常に素晴らしいと思いました。さらに、高い精度でしっかりと成果を出している点も評価した点です。

今回は、楽曲の楽器から推定するという仕様を選んでいます。この技術を発展させると、ニューラルネットワークやAIによって、曲のメイン楽器をサジェストすることも可能です。いろんなところに発展性があると感じたところも、評価できるポイントでした。総合的に見ても、かなり良いと感じる面が多かったため、今回は最優秀賞に選びました。

NNC賞

Neural Network Consoleを一番よく使いこなしているチャレンジャーに対して贈られる「NNC賞」を勝ち取ったのは、五藤大介さんでした。五藤大介さんは前回の「Neural Network Console Challenge sponsored by PIXTA」でも、「最優秀賞 sponsored by PIXTA」を受賞されています。

受賞者氏名:
五藤大介さん
チャレンジテーマ:
自由な発想で音声データを解析する
チャレンジタイトル:
「音声データの喜怒哀楽分類とレコメンド」
タイトル概要:
音楽を喜怒哀楽の尺度で数値化し、類似度の高い曲のレコメンドしている。レコメンド精度は高かった。また音楽にあった画像のレコメンドという新しい検索方法についても提示している。
受賞にあたってのコメント:
1.NNC-Challengeを通して難しかったことは?
精度の高いデータを用意することです。1000曲以上を喜怒哀楽の4つに仕分けましたが、いろんな曲を聞いているうちに、仕分けの基準がブレてきました。1曲に3〜20秒ほど時間がかかってしまうため、ブレないようするのが大変でした。音楽からの喜怒哀楽の感じ方は人それぞれと割り切り、主観で基準を作って、精神統一して作業しましたので、2周目でそこそこの精度を出すことができました。

2.NNC-Challengeでチャレンジしたことは?
普段の仕事ではAIや機械学習を扱うことはありませんので、「この機会に」と思い、簡易なレコメンドの仕組みを作りました。学習したモデルで、未使用の曲データに喜怒哀楽をラベル付けし、度合いを指定すれば曲がレコメンドされるようにしました。まずまず思ったような曲がレコメンドされており、ちょっとした開発でしたが楽しめました。

受賞理由:ソニーネットワークコミュニケーションズより
NNC賞は「どの程度、Neural Network Consoleを使いこなされているか」がポイントになります。五藤さんは波形の分類器を作成するところから、評価するところ、APIを公開するところまで、Neural Network Consoleを非常によく使いこなしていただきました。波形を分類する際の手順やコツも、良くレポートにまとめていただいています。

また、Neural Network Consoleだけではなく、「音楽素材を探したい」というユーザーのユースケースにあった提案になっている点、データのアノテーションや結果の分析も非常に丁寧にされている点、喜怒哀楽の推定結果のアプリケーションについても提案されている点も評価しました。総合的にも非常に得点が高い応募だったと思います。

Ledge.ai賞

アプローチの角度や方法が面白い、突き抜けたチャレンジをしたChallengerに対して贈られる「Ledge.ai賞」に輝いたのは、朝日新聞社 山崎 啓介さんでした。

受賞者氏名:
朝日新聞社 山崎 啓介さん
チャレンジテーマ:
自由設定
チャレンジタイトル:
「会話の内容にあわせてBGMを自動選曲する」
タイトル概要:
BERTによって日常会話を自然言語処理し、「ロック」「ポップ」「バラード」いずれかに類似度を自動判定し、曲をレコメンドするエンジンを開発。
受賞にあたってのコメント:
もともと、システム系の部署に所属しており、研究開発に直近まで携わっていました。「AIの基礎知識やスキルを外でうまく使いたい」ということで、今回は挑戦させていただきました。今回はすごくテーマ選びに苦労しました。決めたテーマを評価していただいて、非常にうれしいです。
受賞理由:Ledge.aiより
BERTという新しい自伝言語処理の技術に加え、Neural Network Consoleも活用されています。日常会話をBERTで分析したうえで、今回の音声データを活用して、2つを組み合わせて1つのアルゴリズムを作り出すといった掛け合わせのアプローチを評価しました。

実際に、実用的なAIを考えたときに日常会話から音声を拾ってきて、そこから何かしらのアウトプットをするのは、非常に実用性が高く、これからの未来が見据えられるのではないかと思います。たとえば、スマートスピーカーに本アルゴリズムを積んでおけば、雑談した内容からオススメの曲をレコメンドできる、といった想像も広がります。

特別奨励賞

上位3賞は逃したものの、総合的にアウトプットのクオリティが高かったChallengerに対して贈られる「特別奨励賞」は、北川 喜淳さんと貫井 隆行さんの2名でした。

受賞者氏名:
ゼニスイメージ株式会社 北川 喜淳さん
チャレンジテーマ:
AudiostockのBGM検索の自動分類アルゴリズムを作り出す
チャレンジタイトル:
「楽器『ピアノ』と『エレキギター』を自動分類する」
タイトル概要:
BGMがピアノ/エレキギターが使われているかを自動分類するアルゴリズム。合計4ステップの学習プロセスで高精度を実現している。
受賞にあたってのコメント:
小林さんのビデオをNeural Network Consoleのトレーニングをしているときに、何度も見ていたので、小林さんからコメントをいただけて非常に光栄です。

最初のコンテストのときは画像を解析するというテーマでしたが、今回は音声になりました。私は当初、音声をどのように分析するのか、基本的なところがわかっていませんでした。しかし、メル周波数スペクトログラムを用いて画像に変換することで、音声の特徴を画像に表現できることに、非常に興味を持ちました。「自分で体験したいな」というのが、このコンテストに応募したきっかけです。

私はITのコンサルティングサービスの会社を経営しています。基本的には、システム開発のプロジェクト管理とか、最近、企業様で注目されているデジタルトランスフォーメーションのプロジェクションの案件シーンとかを中心にやっています。

ただ、AIは1990年代、今で言うと、かなり昔のAIのシステムで開発をしていました。最近のディープラーニングに関して、ハンズオンの経験はまったくないので、こういった環境で試せるのは非常に良い体験でした。

受賞理由:ソニーネットワークコミュニケーションズより
北川さまは波形をスペクトルに加工して、画像として扱うという方法を採用されています。さまざまなNeural Networkのアーキテクチャも試されて、さらにエラー分析もし、データの入出力の方法も工夫を加えながら、精度向上に取り組まれていました。最終的には90%を超えるような精度も達成されています。

受賞者氏名:
貫井 隆行さん
チャレンジテーマ:
自由設定
チャレンジタイトル:
BGMから飲食店をレコメンド
タイトル概要:
BGMからおすすめなお店(ランチ)を分類するアルゴリズム作成。さらにはそのアルゴリズムで、貫井氏がよく聞く音声データからどんなお店がレコメンドされるかも検証している。
受賞にあたってのコメント:
もともと、僕は自動車の製造メーカーで、材料関係の評価だったり、実験だったりをする部署に所属しています。最近、機械学習とかディープラーニングとかをやり始めたところです。まだ会社のなかでも、そういった技術が一般化していない、これから広めていく必要があるといったところです。僕自身はシミュレーションであったり、予測であったりに興味があり、勉強していました。その一環で、今回もチャレンジさせていただきました。
受賞理由:Ledge.aiより
弊社としては、将来性が見える企画力を非常に評価させていただきました。本作品は、BGMという音声の非常に抽象的なデータから、具体的なユーザーのニーズに応えるようなレコメンドシステムを設計されています。音声から何かのレコメンドをするアルゴリズムは、非常に実用性が高いと考えられます。たとえば、食にまつまわるサービスでも、これから応用的に使えるかもしれません。

「知識の共有の非常に良い機会になったのではないか」

NNC-Challengeでは表彰式の模様をTwitterライブで配信しました。ゲストには、ソニーネットワークコミュニケーションズ株式会社 シニアマシンラーニングリサーチャー 小林由幸様、オーディオストック株式会社 取締役COO 事業総括 プロダクトマネジャー マーケティング 山口真央様をお招きし、総評をいただきました。

小林由幸様は「今回は音声の波形が提供されたうえに、分類しても良いし、そのほかをやっても良いということで、非常に自由度の高いコンテストだったのではないかなと思います。Neural Network Consoleは画像が使われることが多く、普段から波形を扱われている方は多くなかったのではないか。つまり、初めてチャレンジされる方が多かったのではないかと思います。しかも、音楽の分類は正解の定義が非常に難しいです」とコメント。

続けて、「そんななかで、皆さんに結果までつなげるだけではなく、ウェブAPIまで公開していただいたのは、本当に素晴らしかったと思います。裏話をすると、もっとたくさんの特別奨励賞を出したかったぐらいです。ほかに参加された方も、参加されなかった方も、最終的な提出までいかなかった方も、ぜひ受賞者の方のレポートを参考にしていただければと思います。今回は、知識の共有の非常に良い機会になったのではないかと思います」と感想を述べています。

山口真央様はまず、「今回は音声提供という立場で参加させていただきました。たくさんのご応募をいただき、本当にうれしく思っています。ありがとうございます」と感謝を述べました。

続けて、「さらに、そのなかから想像以上に、さまざまな切り口でのアプローチがありました。本当に面白く1つ1つ拝見させていただきました。本当にいろんな方のいろんな着眼点によって、いろんな課題があり、それに解決方法があることを、改めて私たち自身も感じることができました。そこから、さらに発展した未来も感じることができました」と語っています。

最後には、「音声はとくに画像のようにパッと見て判断できず、判断に時間がかかるのが永遠の課題です。ディープラーニングやNeural Network Consoleによって、分類されたり、適切なところに適切な音が当たったりといったことが、今後はできるのではないかと感じました。これからもぜひいろいろな形で活用していきたいし、そういった世界でもっとより良く音楽をあるべき場所に届けるのが、私たちの課題でもあります。そういったことを気づかせてくれる特別な機会になったなと感じています」と締めくくりました。

なお、受賞作以外にも「プログレ音声を分類する」「BGMのマルチラベル分類の自動アルゴリズムの構築」「機械学習でt+pazolite楽曲を判別する」「多入力CNNによる『楽しい』BGM分類器」など、興味深い作品もご提出いただきました。応募していただいた皆さま、誠にありがとうございました!