東芝のコミュニケーションAI「RECAIUS」で人間の声を再現する

このエントリーをはてなブックマークに追加

東芝が提供しているコミュニケーションAI「RECAIUS」をご存知でしょうか?

RECAIUSは、1978年より開発が進められ、2000件以上の特許をもつ技術に基づいており、音声合成、音声認識、意図理解、画像認識などのサービスがあります。

今回はその中の一つ、多様な感情表現が可能であるRECAIUSのwebAPI「音声合成サービス」について見ていきます。

RECAIUSの音声合成サービスとは?

今回ご紹介する音声合成サービスは、多様な話者と感情表現でテキストを音声化するRECAIUSのwebAPIです。

RECAIUSの特徴としてあげられるのは、豊富なカスタマイズによって、意図に沿った人間味のある音声合成が可能であるという点でしょう。

すでに、日本経済新聞の新聞読み上げサービスや、タカラトミーの次世代ロボット「OHaNAS(オハナス)」、ヤフーが提供するスマートフォンアプリ「Yahoo!カーナビ」で使われています。

e-learingや広告コンテンツ制作、ナレーションの分野において、幅広い活用が期待されています。

多様な話者と感情表現が特徴的な豊富なカスタマイズ機能

RECAIUSの音声合成サービスには、さまざまなカスタマイズ機能がついています。

  • 多言語への対応・・・日本語、英語など11言語に対応している
  • 選べる話者・・・4人の年齢・性別異なる話者が利用できる
  • 豊かな感情表現力・・・「喜び」、「怒り」、「哀しみ」、「怒り」、「優しさ」の五つの基本的な感情をもとに組み合わせることで、豊富な感情を表現できる

そのほかにも、話す速さ・声の高さ・声の太さ・声の大きさ・無声音の大きさ・数字の読み方・アルファベットの読み方を数値で指定することがで、細部にわたるカスタマイズを行うことができます。

これらのカスタマイズを組み合わせて、人間らしさがでるのかどうか確かめるために、試してみました。

5つの感情を組み合わせることで多様な感情表現が可能に

実際にRECAIUS音声合成サービスをつかってさまざまなカスタマイズを行ってみました。

話者はこちらの4人が用意されています。以下は話者の選択のみ行ったときです。

5つの基本的な感情を聞き比べ

続いて、話者を大人の女性の声に固定して、感情表現をカスタマイズしてみました。
はじめに「喜び」、「怒り」、「哀しみ」、「恐れ」、「優しさ」の5つの基本的な感情で試してみましょう。

happy、angry、fear、tender、sadの5つのパラメータがあり、0をデフォルト値とした0から200の間で設定できます。それぞれのパラメーターを160にしたときの音声がこちら。

パラメーターをひとつ設定しただけですが、かなり臨場感がありますね。

5つの基本的な感情を組み合わせ

ほかの感情も、この5つの感情を組み合わせることで、表現可能です。

「焦り」、「共感」それぞれ絶妙に表現できています。

同じようにしてそのほかの感情も表現できそうです。

多様なカスタマイズを用いて再現

より人間らしい声に近づけるために、ほかのさまざまなカスタマイズも利用してみましょう。

  • speed 話す速さ -10〜10
  • pitch 声の高さ -10〜10
  • depth 声の太さ -4〜4
  • volume 声の大きさ -50〜50
  • upower 無声音の大きさ -10〜10

以上のパラメーターを加えて、試行錯誤を繰り返しながら、いくつか再現してみました。

  • 「急がないと電車に間に合いませんよ。」

  • payload={
    “plain_text”:”急がないと電車に間に合いませんよ。”,
    “lang” : “ja_JP”,
    “speaker_id” : “ja_JP-F0006-C53T”,
    “happy”:”0″,
    “angry”:”170″,
    “sad”:”0″,
    “fear”:”150″,
    “tender”:”0″,
    “speed”:”3″,
    “pitch”:”2″,
    “depth”:”0″,
    “volume”:”0″,
    “upower”:”0″
    }

  • 「大丈夫ですよ。わたしが解決してみせます。」

  • payload={
    “plain_text”:”大丈夫ですよ。わたしが解決してみせます。”,
    “lang” : “ja_JP”,
    “speaker_id” : “ja_JP-F0006-C53T”,
    “happy”:”50″,
    “angry”:”0″,
    “sad”:”0″,
    “fear”:”30″,
    “tender”:”150″,
    “speed”:”0″,
    “pitch”:”-1″,
    “depth”:”1″,
    “volume”:”0″,
    “upower”:”0″
    }

  • 「ダメって言ったじゃないですか。絶対に許しません。」

  • payload={
    “plain_text”:”ダメって言ったじゃないですか。絶対に許しません。”,
    “lang” : “ja_JP”,
    “speaker_id” : “ja_JP-F0006-C53T”,
    “happy”:”0″,
    “angry”:”180″,
    “sad”:”50″,
    “fear”:”50″,
    “tender”:”0″,
    “speed”:”1″,
    “pitch”:”-3″,
    “depth”:”1″,
    “volume”:”0″,
    “upower”:”0″
    }

いかがでしょうか?
さまざまなカスタマイズを行うことによって、かなり感情が表現できていますね。

さまざまな場面で応用の可能性。音声合成技術のこれからに期待

AIの技術を用いることで急速に発達してきた音声合成技術。

音声合成技術がさらに発展していくことで、人間の肉声か音声合成でつくられた音声か判断ができない。そんな日がくるかもしれません。

これらの技術を利用することで、応対ロボットや自動音声応答による顧客の満足度を高めたり、ナレーターを使うことなく、ナレーションの作成を行ったりすることも可能です。

活用の幅が広い音声合成技術。これからも目が離せません。