日本語も対応可能!Googleの音声合成API「Cloud Text-to-Speech」の機能とは

このエントリーをはてなブックマークに追加

Googleは3月28日、クラウドのテキスト読み上げ機能で音声合成を可能にするAPIを公開しました。

12の言語32種類の音声を選択でき、日本語にも対応しているとのこと。

しかも英語版ではDeepMindによる音声生成モデルWaveNetを搭載し、より自然な音声合成が可能になったのだとか。

アップデートされたWaveNetの音声クオリティ。より自然な発音に近づいている!


2016年の末ごろにDeepMindはWaveNetの最初のバージョンを公開しており、膨大な音声データをニューラルネットワークで学習することで、人間の肉声に近い音声の発話が可能になりました。

今回利用されているのはそのWaveNetの最新バージョンということで、音声がより洗練された仕上がりになっています。

具体的なアップデートはこちら。

  • 従来モデルより1000倍の速度で音声を合成(20秒の音声を1秒で生成)
  • 忠実度も高く、1秒で24000ものサンプルから音声を合成できる
  • 音声のクオリティを担保するため、サンプルサイズを8ビットから16ビット
  • これらのアップデートにより、テストでは人間の声との差が70%以上縮まったそうなんです。

    スマートスピーカーなどの音声デバイスや、コールセンター業務の効率化など、今後とも活躍の場を広げていきそうな今回の発表。

    機械と人間のコミュニケーションがもっと自然に……そんな予感がしますよね。

    無料トライアルも提供されているので、気になる方はぜひお試しあれ。

    >>Cloud Text-to-Speech