日本語用の音声認識API、「AmiVoice」がシェア1位の理由

このエントリーをはてなブックマークに追加

【PR】本記事は株式会社アドバンスト・メディアのスポンサードコンテンツです。
株式会社アドバンスト・メディア PF D&O部 部長 山本真也氏、株式会社アドバンスト・メディア PF D&O部 パートナー推進グループ セクションマネージャー 山下雄也氏(左から順に)


近年、音声認識技術が注目を浴びている。

音声認識技術と言うと、なかなか身近に感じづらいかもしれないが、音声認識技術はアップルの「Siri」や、Amazonの「Alexa」などにも採用されている。人間の声をコンピュータなどに認識させることで、テキストに変換したり、話している人を識別したりできる優れものだ。

音声認識技術が注目される理由は、昨今、音声認識技術の精度が向上したことはもちろん、人手不足の解消や業務効率化などに音声認識技術が有効であることが挙げられるからだ。また、コロナ禍には、ビデオ会議の増加にともなう議事録作成や字幕に活用したり、在宅コールセンターの普及にともない通話音声の書き起こしの需要も増加した。

音声認識技術を活用すると、「コスト削減」「負担軽減」「ハンズフリー」「業務均一化」「データ蓄積」など、さまざまなメリットを得られる。実際、音声認識技術は、すでに自治体や民間企業の会議や講演、医療、建築・不動産、製造・物流・小売りなど、さまざまな業界で活躍している。

そんななか、音声認識市場シェアNo.1を誇り、日本語において海外の大手サービスよりも高い精度を発揮するのが、株式会社アドバンスト・メディアが提供する音声認識技術「AmiVoice」および、AmiVoice音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform(ACP)」だ。

そこで、今回は株式会社アドバンスト・メディア PFD&O部 部長 山本真也氏ならびに、株式会社アドバンスト・メディア PFD&O部 パートナー推進グループ セクションマネージャー 山下雄也氏に「AmiVoice」と「ACP」が選ばれる理由について、詳しく聞いてみた。

すると、「業界ごとに特化したエンジン」「海外の大手サービスより高い精度」「さまざまな環境やデバイスに対応している使い勝手の良さ」「なによりも料金の安さ」の4点が両サービスの特徴だとわかった。この記事では、至れり尽くせりの「AmiVoice」および「ACP」の魅力をご紹介したい。

業界ごとに特化したエンジンで人気

公式サイトより

そもそも、「会議などの書き起こし」は容易に想像できるものの、医療や製造・物流・流通、建設・不動産などは専門的な印象があり、音声認識がどのような場面で活用されているのかイメージが浮かびにくいかもしれない。まずは、それぞれどのようなシーンで活用されているのか教えてもらった。

──山下雄也氏

「医療では、所見を電子カルテに入力をするときに、音声認識を使っていただいています。年配のお医者様はタイピングが苦手な方も少なくないので、マイクに向かって話していただくことで、専門用語もしっかり認識し、入力時間の削減に繋がります。弊社がほぼ独占状態と言っても過言ではないほど強い分野で、95%以上という高い認識率を誇ります。

建設・不動産では、建築用語を学習している専用のエンジンをご用意しています。検査の結果を入力したり、建築用語が飛び交うようなミーティングの文字化に使えるソリューションとして、お客様に提供しています。

製造・物流では、主に検査や検品の結果を入力するなど、データエントリーを行う場面で使われています。たとえば、商品を倉庫から取り出してくるときに、音声合成による『ここに行って、いくつ取ってください』という指示情報をもとに、実際に行って『いくつ取りました』と声で報告すると、音声認識を行いデータが合致していれば次の指示が出るといった倉庫のピッキング作業にも使われています」

ところで、なぜ「AmiVoice」はそれほどさまざまな業界で人気を博しているのか。山下氏は強みの1つとして、さまざまな領域に特化した音声認識エンジンを持っていることを挙げた。

──山下雄也氏

「たとえば、一口で医療と言っても、弊社では電子カルテの入力用だったり、歯科医用だったり、放射線科用だったりといった、それぞれのシーンで必要なものだけを学習させたエンジンを多数所有しています。各分野に特化したエンジンを使っていただくことで、専門用語もしっかり認識できます」

もちろん、業界ごとに特化しているエンジンを所有していても、それぞれの企業が使う氏名や商品名などの固有名詞には対応できないのではないか、と思われる方もいるかもしれない。しかし、「ACP」はそれぞれの企業ごとのカスタマイズも実現する。

──山下雄也氏

「たとえば、『日報の入力を音声でやりたい』というときに、お客様のなかで取り扱っている商品や、社内で使われる特別な言い回しなどを認識させるために、お客様専用の言葉が認識できる音声認識エンジンを作るといったケースがあります。

作成には、2段階の方法があります。1つ目は『単語登録機能を使う』という方法です。この機能は『ACP』に標準搭載されており、単語の『表記』と『読み』を定義するだけで、すぐに反映されます。

ただ、それだけでは対応できない場合もあります。そもそも、音声認識は文章を認識するとき、前後の文脈を見ながら、次にこのような言葉が出現しやすいというような確率の統計モデルを使って、類推しながら音声を文字化していきます。新しく登録した単語は、前後の単語との情報がありません。

登録によって新しい単語を認識することはできるのですが、その代わり何かの単語が認識しにくくなります。このバランスは、登録する単語が1000語を超えたり、似たような言葉をいっぱい登録したりすると、崩れてきてしまいます。

そこで2つ目の方法として、お客様に過去の日報のデータなどを提供していただいて、専用のエンジンを組む方法があります。こちらはお客様のデータをもとに言葉の出現確率などを調整するため、認識率も向上します。弊社では、このような個別での対応も行っています」

海外の大手サービスよりも精度が高い

一方で、肝心の精度についてはどうだろうか。「AmiVoice」は最新のディープラーニング技術や、ディープラーニングの発展技術であるリカレントニューラルネットワークのBi-LSTM(Bidirectional Long Short-Term Memory)技術をエンジンに実装することで、エラー改善率を最大25%向上した、と山下氏は話す。

──山下雄也氏

「たとえば、認識精度が80%のエンジンがあったとします。ディープラーニング対応のエンジンを使うと、残りの20%のエラーのうち、25%が改善することになるので、総合的には5%が改善することになります。すなわち、元が80%の精度であれば、ディープラーニング対応を行う事で85%に改善が期待できます。

弊社では、ディープラーニング技術に限らず、音声認識の精度を上げるための研究を日々積み重ねています」

東京アーカイブセンターが提供する「AI文字起こし」

実際、このような研究の成果もあり、「AmiVoice」は日本語の音声認識においては海外の大手サービスよりも、高い精度を発揮すると言える。

たとえば、「ACP」で提供しているAmiVoice 音声認識APIは、株式会社東京アーカイブセンターが提供する「AI文字起こし」にも採用されている。

株式会社東京アーカイブセンター 代表取締役 吉田隆氏は同サービスの提供開始に際して、「サービス開始までに多くの日本語音声認識エンジンの比較・評価を行い、『日本語』という特化した領域において『AmiVoice』の抜群の認識精度の高さを強く実感しております」とコメントを寄せている。

──山本真也氏

「『AI文字起こし』は、音声データをアップロードすると、最初の1分ぶんのデータだけ各社の音声認識を使って音声認識をします。その結果を3つ並べて、1番良いものを使って、残りを音声認識にかける仕組みです。弊社のサービスの音声認識率が1番良いことを客観的に示してくれており、すごく勇気をもらいました」

さまざまな環境やデバイスに対応した使い勝手の良さ

だが、「AmiVoice」および「ACP」の強みはそれぞれの業界や企業に対応できることや、音声認識の精度が高いことだけではない。マルチな環境やデバイスに対応しており、使い勝手が良いことも魅力の1つだ。

──山下雄也氏

「『ほかのお客様とサーバーを共用したくない』『専用サーバーを使いたい』というお客様もいらっしゃいます。弊社は商品によっては、専用サーバーに対応できるものもご用意しています。閉じた環境でやりたいというお客様のニーズもあるので、オンプレミス環境もお選びいただけます。

『インターネットの使えない環境で音声認識を使いたい』というお客様向けに端末のなかで音声認識を完結させるスタンドアローンタイプもご用意しています。また、iOS、Android、Microsoft Windows、Linuxなど、マルチのOS、マルチなデバイスにも対応しています」

さらに、使い勝手の良さと言えば、何か困ったときにサポートしてくれる技術部隊がいることも、「AmiVoice」および「ACP」の強みの1つとして挙げられる。

──山下雄也氏

「弊社は音声認識を専門に20年以上取り組んでいる企業です。音声認識エンジンを研究する部隊も本社・池袋にいます。音声認識のエンジニア数は日本一だと自負しており、サポートをする技術部隊もそろっています。海外から音声認識エンジンだけ持ってきて、売っているベンダーさんもいらっしゃるなかで、弊社は基本的に日本のなかで完結し、一気通貫でご提供できるのが強みの1つだと思っています」

課金対象は「発話部分」のみで料金が安い

公式サイトより

とは言うものの、音声認識の精度や品質が高くとも、料金が安くなければなかなか手を出しづらいところ。その点、「ACP」は、実際に話している「発話部分」のみが課金対象になることに加え、他社では「最低発話秒数」という形で切り上げて請求するところを1秒未満切り捨てる、といった料金体系を実現した。

──山下雄也氏

「『ACP』は従量課金タイプで、使ったぶんだけ料金がかかる体系です。1番安いのが汎用(はんよう)的な言葉を認識できる音声認識エンジンで、価格は0.025円/秒です。

ログを残すか残さないかで価格が違います。弊社エンジンの性能向上に利用することに合意いただける場合は、『ログあり』のプランをご選択いただけます。逆に、『ログなし』はセキュアに音声認識をしたいというお客様に対して、ご提供しているプランです。

また、弊社は話している区間を検出するモジュールを持っていますので、区間検出された部分だけが課金対象になります。他社のサービスは10分の音声データをあげたら、10分と判断されますが、弊社では話していない区間を課金対象外とし、実際に話している部分のみが課金対象になります。

会議で1時間の音声データをあげたときに話していない区間がどのくらいあるのか、議事録作成のパッケージソフトを手がける部隊に確認したところ、約25%とのことでした。60分の音声データだとしたら、45分がしゃべっているという計算なので、15分お得になります。

また、他社の音声認識APIサービスでは規定秒数未満の発話を規定秒数に切り上げて請求をしているため、たとえば3秒の音声データでも15秒といった扱いにされ、価格が切り上げられてしまいます。弊社は1秒単位の計算で、さらに1秒未満を切り捨てるという価格体系になっているため、思ったよりも安くなるはずです」

TBSテレビの「もじこ」では時間を約半分以下に

これまで紹介してきたように「AmiVoice」と「ACP」にはさまざまな強みがある。実際に、「ACP」はさまざまな企業に導入されている。代表的な事例としては、株式会社TBSテレビが開発し、吉積情報株式会社が販売する文字起こしエディタ「もじこ」が挙げられる。

テレビやラジオ業界では日々、文字起こしが多く発生する。しかし、非常に手間のかかる作業であるため、番組制作の現場では大きな負担になっていたという。TBSテレビは文字起こし作業を少しでも減らすために、「もじこ」を開発したとしている。

「もじこ」の効果は抜群だ。TBSテレビでの利用実績をベースとした検証では、通常人力のみの文字起こしには素材の約6~10倍の時間がかかるところ、「もじこ」を利用することで素材の約3倍程度と、時間を約半分以下に抑えられたとのこと。

──山下雄也氏

「『もじこ』は、テレビやラジオの業界のなかで必要な、タイムコードやサムネイル画像の表示などの機能も拡充させた文字起こしエディタです。現場で非常に負担になっていた文字起こし作業を削減し、かつ負担の軽減も達成できるようなエディタとして開発されました」

最速1秒で翻訳できるAI音声翻訳機にも活用

また、海外企業の、Langogo Technology CO.,LTDのAI音声翻訳機「Langogo(ランゴーゴー)」および、AI音声認識文字起こしアプリ「Notta(ノッタ)」においても、日本語の音声認識としてAmiVoice 音声認識APIが採用されている。

「Langogo」は、ボタンを押しながら話しかけるだけで、瞬時に外国語に翻訳してくれるAI音声翻訳機だ。同翻訳機は、独自のアルゴリズムにより、翻訳時間は最速1秒を実現しているという。また、Wi-Fiルーター機能を兼ね備えているとのこと。

一方で、「Notta」は、会議や講演などの会話をその場で文字起こしできるアプリである。スピーディかつ精度の高い文字起こしを実現するため、作業時間の大幅な節約につながるとうたう。議事録作成、インタビューや商談の記録整理、授業や講義のノート作成などに対応している。

──山下雄也氏

「『Langogo』はAI音声翻訳機で、日本語の音声認識エンジンに『AmiVoice』を採用いただいています。一方で、『Notta』は音声認識文字起こしアプリで、iOSとAndroidに対応しており、無料で使えるバージョンもあります。議事録の作成はもちろん、授業や講義のノート作成も使えます」

そのほか、「AmiVoice」および「ACP」は、さまざまな業界の議事録サービスやコールセンターなどに採用され、活用が広がっている。読者の方の、身の回りの企業でも活用されているかもしれない。

「日本語は海外の大手サービスよりも精度が高い」などの声も

最後に、同社のサービスを利用した企業や顧客から、実際にどのような声があるのか聞いてみた。「日本語は海外の大手サービスよりも精度が高い」「日本語で1番精度が良かった」「料金が安い」といった声もあったという。

──山下雄也氏

「『ACP』は、いわゆるエンドユーザーではなくて、自社でサービスを持っている企業や開発ベンダーがメインユーザーです。『日本語は海外の大手サービスよりも精度が高い』『日本語で1番精度が良かった』『料金が安い』というコメントをいただいています」

★ ★ ★

アドバンスト・メディアが提供する音声認識技術「AmiVoice」および、AmiVoice音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform(ACP)」は音声認識市場シェアNo.1を誇る。

記事内で紹介したとおり、両サービスが人気な理由は「業界ごとに特化したエンジン」「海外の大手サービスより高い精度」「さまざまな環境やデバイスに対応している使い勝手の良さ」「料金の安さ」など、至れり尽くせりであることだと考えられる。

「AmiVoice」および「ACP」は申し込みページにメールアドレスを入力し、ユーザー登録をするだけで、すぐに利用開始できる。また、汎用エンジンは毎月60分無料で利用が可能だ。気になる人は以下のページをクリックしてほしい。