Siriに搭載されてるAIはどういう仕組みなの?
さて、前段が長くなりましたが、Siriを構成する4つの要素は以下の通り。
- 音声認識
- 自然言語理解
- 命令の実行
- 返答
この中からSiriの機能の核となっている音声認識について紹介していきます。
音声認識・音声合成
音声認識は人間の発言(音声)を聞き取ってデータ化すること。人間の複雑で多様な音声を認識できるようになるというのは技術的なハードルが高いと言われています。
ただこの音声認識の精度は、近年飛躍的に高くなっており、Siriがうまく音声認識できないことも年々減ってきています。これは無数の音声データを用いて、統計的な処理をおこなう仕組みが構築されているためです。Siriに用いられているのはNuance Communications社の提供した音声認識技術と言われています。
一方、Siriはテキストデータを音声としてアウトプットする「音声合成」もできます。これにより、人間とAIのスムーズな対話が可能となっているのです。
iOS11ではSiriの音声品質が大幅に向上しているようです。新しいSiriではテキストのアウトプットにはディープラーニングに基づいたTTS(テキスト読み上げ)技術が用いられ、Siriの表現力が大きく改善してるのだとか。
身近だけど意外と知らなかったSiriという存在
最近ではSirikitというツールを使って、今あるアプリケーションをどんどんSiriと連携させることが可能とのこと。音声操作で送金できたり、家電をリモートで操作できたり、Siriの機能は拡張し続けています。すべてのアプリと音声だけで繋がれる世界が現実的なものになってきてますね。
Siriは身近な人工知能。でもその発祥や仕組みは意外と知らないものですよね。音声で命令をするだけで何から何まで実行してくれるSiriは、今よりもっと快適な未来をもたらしてくれます。今後ともSiriには傍で人々をアシストするような頼もしい存在であってほしいですね。