ゼロから”生み出す”AI技術〜認識率99%の画像認識、人の声を認識する音源分離、画像生成

このエントリーをはてなブックマークに追加

【PR】この記事はクリスタルメソッド株式会社のスポンサードコンテンツです。

「人間をサポートするAI」の研究開発が強みのクリスタルメソッド株式会社。対話型AI「HAL3」をはじめ、過去には金融AIシステムなどを手掛けている。そんな同社がいま力を入れているのは、AIシステムの根幹をなす要素技術開発だ。

「カーナビやスマートスピーカーの音声認識が間違いやすい」といったわずらわしさからの解決や、大量生産の現場を効率化している取り組みを紹介する。

はじめに

クリスタルメソッド株式会社は、R&D(Research and Development)に特化したAI受託研究開発事業を行っている会社です。何もないところから新たな価値を生み出す要素技術開発に力を注いでおり、その研究成果を世界に発信してユーザーの皆様の生活がより豊かになるよう日々努めています。

研究開発を任せてくださるお客様の理想を叶えるために、さまざまな技術を生み出してきました。まず、さまざまな音の中から特定の音のみを抽出する音源分離の技術、次にAIの教師データとして活用できる画像生成の技術、そして2D・3D画像データを高い精度で認識する技術などです。これらの技術はアイデア次第でまだまだ応用の幅を広げられると考えています。

特定の音を抽出する音源分離で、音声認識の精度を向上

音源分離とは、さまざまな環境音の中から特定の音のみを抽出する技術です。これには深層学習・マスク推定を用いて音を抽出しています。

この技術は大きく2つの機能に分けられ、「モノ」と「人の声」の音源分離が可能です。

複数ラインの工場でも異音を検知

たとえばボールペンのペン先を出し入れするカチカチ音(ノック音)をAIに学習させると、雑音の中からその音だけを抽出できます(ノイズリダクション)。さらに、正常なノック音をAIに学習させることで、ペンが不良品ではないかなどの正常・異常判断を行うことができます。

この機能を活用すると、工場内での異音検知など、さまざまなバリエーションの音が存在する現場で作業の効率化が見込めます。実際に大手自動車メーカー様に提供した製品は、99%以上の精度で音源分離・判定ができ、現在は100台がモノづくりの現場で活躍することが決まっております。

AIの音声操作だけでなく、補聴器ユーザーの日常も快適にする

「人の声」の音源分離では、雑音環境下から人の声だけを抽出したり、複数人が話している場所で特定の人の声のみを抽出できます。

たとえば、スマートフォンやスマートスピーカーなどの音声認識AIで人の声を抽出し、ノイズリダクションをかけることで、雑音やノイズによるAIの判断ミスを防ぎ、よりスムーズで快適なAIとの音声コミュニケーションが可能になります。

また、道路交通法の改正により自動車走行中のカーナビやスマートフォンの操作が2020年からより厳しく罰せられることになりますが、ノイズリダクションを用いると、走行雑音を除去し人の声が認識されやすくなります。音声の認識精度が上がることで、車を一時停止してカーナビに手入力する煩わしさから解放され、速やかな道案内や安全な走行につながります。

さらに、補聴器にノイズリダクション機能を付けると、話し手の声をピンポイントで拾え、より自然な会話が可能になり、難聴の方々の日常生活に大きく役立つことができると考えています。このように、ノイズリダクション技術は製造業から身近なものまで、アイデア次第でさまざまな形で役立てることができます。

複数人の音声を聞き分け、テレビ会議をスムーズにする

複数人の音声の中から特定の音声のみを抽出する機能については、今まさにその真価が問われている時期だと思います。新型コロナウイルスによってリモートワークを行う企業が増え、テレビ通話やオンライン会議を導入しなければならない機会に直面していることと思います。

その際に、背景雑音や複数の人の声によって会議が滞ってしまうのを防ぐためにも、音源分離機能は非常に有用です。自分の聞きたい人の声や注目すべき人の声のみを抽出することで、実際に人間の耳や脳が行っている「注目する聴き方」を可能にし、あたかもその場に皆が集まって会議しているかのようなスムーズなやりとりが実現します。

加えて、録音データから誰が何を話したかなどの議事録作成が自動で行えるなどのメリットがあります。

製造業の現場で活躍する画像生成

AI開発にはベースとなる大量の教師データが必要となりますが、実はこのデータ収集がAI開発において結構な労力を必要とします。そこで、深層学習のGAN*などを利用し、集めた少量のデータからAIが新たな学習データを自ら生成することで、あまりデータが揃わない対象にもAIを活用することができます。

*GAN:入力された画像や音声などから、新しい擬似データを生成するAI技術。2つの学習モデルを互いに競わせ、本物のデータと非常に近いデータを生み出す

この機能はAI開発の現場で役立つだけでなく、製造業など、異常データをあまり集めることができないという場合でもAIを活用できるという課題解決にもつながります。実際に大手自動車メーカー様2社に提供しており、形の定まらない物を検査するときの不良品データ生成に使われています。

2Dデータ・3Dモデルの認識、判定精度を98%以上に

2Dモデル・3Dモデルの認識、判定精度を高める取り組みも行っています。

ある物体の2D画像における、AIが物体を認識する確率は、一般的に50~60%と言われています。特に、形が定まっていない物の認識率はさらに低くなることが多く、この数字を上げていこうと、多くのIT企業やAI開発の領域にいるエンジニアの方は日々試行錯誤されているかと思います。

弊社では、全体画像から検査したい部分に注目し、より精度の高い検出結果を得るセグメンテーションという技術を用いたり、長年蓄積してきたAI構築のノウハウを活用することによって、画像の認識率を約98%にまで向上させました。

また、3Dモデルの認識・判定は2Dデータ以上に難しいものですが、独自手法の次元削減を活用することで、より効率が良い検証が行えるようになったため、99%以上の精度が出るAI構築に成功しています。

この技術を用いると、布製品のシミやしわを瞬時に検知し不良品判定を行うことが可能となり、製造業において大幅な作業の効率化が見込まれます。

おわりに

日本の大企業には、独自の制約や部署間の調整など、さまざまな理由からスピード感のある研究開発が難しいという課題があります。一方で、マニアックであったり難易度の高い案件を委託できるAI開発企業は多くありません。

クリスタルメソッドではお客様の求める理想を追求し、1から新たな製品を生み出す努力を惜しみません。それこそが弊社の「R&Dに特化したAIスタートアップ企業」としての強みであり、これからもさまざまな利用者様の理想を求めて製品を提供し、世界に発信していきたいと考えています。

>>クリスタルメソッド株式会社案内

>>イプロスものづくり(外部サイト) 

執筆者プロフィール

河合 継 クリスタルメソッド株式会社 代表取締役社長

~2008年 フリーランスのエンジニア
2009年 AIで日本株の取引が出来ないかなど検証開始
2013年 証券価格がAIで文字列化できないか検証
2016年 人工知能学会研究会で為替の研究発表
2017年 音のAIを研究開発 特許取得 研究発表
2018年 動画からの株価予想 研究発表 
2019年 2D・3DのAI研究開発 特許取得