世界上位の精度を誇る顔検出AIをLaboro.AIが発表

このエントリーをはてなブックマークに追加

6月4日、国内AIベンチャーLaboro.AIが、世界第2位の精度を誇る顔検出AIを開発したことを発表した。

顔検出AIは、同社CTO藤原 弘将氏とエンジニアQuang氏により開発され、研究論文の投稿時点では世界第2位※の精度を誇っている。5月16日、IEEEが主催し、フランスで開催された顔・ジェスチャー検出の国際会議「FG2019」でもその内容を報告した。

※論文を投稿した時点で、国際会議・論文誌で発表済みの査読有り論文との比較の結果

一般的な顔検出エンジンとの“違い”

今回の発表を目にして、驚きと同時に、他モデルと何が違うのか?技術的な差異は何か? という素朴な疑問が生まれた。

今回、プレスリリースには親切にも技術的な解説もされているため、それをまとめる形で顔検出エンジンの違いについて紹介する。

他モデルのアルゴリズム、そのメリット・デメリット

顔検出は物体検出のひとつの分野で、用いられるのはディープラーニングの手法のひとつ「CNN(畳み込みニューラルネットワーク)」が主流だ。

これらは、Two-Stage法とSingle-Stage法の2つに大別されるという。

それぞれの特徴を整理すると、以下だ。

Two-Stage法とは

2段階の処理で構成されたアルゴリズム。入力された画像の中からチェックすべき領域の候補をピックアップするネットワークと、ピックアップされた候補の領域をスクリーニング(必要なものを選出)して顔だと特定する、計2つのネットワークから成っている。

  • メリット:複数のネットワークが働くため精度が高い
  • デメリット:検出時間がかかる

Single-Stage法とは

1つのネットワーク内で上記(Two-Stageでの処理)両方の処理を行う。

  • メリット:処理スピードが早く、検出時間が短い
  • デメリット:精度ではTwo-Stage法に劣る

YOLO(You Look Only Once)やSSD(Single Shot Multibox Detector)は、Single-Stage法の弱点である精度面の改善が重ねられたものして、注目を集めている。

一言でディープラーニング、顔検出といっても、その特徴と現場のニーズを照らし合わせる必要があるため、上記の理解は外せないだろう。

Laboro.AI顔検出エンジンの特徴


識別・回帰の段階で分岐させるレイヤーを挿入

Laboro.AIが開発した顔検出エンジンは、処理速度を強みとするSingle-Stage法を用い、高速性を維持したまま高精度な顔検出を実現したものだ。

ビジネス現場では速度、精度、どちらも高い水準を求められる。両者のバランスが取れたAIがLaboro.AI顔検出エンジンだという。

Laboro.AI顔検出エンジンは、Single-Stage法で検出精度が上がりにくい原因となっていた2つの点に改善を施したことで実現したという。

Single-Stage法は、細かい画素範囲から広い画素範囲へとその検出範囲を変えて処理が実行される。顔を例にあげると、小さな顔を検出する段階では顔単体で判別することが難しく、顔周辺の情報(たとえば、体や背景など)も参考にする必要がある。結果として精度に影響をもたらしていた。

そこで、Laboro.AI顔検出エンジンでは、周辺情報を把握しやすくし、小さい顔も検出しやすい構造を取ることで精度の向上を実現したのだ。

また、Single-Stage法では、特徴量の問題が精度を下げる要因になっていた。画像中の顔の有無を判断し(識別)、顔のサイズを検出する(回帰)という2つの処理が行われるが、この際、双方で同じデータ情報(特徴量)を使用することが精度に影響をもたらしていたという。

そこで、元となるデータ情報を識別用と回帰用の2つに分岐させるレイヤーを挟み込むことにより、精度向上を図った

精度とスピード、その比較結果はいかに

顔検出エンジンの評価は、顔検出の研究分野における評価用データのスタンダードであるWIDER FACEが使われた。

WIDER FACEとは

WIDER FACEは約3万枚の画像に、40万人分の顔画像がアノテーション(ラベル付け)されており、検出の難易度に応じてEasy、Normal、Hardの3段階に分かれた評価データ。


その他顔検出モデルとの精度比較

テストの結果、Laboro.AI顔検出エンジン(下図Ours)は、Easy、Normal、Hardのいずれのレベルでも第2位の精度だと実証されたという。

速度と精度のバランスがビジネス活用への鍵

速度と精度の双方が高い水準でバランスよく取れているLaboro.AI顔検出エンジンは、どちらかに偏っているモデルよりもビジネスへの応用がききそうだ。

当然、求められるニーズや要件によって適切なモデルを選ぶことが必要になるが、多くのケースでは、速度と精度の双方が求められる。今回はモデルの開発、比較結果という点で注目が集まっているが、今後の具体的な事例が楽しみだ。

source:https://prtimes.jp/main/html/rd/p/000000007.000027192.html