作業じゃない、データ作りだ。アノテーションから考えるAIビジネスの正攻法

このエントリーをはてなブックマークに追加

2018年7月26日、レッジが六本木アカデミーヒルズで開催した『THE AI 2nd』。この記事ではABEJA(アベジャ)のセッション「データ視点から考えるAIビジネスの正攻法」を紹介します。

『THE AI』
株式会社レッジが「未来ではなく、今のAIを話そう。」というテーマで主催する、大型のAIビジネスカンファレンス。具体的すぎたり抽象的すぎる話ではなく、ビジネスにおいてどの程度のコストで、どこまで活用可能か? という視点で、AIのスペシャリストたちが語ります。





THE AI 2ndの詳細はこちら

AIが学習するための教師データを作成する「アノテーション」という加工・処理を施すことで、従業員の行動、機械の動作など企業が日々蓄積するデータを活用価値のあるものに変えるという、ビッグデータ時代にふさわしい内容のセッションでした。

寺本 拓磨
株式会社ABEJA 
ABEJA Platform Annotation事業 責任者
大学時代に起業し、新卒でセガゲームスにエンジニア入社。データ分析、ゲーム開発に従事。2016年、株式会社ABEJA入社。デザイナー、プロダクトオーナーなど幅広い経験を経て、現在はABEJA Platform Annotation事業における責任者を務める。

AIビジネスに必要なのは「データ視点」

寺本氏は、通常のシステム開発と比べ、AI開発は少し進め方が異なる、と語ります。

AI開発は通常、以下の4ステップで進められます。

  1. 行動方針決定(所要期間の目安:1~2カ月)
  2. 解決したい課題が何なのか、AIを使ってやりたいことを決定

  3. PoC(Proof of Concept=コンセプト実証)(同:2~3カ月)
  4. やりたいことの実効性を検証。期待した結果が出ない場合は別データの収集などを行って再検証

  5. 開発(同:3~4カ月)
  6. 実用化に向けたAIモデルの開発

  7. 運用
  8. 作成したモデルを本番環境で運用

AIは事前に予測していた精度が出ないことも多いため、特にPoCのステップが重要で、期間も長く取られますが、中にはプロジェクトが頓挫し、開発を断念してしまうケースもあるといいます。

――寺本
「AI開発を行う上で課題となりがちなポイントはいくつかあります。

  • ROI(投資利益率)が測れないままPoCや開発を進めて投資が回収できない
  • PoCを何度も繰り返して投資額が膨らむPoC地獄に陥る
  • 精度や技術的なハードルを高く設定し過ぎてしまい、越えられずに断念

といったケースです。」

こうした状況を背景に、寺本氏はデータを重視した「データ視点」でビジネスを捉えることで、事業性の検証や新しいビジネスアイディアの創出が可能になる、と指摘します。

その例として、ABEJAが小売流通業界向けに提供しているAI店舗解析プラットフォーム「ABEJA Insight for Retail」が紹介されました。

店舗入口に設置したカメラを中心としたIoTセンサーから画像データや動画データを取得し、AIで解析することで、入店人数や年齢・性別を推定。店内行動の動線やリピーター推定まで判別するサービスです。

現在、100社以上の520店舗以上(2018年8月時点)に導入が進んでいるこのサービスが生まれたきっかけこそが「データ視点」だったんだとか。

――寺本
「このサービスは、代表者の岡田(陽介氏)が深層学習を使ったビジネスを考えている時、コンビニへ立ち寄り、店舗スタッフが購入時に年齢・性別のデータをポスレジに打ち込んでいるのを発見して、『このデータ作成作業はビジネスになるのでは?』と思いついたところからスタートしました。」

以前の小売流通業は、データといえば、レジでの購入時データしかない状況でした。しかし、このサービスを使って入店客のデータを取り、POSデータと比較すれば、どの属性の方が購入しなかったのかが分かり、課題を深掘りできるようになります。

アノテーションから考えるのがAIビジネスの「正攻法」

寺本氏が専門とする「アノテーション」も、使い道のなかったデータに価値を与える行為です。アノテーションとは、深層学習(ディープラーニング)をはじめとした機械学習のモデルに学習させるための教師データ(正解データ、ラベル)を作成することを指します。

寺本氏によれば、アノテーションにはたとえば3つの手法があります。

1)物体検出 (Object Detection)

画像に写っているものに対して、「人」「電車」などのタグを付けする

2)領域抽出(Image Semantic Segmentation)

画像に色を塗ることで、色塗り部分の意味をタグ付けする

3)画像分類 (Image Classification)

画像に対して、「これは猫か犬か」「どういう色か」「どういう模様か」などの属性をタグ付けする

用途によってどの手法を取るかは変わってきますが、ディープラーニングの場合、高精度のAIモデルを作成するには、1~10万件といった膨大なデータが必要となります。そこでABEJAでは、企業が自社でアノテーションできるツールや、丸ごと委託するサービスを提供しているそう。

――寺本
「今まで別の用途で取得していた画像・音声・動画などの非構造化データを、新しく抽出したい情報の要件定義に沿ってアノテーションをおこなうことで構造化する。このプロセスを使って新しい事業案を考えるのが、私たちの考える『AIビジネスの正攻法』です。」

――寺本
「たとえばタクシー会社で、各タクシーからドライブレコーダーの映像データを収集するとします。道路のひび割れをセグメンテーションして、一定以上のひび割れを検知するモデルを作れば、道路点検の業務を自動化できます。

ほかにも、駐車場の空き具合を検知するモデルを作り、駐車場の空き情報アプリにデータを掲載したり、空き具合から駐車場のダイナミックプライシングを行うことも可能になります。」

なるほど……。

AIを活用する際に、活用が期待できるデータがあれば、まずアノテーションをおこなってモデルを作成し、本当に活用可能かを判断。有益なデータと判断すれば、ビジネスモデルを考え、データ抽出の頻度を決定する。

リアルタイムでデータが必要ない場合や、抽出頻度が高くない場合は、機械やセンサーではなく人手でデータ抽出を行うなど、具体的な運用方法を決めていけばいい。こう考えると、アノテーションから入ることはすごく合理的ですね。

人間は作業をおこなっているのではなく、データを作っている

また寺本氏は、日々の業務をデータ化することでビジネスを考える、という手法も提案。下記のような業務で、日々知らず知らずのうちに教師データを作成していることは多いと指摘します。

  • 書類内容の確認
  • 医療診断
  • 外観検査
  • レイアウト作成
  • 果物の収穫タイミング判断
  • デザインの良し悪し判断
――寺本
「AIがもっとも活躍するのは、

  • 自動的
  • 継続的
  • 瞬間的
  • 同時並列的

にデータ作成をおこなえる部分。その恩恵が大きいのは、熟練が必要で、属人性が高い判断業務です。熟練者の判断過程や判断結果を蓄積してモデルを作成し、同時並列的にスケールさせることで、新しいビジネスや事業優位性を生むことができます。

人間は作業をおこなっているのではなく、データを作っていると考えましょう。」

そのほかの例として、大手部品メーカー/検査業務のAIによる自動化が紹介されました。

  • 現状: 不良率0.002%という驚異的な高精度で部品製造可能​
  • 現状の最終検査プロセス: 油の付着や、正しい角度になっているかなど、人が検査。熟練者は1商品を約3秒で検査可能
  • AI化: カメラで部品のパーツデータを撮影し、その画像からAIが検査作業を行い、ベルトコンベアで次に流す、あるいは、トラッシュするなどを決定

この開発では、ギアの部品画像8万6000枚を収集し、それぞれの不良ポイントに物体検出を施したうえで、「どういうキズなのか」という不良内容を画像分類で付加する、という2段階のアノテーションを施したそう。

――寺本
「現在はPoC中ですが、人と同等の精度まで実現しました。もともと熟練者になるまでかなりの時間を要していましたが、その教育コストがなくなります。また人間の場合、集中力の低下などもありますが、コンピュータには関係がないので、精度のムラがなくなるというメリットもあります。」

データの組み合わせからビジネスを考える

ありふれたデータ同士を組み合わせ、意味付け・紐付けというアノテーションをおこない、利用価値の高いデータに昇華させていくという手法も紹介されました。画像に意味付け・紐づけを行い、互いに組み合わせることで、データの価値は高まります。

ここでは例として、webクローリングやメーカー写真などで簡単に集まる「靴の画像」が挙げられました。

たとえば画像分類で付与できるデータとしては

  • 商品名・型番
  • 靴の色
  • 靴のブランド
  • 靴の種類
  • 靴の用途

といったものが考えられますが、これを購買情報や靴の利用データと組み合わせることで、

  • 買った人の属性
  • よく併売されているもの
  • 買った人が過去に買っているもの
  • どこに履いて行ったのか
  • 晴れの日 / 雨の日が多いのか
  • よくきあわされている靴下 / ズボンは何か

などのデータも付加できます。

――寺本
「ありふれたデータに付加情報を付与していくことで、より精度の高いマーケティングデータ、より精緻なペルソナデータへと昇華することができます。」

そして上記手法を実際にビジネスに応用した事例として、小売データの例も。

カメラの来店人数データ

  • ○=カメラを設置した店に入って来た人を来店人数としてデータ化できる​
  • ×=カメラを設置している店しかデータ化できない

GPSの位置情報データ

  • ○=対応アプリを入れている人の位置情報を観測できる
  • ×=アプリを入れている人しかデータ化できない

これらのデータを組み合わせて補完することで補足率を上げ、たとえば商圏エリアの全店舗にどれぐらいの人が来ているのか、などの人数推定などにも利用できます。POSデータやポイントカードのデータなどと組み合わせることで、用途はさらに広がります。

――寺本
「自社の手元にあるデータだけで考えるのではなく、他部署、他企業、他業界が持っているさまざまなデータをオープンデータとして組み合わせることで、新しい価値を生み出せます。」

データは社外秘として囲い込む時代ではなく、戦略的にオープンにして組み合わせていく時代なのだ、と感じますね。

とにかくすべてのヒト・モノ・コトをデータ化できないか考えること

寺本氏が語った「AIビジネスの正攻法」。

人間は作業をおこなっているのではなく、データを作っていると考えましょう。」という寺本氏の言葉には強い感銘を受けました。

その視点で見ることができれば、これだけセンサーが進化して小型軽量低価格している今、データ化も以前よりずっと楽で低コストになっているだけに、AIを活用できる可能性はグッと広がります。とにかくすべてのヒト・モノ・コトをデータ化できないか、という目で日々の業務を見ることが、AI時代の新しい視点なのだと感じました。