日立ソリューションズが注目したデータラベリングの実力者、Labelbox(ラベルボックス)は何がすごい?

Labelboxのブライアン・リーガー氏と日立ソリューションズの岡本光平氏
このエントリーをはてなブックマークに追加

株式会社日立ソリューションズは2022年3月に、AI開発の学習データ生成を支援するデータラベリングプラットフォームを提供する米国のLabelbox社と、国内初の販売代理店契約を締結し、販売を開始した。

Labelbox(ラベルボックス)」は、企業がAIモデルを構築するうえで、手間のかかるデータラベリングの課題を解決する製品だ。ラベリング作業の効率化や、データの品質管理、ラベル付け担当者の作業パフォーマンスの管理などがプラットフォーム上で一括して可能になるという。米国ではすでに導入実績も幅広く、インフラからDX先端企業まで200社以上が採用している(2022年9月時点)。

AI開発において「AIモデルの性能が期待したほど上がらない」というのはよくある話。PoC(概念実証)で終わり、本番適用まで進まないケースもある。日立ソリューションズもそうした現状を把握しているため、データラベリングに着目し、Labelboxを日本で提供することで企業のAI開発をサポートする格好だ。

では、日立ソリューションズはなぜLabelboxを選んだのか、またLabelboxはどういった製品なのか。来日したLabelbox社長/共同創業者のブライアン・リーガー氏と、日立ソリューションズ サステナブルシティビジネス事業部 新事業推進部の岡本光平氏に話を聞いた。

Labelbox(ラベルボックス)社長/共同創業者 ブライアン・リーガー(Brian Rieger)氏

Labelboxのブライアン・リーガー氏

1987年、北カリフォルニア生まれ。エンブリー・リドル航空大学で航空宇宙工学を専攻。大学卒業後、2012年より、ボーイングで空気力学エンジニアとして「ボーイング787 ドリームライナー」の設計に携わる一方、航空宇宙会社Infinity Aerospaceを共同創業し、国際宇宙ステーション用のハードウェアを開発。2017年、燃料物流会社ワールド・フューエル・サービスで、データサイエンティストとしてデータ分析とデータのビジネス活用を推進。2018年、友人のManu Sharma、Dan RasmusonとともにLabelboxを共同創業し、COOとしてAI開発の学習データ生成を支援するデータラベリングプラットフォーム「Labelbox」を開発。2020年より同社社長を務める。

株式会社日立ソリューションズ サステナブルシティビジネス事業部 新事業推進部 グループマネージャ 岡本 光平氏

日立ソリューションズの岡本光平さん

これまでモビリティ分野のソフトウェア開発や画像認識処理などの開発業務に従事。日立ソリューションズの画像判定トータルソリューションの立ち上げなど、自社内の新事業開発だけでなく、顧客における画像認識AIの導入支援やコンサルティングなどを実施。

「Labelboxはラベリングの品質が抜きんでている」(岡本氏)

Labelboxのブライアン・リーガー氏と日立ソリューションズの岡本光平さん

──日立ソリューションズが国内で初めてLabelboxの販売代理を始めたということですが、データラベリングサービスを提供している企業は多く存在する中で、どういった観点から、日本でLabelboxの販売代理をしようと決めたのでしょうか?

岡本氏:日立ソリューションズでは、数値や画像、テキストなど、さまざまな方面でAIを提供していますが、日本国内では画像やテキストなどのAI利用はまだまだ進んでいないという認識があります。理由は、データが集まらず、AIの精度が高くならないところにあり、なかでもアノテーション(※1)が非常に重要な要因になっていると感じています。

※1 データを学習させる際に、画像、テキスト、音声など多種多様な形態のデータに情報タグを付加し、意味づけや紐づけをすること。

AI開発はデータが最重要という考えから、データアノテーション作業を効率的かつ高品質に保てるプラットフォームを探していたところ、Labelboxを知りました。実際に利用してみて、国内の皆様の課題解決にマッチするという判断に至り、サービス提供を開始したという経緯です。

Labelboxが提供するAI構築プロセスの説明図画像提供:日立ソリューションズ

──データラベリングサービスを探す際に、ほかの企業も検討したのでしょうか?

岡本氏:選択肢はありましたが、ラベリングの品質観点で見たときに、Labelboxが抜きんでていました。またLabelboxは、データラベリングを中心にAIモデルを構築するための機能が揃っていて、サービスとして完成度が高く優れているので、日本市場にもフィットすると考えています。

「Catalog」「Annotate」「Model」の3つのコア製品

Labelboxのブライアン・リーガー氏

──ここからはLabelbox社長で共同創業者であるブライアン・リーガーさんに質問です。AIと一口に言っても、いろいろな事業がありますが、その中で、なぜデータラベリングサービスの提供を思いついたのでしょうか。

リーガー氏:さまざまな業界を見ている中で、AIの活用で最も重要な要素でありながら、開発における制約になっているのが“データ”の部分だとわかり、データラベリングの重要性を強く感じました。

そこで、画期的なデータラベリングのツールを提供することが、今後のAIモデル構築のカギになると思い立ち、4年前(2018年)に開発を始めたのがLabelboxの成り立ちです。

──最初からデータラベリングに注目して開発されたのですね。では、実際に製品になったLabelboxの概要を教えてください。

リーガー氏:Labelboxは主に3つのコア製品を提供しています。1つは「Catalog(カタログ)」です。企業がAIモデル構築のためのデータを管理するもので、さまざまなデータセットにあるデータをまとめて見ることができます。

Labelboxの機能「カタログ」のサイト画像LabelboxのWebサイト内「Catalog」のページより

これにより、どういったデータがあるのか、その中で必要なデータは何か、などを見て、選んでAIを学習させることができます。つまり、AIモデルを構築するうえで最も適切なデータを選ぶことができるわけです。

2つめが「Annotate(アノテート)」。これはまさにデータにラベリングするためのソリューションです。ラベリングするためのツールが揃っており、ラベル付け担当者のワークフロー管理もできます。

Labelboxの機能「アノテート」のサイト画像LabelboxのWebサイト内「Annotate」のページより

このソリューションがあれば、多くの担当者が関わり、さまざまなデータをラベリングすることになっても問題なくこなせます。しかも、非常に正確で質の高いアノテーションが可能です。ひいては、精度の高いAIモデルを構築するための、質の高いデータ提供につながります。

──正確で質の高いアノテーションについて、もう少しくわしくお聞きしたいのですが、具体的にはどのようなプロセスをたどるのでしょうか?

リーガー氏:たとえば製造工場の場合、工程の中で作業を分業すると思います。その際、間違いが起きたときに、確認してやり直し、次の工程に進めることができますよね。同じことが、「アノテート」のデータラベリングでも可能です。データラベリングも1人ではなく、分業するわけですから、どこかで間違いが起きても、確認してやり直せば、正確性と品質を担保できます。

「アノテート」は、ワークフローとしてデータラベリングの工程をセットアップしていますので、その流れで進めば、アウトプットで一定の質を保てます。さらにワークフローの中で、どういった作業がされているのか、ラベリングがどれだけ正確なのかといった分析もできます。その分析をモニタリングすれば、より正確性の担保につながるでしょう。

──では、3つめのコア製品はどのようなものでしょうか。

リーガー氏:3つめは「Model(モデル)」です。AIの学習に関わってくるところでして、ラベリングしたデータをこのモデルの中に取り入れて、AIを学習させ、精度を上げていきます。

Labelboxの機能「モデル」のサイト画像LabelboxのWebサイト内「Model」のページより

「モデル」では、どういったデータを取り入れたのか、そのデータがどれだけ正確で、求めているものなのかを分析できます。学習がうまくいかないことがあれば、なぜそれがうまくいかなかったのかも特定できるので、改善するポイントが見えてくるわけです。原因がわかれば、そこを改善し、よい学習につなげられます。

──「カタログ」でデータを管理し、「アノテート」でラベリングし、「モデル」でAIに学習させているわけですね。

リーガー氏:さらにそのサイクルを繰り返すことで、AIモデル構築を速めることにもつながります。

Labelboxのサイト画像画像提供:Labelbox

「最初のラベリングから手間をかけずにできます」(リーガー氏)

Labelboxのブライアン・リーガー氏

──Labelboxの製品ページを見ると「モデル推論による半自動学習」とあり、ラベリングの負担を軽減できますね。とはいえ、やはり最初のラベリングは手作業になり、どうしても手間がかかってしまうと思うのですが、そのあたりはいかがでしょうか?

リーガー氏:Labelboxを利用する場合、最初のラベリング、あるいはプロトタイプのAIを作る際、時間をかけずに小さいものを開発するのがいいでしょう。ラベリングするデータ量は少なくて問題ありません。

たとえば最初の手作業時に、1000〜1万くらいのサンプルデータであれば、数週間程度で作業できると思いますし、それで十分です。ただし、代表的なデータを用意していただきたいです。

用意したデータをAIに学習させると、あとはある程度、自動化が進み、学習の精度も上がりますので、次からは作業量が50%ほど下がるはずです。

Labelboxインターフェイスの説明図画像提供:日立ソリューションズ

──最初のラベリング時から、それほど負荷はかからないわけですね。もう1つ、最初のラベリングに関係することで、アノテーションにおいて難しいセマンティックセグメンテーション(※2)に対応できるエディター支援ツールを、Labelboxの公式サイトで公開されていますね。画像内の複数のオブジェクトを効率よくラベリングできるそうですが、こちらの機能についてくわしく教えてください。

※2 画像内のすべてのピクセルにラベルやカテゴリを関連付けるディープラーニングのアルゴリズム。

リーガー氏:従来は、人間が個別に判断しながら手作業で行っていた作業を自動化するツールです。1つの画像内に、複数のオブジェクトがあるのはよくあることですが、それを1つずつ特定するのではなく同時に判定でき、作業を加速できます。データラベリング時の最初の工程で活用していただきたいツールです。最初のラベリング時で、どれだけ自動化できるかは、工数削減のポイントの1つです。

Labelboxのセグメンテーション支援ツールのサイト画像LabelboxのWebサイト内、セグメンテーション支援ツールのページより

──サイトを拝見すると、エンジニア以外でも使えそうなインターフェースに感じますが、ノーコードもしくはローコードで使えるのでしょうか。

リーガー氏:そもそも私たちの思いとして、「製品は直感的に操作できるインターフェースであるべき」と考えています。Labelboxを使われる方の中にも、事業のことはよくわかっているけれども、AIのテクニカルな面はくわしくない、という方もいるでしょう。ですから、プログラミングについての高度な知識を持たない方にも使いやすくなっていると思います。

Python、API、JavaScriptで既存システムに統合しやすいLabelbox

Labelboxのブライアン・リーガー氏

──AIを開発している企業は、社内で専用プラットフォームを作成したり、複数のサービスを連携させたりするなど、独自の仕様になっていることが多いと思います。そういった企業ごとに開発システムが違っていても、Labelboxの導入は可能でしょうか?

リーガー氏:日本に限らず、独自でAIを開発している企業はたくさんあり、その前提で私たちも事業をしていますので、当然、Labelboxも企業のプラットフォームやサービスにインテグレーションできるようになっています。実際、Labelboxを利用している事業の75%程度は、企業が独自で開発したシステムにつなげる、もしくは置き換えられているんです。

また、製品を利用しやすいよう、私たちは3つの方法を用意しています。1つは、Pythonのデベロッパーキットです。データサイエンティストや機械学習の担当者がPythonを使って自社のAIに統合できます。

もう1つは、システムに統合できるAPIを提供しています。

最後はJavaScriptとの接続です。企業で独自のラベリングツールや技術を持っていて、その技術を使用するのであればJavaScriptで統合できます。独自の技術が前提の場合でも、私たちの製品を使えます。

Labelboxの利用イメージ図画像提供:日立ソリューションズ

高品質データを使って、短期間で繰り返し学習させられるのが強み

──データラベリングをサービスとして提供する企業は多くあると思いますが、競合と比較したときにLabelboxの強みや特徴はどこにありますか?

リーガー氏:グローバルで見ると、データラベリングサービスを提供する会社には、大量のデータにラベリングすること、「量」に重きを置いている会社もありますが、私たちは、正確なAIモデルを構築するうえで、データの量だけを増やせばいいとは考えていません。必要な性能のAIモデルにたどり着くためには、高い品質のデータと、反復の作業を繰り返すことが非常に重要だと思っています。

Labelboxは、必要最小限の高品質なデータを使って、繰り返し学習させること、しかもそれを短期間で実行することで、AIのソリューションを提供しているのが強みであり、そこが競合サービスとの差別化だと考えています。

──これまでのお話を聞いていると、特に画像のデータラベリングの精度を高くできる印象を持ちましたが、Labelboxを利用しているのは、主にどういった業界、企業なのでしょうか?

リーガー氏:画像であれば、よく利用されているのは、保険、ヘルスケア、Eコマース、スポーツ、小売りなどの業界ですね。ただ、Labelboxはビデオ、テキスト、オーディオと、多種多様なデータ、非構造化データをラベリングできます。医療画像や衛星から取得したデータなど、専門性の高いデータも可能です。そうしたさまざまなデータに対応できるのもLabelboxの強みだと思います。実際、私たちの事業で、最近もっとも問い合わせや依頼が多いのは、テキストデータの活用についてです。

──リーガーさんが個人的に興味深いと思った導入事例を、1つだけ挙げていただくとしたら何でしょうか?

リーガー氏:農業の事例ですね。「ジョンディア」という農業機械ブランドで知られるディア・アンド・カンパニーが、除草剤を必要な部分にだけ散布するサービスを展開していますが、Labelboxを利用して自社でAIを学習させ、除草剤を散布する機械に搭載しています。

除草剤を散布すべき「雑草」と、散布してはいけない「作物」を見分けることがAIに求められるわけですが、Labelboxで学習を繰り返し、うまくいったときとそうでないときを分析しながら精度を上げた結果、除草剤の使用量を77%削減できたそうです。コスト削減になるだけではなく、環境負荷も低減できるので、とてもよい事例だと思っています。

日立ソリューションズによるカスタマイズやシステム構築のサポートも

Labelboxのブライアン・リーガー氏と日立ソリューションズの岡本光平氏

──最後に、日本市場に向けてメッセージをお聞かせください。

リーガー氏:日本はAIの技術が非常に洗練されている印象があり、その中でも高い技術力をもつ日立ソリューションズとの今回の協業にとても期待をしています。なぜなら、当社のパートナーであるGoogle Cloud PlatformやDatabricksと連携したAI開発環境を日本の皆様に提供できますし、多様なAI開発の実績からお客様の業務課題に適切なAIモデルの構築を支援することができるからです。Labelboxを活用して、さまざまな日本企業がAIを開発し、技術のブレイクスルーを実現することにも期待しています。私たちはその支援をできればと考えています。

──ありがとうございます。では、日立ソリューションズの岡本さんに、最後に質問です。Labelboxの提供形態について、製品としての提供だけでなく、専門的な技術者によるサポートなどもあるのでしょうか?

岡本氏:そうですね。Labelboxを活用して、当社のAIエンジニアによる開発サポートについても実施していきます。Labelboxを中心に、お客様のニーズに応じて、最適な機能やサービスを提供できるようにカスタマイズしたり、お客様のデータウェアハウス、データレイクなどと連携するシステム構築を支援できればと考えています。お客様の幅広いAI利活用のお手伝いをしたいと思ってますので、ぜひ私たち日立ソリューションズにご相談いただけたらうれしいです。

(sponsored by 株式会社日立ソリューションズ)