AI開発中に外注したアノテーション作業、結局内部で「やり直し」していないか

このエントリーをはてなブックマークに追加


FastLabel株式会社 代表取締役社長 鈴木 健史氏。写真撮影時のみマスク非着用。Ledge.ai編集部内で撮影

「アノテーション作業を外部に委託したけど、成果物の質が悪くて、結局内部で修正作業に追われています……」という現場の声。AI開発における“あるある話”のひとつだ。実際に読者のなかでも同じような経験をした方、もしくは身近に経験した方がいるのではないだろうか。

「アノテーションとは何ぞや?」という方には、Ledge.aiの「アノテーションとは」を読んでいただきたいのだが、すごくざっくりと言えば、猫が写っている写真があったとき、その写真のなかから「猫」の部分を明確にすることがアノテーション作業だ。アノテーション作業を経たデータ(猫の写真でいえば画像データ)をAIモデルに学習させることで、猫が写った写真をAIが見たときに「猫だ!」と判定できるようになる。

しかし、犬が写っている写真にもかかわらず、アノテーション作業でその写真を「猫」と誤って指定した場合はどうなるだろうか。誤ったアノテーションによる画像データをAIモデルに学習させると、犬の写真をAIに見せたときでも「猫だ!」とAIは判定してしまうのだ。

上記の内容は非常にざっくりとしたたとえ話ではあるものの、アノテーション作業は開発するAIの精度を左右する重要なパートだ。ではなぜ、冒頭で紹介した、“あるある話”が起きてしまうのか。重要な作業なら内製化すればいいのではないか。この理由は単純で、アノテーション作業は膨大な量をこなす必要があるからだ。

内製だと作業工数的にも人員的にも厳しい

AI開発において「データが重要」とはよく言われることだ。ピンキリではあるものの、AI開発1件での学習させるデータ量(≒アノテーション作業)は、1万件……多いもので10万件以上を超すこともしばしば。高精度なAIの開発であればさらに多いケースもある。そのため、AIを開発する企業内だけでは、作業工数や人員的に対応しきれない。つまりは、外部企業に頼らざるを得ないケースが多いのだ。

とはいえ、外部企業に委託するにも費用はかかる。アノテーション費用をなるべく安く抑えたいため、「低コストで対応します!」とうたう外部のアノテーション代行企業に依頼をする。その結果、内部の人員を使うことなく外注費用も安く抑えられたものの、アノテーションの質が悪く、「内部で修正作業に追われる」という事態になるケースが発生することがあるのだ。念のため記載するが、低コストで対応してくれる代行企業すべてが悪いのではなく、あくまでも先述したようなケースが発生することがある、ということを知っておいてほしい。

ではなぜ、質が悪いアノテーション代行が起きてしまうのか。アノテーションプラットフォームを提供するFastLabel株式会社 代表取締役社長 鈴木 健史氏に話を聞いた。FastLabelは単なるアノテーション代行ではなく、プラットフォーム(詳細は後述)を提供しており、スピーディかつ高品質な成果物を提供してくれると、いまAI業界で非常に注目を集めている企業だ。

―― 鈴木氏
「一般的に、アノテーション作業を外部に依頼する際は、データとともに、何をどのようにアノテーション作業を進めるのか仕様書を用意します。この仕様書に準じてアノテーション作業者が作業に着手しますが、曖昧な仕様書だと作業者ごとに認識のズレが発生してしまいます。

たとえば、“しし唐”のアノテーション作業をする際、仕様書では『しし唐を囲ってください』と書いてあるものの、囲うべきしし唐はどこまでなのか……。実の部分だけなのか、茎も含めるのか、はたまた全体を囲むのか。実も緑で葉っぱも当然緑。どこまで囲うのか。作業者それぞれはとても真面目に作業するものの、作業者ごとの認識のズレから、アノテーション作業の成果物の内容が異なるケースがあります。同じしし唐でも、実の部分だけ囲ったデータと、葉も含めた全体のデータでは、AIの精度に大きな影響を与えます。

仕様書を細部まで用意しきれていないなど、コミュニケーションによる課題が大きいのですが、アノテーション作業は複数人で受け持つため、“何が正解なのか”を明示しなければ、思ったような成果物を納品されない場合があるのです」

よくあるアノテーション代行の納品までの流れは、アノテーションしてほしい画像などを提出し仕様書を定めた後、アノテーション作業に取り掛かる。その後レビューとしてアノテーション作業を実施したいくつかのデータをランダムに依頼主に確認を求める。レビューで見た内容に問題がなければ、そのままアノテーション作業は続行され、最終レビューを経て成果物が納品される。

アノテーションの正確さを上げるためにも、レビューを何度か実施するのは多くの代行企業が採用しているフローのひとつだが、このレビューも“難あり”と鈴木氏は話す。

―― 鈴木氏
「アノテーションのレビューをする際、レビュー用のデータをGoogleドライブなどで共有され、依頼主がチェックすることがよくあるケースでしょう。依頼主は共有されたデータに目を通すまではいいのですが、もしレビューデータに修正箇所があった場合、『どの画像のどの部分を修正するのか』をExcelシートなどに、データのファイル名と修正指示をまとめなければいけません。なかには、PowerPointで逐一修正すべき点をまとめて、代行企業に戻す場合もあるそうです。この一連の流れでもわかるとおり、コミュニケーションコストが発生するなど、結構な手間暇がかかります。

また、企業様によっては『これくらいの修正なら自社内でまかなっちゃおう』とすることも少なくないそうで、結果的に社内で修正作業に追われる事態に発展するのです」

依頼後に「このアノテーション作業も指定しなきゃダメだった」と後悔

アノテーション作業を外部に依頼したものの、結果的に社内で対応せざるを得なくなった場合、当然だがスケジュールはひっ迫する。ただ、それだけでなくアノテーション関連の作業では、「このアノテーション作業も指定しなきゃダメだった」と後悔する場合がある。

それは、データが足りていないためAIの精度が出ないというケースだ。

―― 鈴木氏
「ひととおりアノテーション作業を実施し、AIモデルに学習させたところ、『思ったよりも精度が悪い』となってしまった話もよく聞きますね。たとえば、外観検査をするために、該当箇所の写真画像のアノテーションを依頼し、AIモデルに学習させ、実際に動かしてみたら実用的な精度が出なかった話です。精度が出なかった理由は、アノテーションの質が悪かったのではなく、特定の状況でのデータしか用意できていなかったため起きてしまったのです。

極端な例ですが、一日中稼働させる監視カメラの映像をAIに学習させ、映像分析するAIを開発するとき、日中のデータだけだと、夜になったときに思ったような精度が出ない場合があります。アノテーション作業を外注する前に気が付いていれば良いのですが、『アノテーションも終わって学習させよう』となったフェーズで気が付くケースも少なくないのです。

この状況に陥ると、追加データを改めて収集し、アノテーション作業も実施するため、スケジュールは大幅に遅延します。さらに開発に関わる人達の工数も抑える必要もあるので、お金もよりかかります。

AI開発現場では『データ不足によって精度が出なかった』とPoC後にレポートで語られることがありますが、アノテーションされたデータの質と、このような特定のデータ不足によって起きてしまうのです。



AI導入における失敗のおよそ6割は、教師データが原因とされているほどです」

差し戻しがほぼ無いアノテーション、どうやって実現した?

以上のアノテーション状況を解消するため、FastLabelではアノテーション専用プラットフォームを提供している。このプラットフォームを活用することで、一連のアノテーション業務を大きく改善させているという。なによりも差し戻しされるデータがほとんどないほど、高品質なデータ提供を実現しているそうだ。一体どんなプラットフォームなのだろうか。

―― 鈴木氏
「アノテーションは、海外では日本国内以上に重要視されています。質の悪いデータ……つまりノイズデータが全体の12%もあると、AIの精度は10%も落ちると言われています。自動運転などで知られるテスラ社では、アノテーターの数を一気に増やしたそうです。これが意味するのは、『アルゴリズムも重要だけど、学習させるデータそのものの“質”も大事だよね。だからこそデータの質を確保するアノテーターも大量に必要だよね』ということです。

我々FastLabelでは、アノテーション代行業務を請け負っていますが、他社との大きな違いはプラットフォームを提供しており、そのプラットフォーム上でアノテーションの効率化と品質担保を進められる点です。

アノテーションされたデータの質が良いか悪いかは、クライアント様とアノテーターの認識のズレによって起きます。このズレを無くすために仕様書が存在していますが、それでも作業中には迷う部分やイレギュラーなデータもあります。都度都度確認することが求められる一方で、やはりコミュニケーションコストがかかるためスムーズにアノテーション業務が進行するとは限りません。しかし、プラットフォーム上でやり取りすることで、認識のすり合わせが非常に快適になります。

具体的には、アノテーターが迷ってしまうようなデータがあったとき、アノテーターからもクライアント様に対してコメント機能を使ってすぐさま確認できるようにしています。わかりやすく言えばある画像に対して、『この部分もクラス付けしますか?』などといった確認作業ができるのです。この機能によって、FastLabelが請けるアノテーション代行では最終的に差し戻しされることがほとんどなくなりました」

続けて鈴木氏は「レビューも効率化している」と話す。

―― 鈴木氏
「従来の納品されたデータを1枚ずつ確認し、Excelシートなどで戻すレビュー作業についても、プラットフォーム上で手軽に完結できるようにしました。サムネイル表示などで一括で表示することもできますし、誤ったクラスが付いている画像を一挙に検出してレビューも可能です。

それだけでなく、プラットフォームで提供しているため、プロジェクトごとにアノテーションの進捗状況も一目でわかるようにしました。レビュー待ち件数や差し戻し件数を明示しているだけでなく、クラス分布も表示することで『この要素のデータが足りない!』といった状況をアノテーション作業進行中にもわかるようにしています」

FastLabelのアノテーションプラットフォームは開発者の要望に沿って開発が進められたという。

―― 鈴木氏
「アノテーションプラットフォームを提供することは、当初から構想に入っていたことですが、細かな各機能はお客様からのフィードバックに応えながらブラッシュアップしています。

AI開発におけるアノテーションは非常に重要であるものの、なかなかスムーズに進むことは多くありません。そのため、アノテーションを外注することによって発生する負荷をいかに下げるかに重点を置いてサービスの提供をはじめました。

それこそですが、外注したものの、大量のデータに対するレビュー作業はとても大変です。ですがプラットフォームで確認できるようにしたところ、FastLabelのプラットフォームを活用いただいた企業からは『レビュー作業にかけていた時間が半分程度で済んだ』といった声もいただくようになりました」

「アノテーションを外注して一度でも後悔した経験がある方にこそ使ってほしい」

FastLabelのサービスは、アノテーションを外注して一度でも後悔した経験がある方にこそ使ってほしいと鈴木氏は言う。

―― 鈴木氏
「アノテーション代行では、オフショアなどを利用することでとてつもなく安価に請け負う企業も少なくありません。ただ、安さだけに目を奪われてしまうと、返って現場が苦労する話も後を絶たないのが現実です。それこそ、最近では高度なAI開発が求められることも増えたため、より一層アノテーションは重要視されます。

アノテーションを外注したことで少しでも後悔した経験がある方には、ぜひともFastLabelのサービスを体験してほしいです。おそらく『アノテーションがこれだけ快適に進むのか』と気づいていただける部分があるはずです」

続けて鈴木氏は「アウトソーシングしづらそうなデータも対応できることがFastLabelです」と紹介してくれた。

―― 鈴木氏
「アノテーションにおいてもドメイン知識を求められることが増えました。医療や製造業などでは、知識だけでなくその業種/業界に携わっている方ではないと判別がつかないようなデータも存在しています。『アノテーション代行をお願いしたいのに、このデータは現場の人ではないと判断つかない……』と二の足を踏んでいる場合でも、コメント機能などでスピーディに確認作業を進められるプラットフォームであれば、難なく対応できると考えています」

現在、FastLabelでは、新規ユーザー限定でアノテーション代金を最大10万円割引するキャンペーンを実施している。実施期間は2021年11月末まで。先にも紹介したとおり、プラットフォームでのアノテーションを実施するFastLabelはAI業界では注目を集めている企業だ。その企業のサービスを無料で使えるキャンペーンなので、この記事を読んでいる最中に「ちょうどアノテーションの外注先を探していた」という方がいれば、FastLabelを候補に加えてみて欲しい。キャンペーンの詳細は以下のリンクから。