AI(人工知能)の学習には、大量の教師データが必要不可欠です。その教師データを作り出す作業を「アノテーション」と言います。
本稿では、人工知能の根幹的な技術の1つであるアノテーションについて、定義や、役割、サービスなどについて、実際の活用事例とともにご紹介します。
アノテーションとは?
画像出典:pixabay
アノテーションとは、あるデータに対して関連する情報(メタデータ)を注釈として付与することです。転じて、AI業界では、機械学習のモデルに学習させるための教師データ(正解データ、ラベル)を作成することを指します。本稿では、後者について解説します。
以下の図は、AI(人工知能)開発の流れを図式化したものです。
アノテーションは、AI開発における前半部分で非常に重要な役割を果たします。
画像出典:ledge編集部作成
アノテーションの役割
画像出典:Pixhere
アノテーションの役割は、「画像などのデータに意味付け・紐づけを行い、互いに組み合わせること」です。
AIの根幹を担うアルゴリズムである「機械学習」の代表的学習法に「教師あり学習」があります。
教師あり学習とは、学習データとして入力とその正しい出力が与えられ、ある入力を受けると正しい出力ができるよう学習させるアルゴリズムです。
この学習データ(正解データ)を作り出す作業を、アノテーションが担います。
たとえば、通常のメールと迷惑メールを振り分ける際、メールが迷惑メールなのかそうでないのか、正しいラベルを取り付けていく作業がアノテーションです。
画像出典:ledge編集部作成
アノテーションの種類
画像出典:Pixhere
アノテーションには、用途に合わせ種類や作業が異なります。今回はそのなかでも主要である「画像」「テキスト」「音声」の3つをご紹介します。
画像
画像のアノテーションには、「物体検出(Object Detection)」「領域抽出(Image Semantic Segmentation)」「画像分類 (Image Classification)」の3種類の手法が存在します。
画像認識のAIモデルを作成する際の、アノテーションの流れを見ていきましょう。
- 物体検出 (Object Detection)
まず、画像に写っているものに対して、「人」「電車」など、物体を検出し、そこに意味を示すタグをつけていきます。
- 領域抽出 (Image Semantic Segmentation)
次に、画像のなかで特定の領域を抽出し、「この領域=猫」のように、その部分が示す意味をタグ付けします。
- 画像分類 (Image Classification)
最後に、画像に対して、「これは猫か犬か」「どういう色か」「どういう模様か」などの属性をタグ付けし、分類できるようにします。
このように、教師付きデータを作成しモデルを学習させることで、効率的に画像の抽出や分類、検索ができるようになります。
また、用途によって異なりますが、高精度のAIモデルを作成するには、約1~10万件といった膨大なデータが必要となります。
テキスト
テキストデータのアノテーションは、フリーテキストで書かれた文書に、前もって定義されたカテゴリを割り当てる作業を示します。
たとえば、顧客データを整備・分析する場合、複数のシステムに分散する大量のデータから、顧客になりそうなデータのみを抽出したり、事前に決めた分類項目に従ってタグ付けをすることで、集計や分析を容易にします。
ほかにも、SNSの投稿から情報を分類したり、不適切なコンテンツを摘出する場面でも利用されています。
音声
音声のアノテーションでは、大量の音声データを正しく書き起こしてテキスト化したり、テキスト化されたデータが正しいかを確認する作業を行います。
たとえば、コールセンターでの以下のようなやりとりがあるとします。
カ=カスタマー
オ:お電話ありがとうございます。
カ:えー御社のテレビを使っています。
それで、 あのー録画しようとしたんですが、あの、ボタンを押しても、うまくいかないんです。
オ:ええ、なるほど。えー、ご使用されているリモコンのメーカーと種類を教えていただけますか?
このような文章を聞き取るために、「テレビ」や「メーカー」などの名詞の意味や「えー」「それで」「あの」といった感動詞など、単語1つ1つの意味をタグ付けしていく作業が音声のアノテーションです。
アノテーションの具体的事例
アノテーションはいかにビジネスに導入されているのでしょうか。
靴の画像を用いた例をご紹介します。
たとえば、この画像分類で付与できるデータとしては
- 商品名・型番
- 靴の色
- 靴のブランド
- 靴の種類
- 靴の用途
などが挙げられます。
これらを購買情報や靴の利用データと組み合わせることで、
- 買った人の属性
- よく併売されているもの
- 買った人が過去に買っているもの
- どこに履いて行ったのか
- 晴れの日 / 雨の日が多いのか
- よく着合わされている靴下 / ズボンは何か
などのデータも付加することができます。
このように、さまざまなデータをオープンデータとしてタグ付けし、組み合わせることで、新しい価値を生み出すことができます。
アノテーションのサービス
ここでは、アノテーションを行うことができるサービスをいくつかご紹介します。
Lionbridge AI
ライオンブリッジジャパン株式会社が提供する「Lionbridge AI」は、AI学習データ周りのサービスを提供してきたノウハウと、100万人の認定コントリビューターを擁し、大量の学習データ(教師データ)を素早く、正確にアノテーションします。また、自社開発のプラットフォームは、固有表現抽出、感情タグ、画像のバウンディングボックスなど、さまざまなアノテーションやデータタイプに対応可能です。
Annoteq (アノテック)
株式会社ユニメディアが提供する「ANNOTEQ(アノテック)」とは、Deep Learningモデルの構築に必要な学習データセットの構築を支援する、日本で唯一のマイクロタスク型クラウドソーシング連動アノテーションサービスです。
クラウドソーシングプラットフォームは実働100万人以上を誇り、アウトソーシング(BPO)事業者としての品質管理ノウハウ、AIサービス提供事業者としてのAI構築ノウハウを強みとする、高品質アノテーション代行サービスです。
Global Walkers
グローバルウォーカーズ株式会社は、深層学習・機械学習・画像処理技術を活用した開発から、アノテーション、HITL型のAIプラットフォームを用いた学習データの運用まで、ワンストップで提供します。
AIシステムの強化のために必要となるデータ収集から高品質な教師データ作成まで、AIシステム開発に必要なデータセット構築を迅速に一括してサポートするサービスを提供しています。
三栄ハイテックスベトナム
三栄ハイテックス株式会社]は、日本拠点を窓口とし、ベトナムの研究開発チーム(SANEI HYTECHS VIETNAM Co., Ltd)との連携により、高品質・低コスト・スピーディーなアノテーションサービスを提供しています。
正解データの性質や作業内容に応じた独自開発のアノテーションツールを所有しており、短期間での大量データの効率的な作成を実現します。
HBLAB
株式会社HBLABは、ベトナムのアノテーション専用チーム人工知能用のデータ作成を支援するサービスを行なっています。
自動運転や農業AI、OCRなどさまざまな技術に用いられており、小ロット・低予算(数万円程度)から開始が可能です。
アノテーションの課題と今後
アノテーションは、今まで使い道のなかったデータに価値を与える行為であり、現代のビッグデータ時代のなかで、非常に重要な役割を果たします。
一見、アノテーションは単純な「作業」に見えますが、実際には、現実世界を相手にしているため多数の例外が存在し、複雑な技術力が必要な「データを作る」作業です。
現実世界には、いまだデータ化されていない情報があふれています。データ化されていないありふれた情報を、どのように精度を高くデータ化(アノテーション)し、ビジネスに導入していくか、が今後の課題ではないでしょうか。