Googleが「Open Images V4」データセットと「Open Images Challenge」を新たに発表

このエントリーをはてなブックマークに追加

GoogleがOpen Images Dataset V4という、190万画像のデータセットを公開しました

同社は、すでに2016年に最初のリリースとして約900万画像と6000カテゴリほどのデータセットを公開しており、今回はそのアップデートになるとのこと。

Open Images Dataset V4

このデータセットの中には、600カテゴリのラベルと1540万のバウンディングボックスが含まれています。

バウンディングボックスとは画像認識の物体検出で使われる、物体の領域を特定するために使われる矩形のことを言います。

Open Images Challenge

上記に加えてOpen Images Challengeという取り組みを発表しています。
これは2018 European Conference on Computer Vision(ECCV 2018) という画像認識の国際学会へ向けておこなわれる取り組み。参加者はkaggleという世界的に有名な機械学習コンペのプラットフォーム内で競い合います。

特徴としては以下。

  • 1220万のバウンディングボックスと500カテゴリの学習用の画像データ
  • 従来のデータセットではあまり見られなかった幅広く細かいカテゴリ(中折れ帽子や雪だるまなど)
  • メインの物体検出だけでなく、物体間の相互関係までに及ぶタスク(ギターを引く女性など)

機械学習で物体検出をおこなう際は、大量の画像を収集し、なおかつ画像のどこに何があるか、ラベルづけ(アノテーションと呼ばれる作業)をする必要があります。Googleがこのようなデータセットを公開してくれるのは大いにありがたいですね。

Open Images Challengeのような取り組みにも、今後とも注目していきます。