ZOZO、ファッション流行の大規模データセットGitHub上に無償公開、アイテム数は1500万件以上

このエントリーをはてなブックマークに追加

株式会社ZOZOテクノロジーズは、研究開発組織「ZOZO研究所」において、研究員が研究に使用している大規模データセット「Shift15M」および実装基盤をGitHub上にオープンソースとして公開した。データセットの概要説明は該当ページまで。

「Shift15M」は、ファッションアプリ「IQON」(※1)に投稿されたコーディネート(※2)をもとに構成した大規模データセット。IQONのサービス提供期間である2010年〜2020年までに投稿されたコーディネート255万件以上のほか、これらのコーディネートを構成する1500万件以上(※3)のアイテムに関する特徴量、アイテムカテゴリに関するデータやコーディネート投稿への「いいね」数などの関連データも含む。

(※1)「IQON」は提携する200以上のECサイトのファッションアイテムを、ユーザーが自由に組み合わせてコーディネートを作成できるスマホアプリ。2020年4月にサービスを終了している。

(※2)公開するデータは商品やユーザーの特定が不可能なように十分に匿名化しており、利用規約とプライバシーに配慮しているという。

(※3)データに収録されるアイテム数の詳細は以下のとおり。

  • コーディネートの数:255万5147
  • コーディネートを構成するアイテム数(重複あり):1521万8721
  • コーディネートを構成するアイテム数(重複なし):233万5598

あわせて公開する実装基盤では、コーディネートデータの年ごとに異なる傾向を認識し、その変化によって生じるデータ分布のシフトを再現実験で確認できる。年々変化するファッションの流行をより正確にとらえ、研究のさらなる発展に役立てられるという。また、回帰問題、分類問題、集合マッチングなど、データ分布のシフトが生じる条件のもとで、さまざまなタスクを検証するためのコードを整備した。

ファッションに限らず、幅広い分野での活用が可能

ZOZO研究所では「ファッションを数値化する」をミッションとして掲げ、ZOZOグループが保有するデータ資産をもとに研究開発に取り組んでいる。そのなかの1つの目的として、ファッションの流行が変化しても、継続的に認識精度を高く保てるAI技術の実現を目指しているという。

ファッションに関連するデータは、流行の変化による影響を受け、分布シフトと呼ばれる数理的現象が生じると考えられる。分布シフトは流行や時間などの変化にともない入力データの分布が変化することで生じ、ファッションに限らず、多くの分野に共通して現れる現象とされる。近年、分布シフトによって、AIの認識精度が低下することで注目を集めている。

分布シフトの検証は、AI技術の実用性にかかわる重要なテーマである一方で、検証に用いる実用的なデータセットの不足により、学術界における当該分野の研究の進展はこれまで制限されてきた。ZOZO研究所はこのような状況を受け、分布シフト研究の発展を支える新たな研究基盤として、同社が保有する実データで構成した大規模データセット「Shift15M」と実装基盤を公開することを決定したという。

本データセットと実装基盤はファッションに限らず、幅広い分野での活用が可能。分布シフトの再現実験と典型的なタスクにおける効果検証や比較検証など、目的にあわせて使用できる。

なお、本データセットを使用した研究結果をまとめた研究論文「SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional Shifts」はarXivで公開している。

本データセットは、同社が2020年公開した「Open Bandit Dataset」に続くオープンデータプロジェクトの第2弾。本データセットを公開することで、データの分布シフトが起こることで生じる新たな課題を見いだし、解決策を探るための研究開発を促進する一助となることを目指すという。

【データセットの詳細】

  • (1)アイテムの特徴量
  • (2)コーディネートに含まれるアイテムの情報
  • (3)アイテムやコーディネートの付加情報
  •   (3.1)投稿日時
  •   (3.2)「いいね」の数
  •   (3.3)ジャンル・カテゴリ
  •   (3.4)統計情報
  •   (3.5)人間が付与したラベル(学習のための教師信号など)

>>ニュースリリース