ユーザー企業がデータサイエンティストとの協業に必要な「3つの準備」

このエントリーをはてなブックマークに追加
AI・データ活用プロジェクトを行うには、ユーザー企業と受注側のデータサイエンティストのスムーズな協業が不可欠だが、スムーズに協業できている企業は多くはない。今回は、富士通クラウドテクノロジーズのデータサイエンティストである堀 貴仁氏に、ユーザー企業とデータサイエンティストのスムーズな協業について寄稿してもらった。

弊社のデータサイエンティストは、不動産や小売など、幅広い業界のお客様からデータをお預かりし、分析を行っています。

さまざまなプロジェクトにデータサイエンティストとして参加している中で、「データ活用プロジェクトの成功させるコツはデータサイエンティストとユーザー企業が適切に役割分担し、協力することである」という気付きがありました。我々もプロフェッショナルとして、限られた時間で最善を尽くし分析を行いますが、ユーザー企業の協力の有無により、分析の質もスピードも異なってきます。

今回は、どのように協力をするとスムーズにプロジェクトを進行することができるのかをご説明したいと思います。

AIモデルを作るだけではない、データサイエンティストの仕事

Photo by Mika Baumeister on Unsplash

データサイエンティストと聞くと、一般的には、数学やコンピュータサイエンスの知識を用いてAIモデルを作るイメージが強いと思います。しかし、実際には、データと課題をポンと渡されても、データサイエンティストは良い分析は出来ません。必要な情報が足りていないことが多いのです。

そのため、時間をかけて必要なデータを集め、データを整形してからAIモデルを作りはじめる必要があります。具体的には、

  • データ生成のプロセスを理解し、目的に対して必要なデータを集める
  • 適切に分析を行うためにデータを綺麗にする

といった、泥臭い作業がプロジェクトの大半を占めてきます。モデルを作る際は、統計学や機械学習に精通している必要はありますが、それ以上に分析対象の業界やデータについての理解が重要になります。

データサイエンティストの主な仕事は“コミュニケーション”だ

Photo by Austin Distel on Unsplash

必要なデータを集めるために、データサイエンティストは黙々と数式やプログラムを書くわけではなく、ユーザー企業とのコミュニケーションを積極的に行います。必要な情報を出し合い、何度もディスカッションすることが重要になってきます。

富士通クラウドテクノロジーズで心がけているのは、いただいたデータをただお見せして説明するのではなく、ユーザー側の業界や知識に合わせ、理解しやすい形に加工・集計・可視化を行うことです。

また、お互いの専門領域を少しでも理解しておくとプロジェクトが円滑に進みます。データサイエンティストは対象データの業界の論文を読むと良いでしょうし、ユーザー企業はデータ活用プロジェクトに参加する前に統計検定4~3級程度の知識があると、データの読み方などがわかると思います。

データ活用プロジェクトでユーザー企業が“これだけは”準備すべきこと3つ

Photo by Wes Hicks on Unsplash

先述したように、データ活用プロジェクトでは、モデル作成よりデータの収集や前処理に時間がかかります。そこで、以下の3点の答えをユーザー企業に準備してもらうことで、データ収集や前処理にかける時間を短縮しています。

  1. 社内にはどのようなデータが存在するか
  2. カラムの意味や型はなにか
  3. 何故データはこのような値になっているのか

1.に関しては、プロジェクト進行中に「こんなデータが出てきた」と手戻りが発生しないよう、あらかじめ社内にどのようなデータが存在しているかを事前に確認することが重要です。データの存在を把握するとともに、そのデータの取得方法も確認しておくとさらによいでしょう。改めて社内のデータを確認すると「部署ごとにデータ管理方法がバラバラ」「現場の人だけがデータを持っている」などの課題が見つかる場合があるので、その際はデータ基盤をしっかり整えたほうがいいでしょう。

2.については、カラムに業界用語や社内用語が使われていたりする場合、データサイエンティストだけでは理解できないことがあるため、お客様から教えていただくことが多いです。これはテーブル定義書を事前に準備しておくと解決できる可能性があるので、データと一緒に準備しておくと、コミュニケーションがスムーズです。

3.は、異常値や欠損などの統計的なアプローチだけでは理由がわからないときに聞くことが多いです。たとえば欠損であれば、「単純な入力忘れ」「休日だから欠損」などの理由によって意味がまったく異なりますが、分析をする上では重要になってきます。異常値であれば、「店舗のイベント日だから値が大きい」「このセンサーは温度が高いと極端に大きい出力を出す」のような情報があると、分析結果に良い影響を与えます。

この3点を事前にある程度把握しておくことで、データサイエンティストとユーザー企業のコミュニケーションが円滑になり、プロジェクトがスムーズに進むと考えています。

プロジェクトに本腰を入れるのであれば社内育成も視野に

以前の記事で弊社のデータエンジニアである尾崎も言及していた通り、業界知識を理解している社内のメンバーで分析できるのであれば、それがベストです。

社内でチームを構成するにはデータサイエンティストの育成を行う必要がありますが、学習難易度の問題で、ディープラーニングなどの手法に手を出せていない方も多いのではないでしょうか?しかし、世の中で流行しているディープラーニングなどを覚えずとも、基礎的な統計学の勉強をするだけで、多くのビジネス課題を解決することは可能です。

おすすめは、統計検定2級で基礎的な統計学を勉強し、Accessなどを用いてデータの加工集計をしてみることです。プログラミング経験者であればPythonやR、SQLなどを用いてデータの加工・集計を行っても問題ありませんが、基本的な集計はAccessで十分なケースが多いです。

AIモデルの作成に関しても、プログラミング経験者でなくても触ることのできるAWS ForecastやGoogle AutoMLなどのツールがあるため、使って分析してみるとよいでしょう。社内でデータサイエンティストを育成するにはコストがかかるため、成長するまでは我々のような外部のデータサイエンティストに依頼するのもひとつの手です。