データサイエンスの知識は最低限でもいいから持っておくべき理由

このエントリーをはてなブックマークに追加

データサイエンスはもちろん、データ活用に取り組む人にとって、ドコモ・インサイトマーケティング、滋賀大学、日本HPの産学連携による、「モバイル空間統計」を用いた災害対策の研究は知っておくべき内容だ。その理由は、データサイエンスにおける視座が備わっているからである。



モバイル空間統計とは、ドコモ・インサイトマーケティングが持つ人口統計のビッグデータのこと。NTTドコモが運用している携帯電話がつながる仕組みを利用し、基地局と通信したときの位置情報を推定した結果を用いて、どこにどれくらいの人がいるかを推計するものだ。このデータを日本国内初となるデータサイエンス学部を擁する滋賀大学が活用することで、ビッグデータにさらなる価値をもたらしている。そして、この研究には日本HPのワークステーションがカギを握っている。

この産学連携に関わるドコモ・インサイトマーケティング、滋賀大学、日本HPにそれぞれ登壇いただき、レッジはウェブセミナーを開催した。本稿では、データサイエンスとの向き合い方などを中心に、ウェブセミナーの模様をレポートする。


新規CTA

本ウェブセミナーはアーカイブ配信も実施しているので、本ウェブセミナーを視聴していない方は、ぜひともアーカイブ配信をチェックしてほしい。

登壇者紹介

滋賀大学経済学部・教授
田中 勝也

オレゴン州立大学Ph.D. 専門は環境経済学/空間計量経済学。滋賀大学では経済学部・データサイエンス学部の両方で講義とゼミを開講。持続可能な地域社会の実現に不可欠な3条件(地域活性化・生態系保全・災害リスク軽減)について、モバイル空間統計などのビッグデータ解析による政策研究に産学連携体制で取り組む。関連論文・国際共同研究多数。

株式会社ドコモ・インサイトマーケティング エリアマーケティング部
田村 隆太郎

2014年にNTTドコモに入社後、R&Dセンターにてトラヒックデータ分析及び統合分析基盤の構築/運用業務に従事。2017年よりインテージとドコモの合弁会社である、ドコモ・インサイトマーケティングに出向中。データアナリストとしてモバイル空間統計を主とした位置情報サービスの分析/開発を担当し、アカデミック/公共/民間の様々な分野でのデータ活用を進めている。

株式会社日本HP ビジネスデベロップメントマネージャー
新井 信勝

HP入社以来、世界各国のHPの事業部の優れた製品を日本市場のニーズに沿った形でのビジネス促進のためのマーケティング業務を担当。
現在は、データサイエンス、AI、医療、組み込みなど新規市場開発を担当。

新型コロナ拡大防止にも使われるモバイル空間統計

モバイル空間統計とは、先述したとおり、NTTドコモの基地局への通信をもとに、場所ごとに人口がどれだけいるのかを推計する統計データだ。ウェブセミナーに登壇したドコモ・インサイトマーケティングの田村氏は「モバイル空間統計の特徴は、NTTドコモの基地局を利用しているため、日本全国を24時間365日カバーしていること。そして数千万人という潤沢なサンプルで、リアルタイム(正確には準リアルタイム)で統計データを提供できることです」と話す。

これまで人口分布統計の提供は、調査対象日の1~1.5ヵ月程度の時間を必要としていたが、リアルタイムのデータは最速で1時間後程度で提供できるそうだ。このリアルタイムによる提供によって、「いまでは投資情報やエリア価値評価、AIによる商圏分析、衛星データプラットフォームなど、他社サービスとの連携も進んでいる」と田村氏はいう。

また、新型コロウイルス感染症の拡大防止に向けて、全国のリアルタイムデータを一般公開していたり、NII 水野研究室にデータを提供して地域別の自粛率や外出率が感染抑制に寄与するのかについても分析しているそうだ。

このような取り組みをするモバイル空間統計は、滋賀大学と組んだことで「災害対策」などに活用されようとしている。滋賀大学の田中先生は「産学連携の狙いは、モバイル空間統計の可能性を追及することです。現在は地域活性化や防災や減災、環境保全といった取り組みを進めていますが、これらのトピックも含めて今後は人の移動や集積について解明し、現実の課題に対応させていきます」と語る。

空間統計における“空間データサイエンス”の難しさは研究蓄積の制約だと田中先生は話す。これは、データサイエンスのなかでも発展上の分野であることと、計算能力の制約があるためだそうだ。同氏は「メッシュ間の相互作用を考慮したモデル推定は計算不可が大きい。それこそ、メッシュの数が増えれば増えるほど、一般的なモバイルワークステーションでは計算時間が膨大になる」という。

この計算処理の問題を解決したのが日本HPのワークステーションだったそうだ。

計算時間を短縮したぶん試行錯誤の回数を増やせた

田中先生は以前、手元のパソコンで空間データサイエンスに取り組んでいたそうだ。なんでも、お世辞にも計算処理環境が満足なものではなかった、と話した。

そんなとき、GISコミュニティのフォーラムで田中先生は日本HPと出会う。当時のことを日本HPの新井氏は「(田中先生たちは地図を扱う研究を進めているため)もともと大判プリンタなどの日本HPの製品を使ってもらっていました。ただ、空間データサイエンスの話を聞くと、『先生、さすがにそのスペックでは計算処理は無理です……』となったんです(笑)」と話した。

この会話から、日本HPのマシンを滋賀大学で使ってみませんかと提案になり、田中先生はモバイルワークステーションの活用をはじめた。すると、「計算時間を大幅に短縮できたんですよ。さらに、計算時間を短くできたぶん、試行錯誤をする回数自体を増やせました」と驚いたそうだ。

滋賀大学での田中先生の研究には、日本HPのワークステーションは必需品といっても過言ではないほど貢献しているという。昨今のリモート環境での研究においても、HPのワークステーションに備わっている『HP ZCentral Remote Boost』の機能を使うことで、学外にいても研究室と同一の操作感を得られているとのこと。くわえて田中先生は「遅延や画質の劣化が一切ないことも良い」と話す。

最低限でもデータサイエンスの知識を蓄えるべき理由

本ウェブセミナーでは、登壇した3人のディスカッション中に寄せられた質問に回答するシーンがあった。なかでも取り上げたいのは「データサイエンティストのような、SQLやデータ加工の技術を身に着けるよりも、必要に応じて技術者に話を聞ける環境を作ったほうがいいか」という内容だ。投稿者自身はデータサイエンティストではないものの、これから専門スキルを身に着けるべきか否かで迷っていると思われる。これに対し、3人の意見は以下となっている。

―― 田村氏
「データを扱う担当であれば、SQLやPythonで簡単にデータを使い、抽出できるようになっていたほうが、どのようなアウトプットができるのかの想像力が身につきます。つまりは、そのデータがマーケティングのどの部分で使えるのか、などがわかるようになります。ですので多少なりともデータサイエンスに関する内容は理解しておくべきだと思います」
―― 田中先生
「田村さんの意見に全面的に賛成です。全部が全部、専門家になるほど知識を身に着ける必要はありません。ただ、どの技術に関しても、ある程度触れるようになっていれば、『どのようにお願いして』『どのようなアウトプットに期待できるのか』をイメージしやすくなると思います。

まったく触っていない状態だと、それは『妄想』になっていまいます。そうなると、丸投げになってしまうのです。妄想で丸投げをすると、どんな成果物が出てくるのかもわからず、関わる人全員が不幸になるかもしれません。ですので、ミニマムで構わないので、知識やスキルを備えることが重要です」

―― 新井氏
「私も同意見で、餅は餅屋と言いますか、いろんな知識を覚えておくことは、さまざまな領域に役立つと思います。それこそ、産学連携の取り組みでは、自分の知らない分野や領域の話も多いぶん、新しい視点や発見が広がっていきます。こうして自分自身の幅も広げることにつながるのではないでしょうか」

また同じく寄せられた質問で、「データサイエンスに必要な目線や考え方は?」と投げかけられた。

―― 田村氏
「私の経験に基づく話でもあるのですが、『現場の人たちが自社データをどのように扱っているのか』『なぜ扱うのか』『その業務にどんな意味があるのか』を知ることや伝えることが企業におけるデータサイエンスでは重要だと思っています。

いま、データ活用などに取り組む企業は増えていますが、いきなり全社的にデータを使おうとなると上手くいかない可能性もあります。なので、まずは理解のある人を巻き込んで、データサイエンスによる成功事例を作り、徐々に大きくしていくようなプランを練ることが良いのではないでしょうか」

―― 田中先生
「たとえば、人の行動や売り上げなどを分析して活用しようと思っているのであれば、エンジニアやプログラマーなど技術者としての知識だけでは難しい場面もあるはずです。それこそ、人の行動や売り上げ予測においては、経済に関する視点では豊富にあります。

人の消費や行動など、その背景にあるメカニズムについて知ることも今後のデータサイエンスという観点では重要視されると思っています。

最近の行動経済学では『人は必ずしも効用(≒満足感)が最大になるものを選ばない』と言われています。こういったことも含めて、データを使ってモデルや予測をするには、最新の社会経済に関する知見も得ておくべきです。もちろんですが、専門書を読み込んで完璧に理解する必要はありません。書店に売っている手ごろな本を読むだけでも十分です。大事なのはミニマムでもいいのでさまざまな視点を持つことです」

―― 新井氏
「ワークステーションなどのハードウェアやそれにともなうソリューションは日進月歩です。計算処理をどれだけ短くし、データサイエンスを効率化するためには、試行錯誤するための考える時間を増やせる環境を作れるかも重要でしょう」

「データ分析を推進したい」まず何からすればいい?

本ウェブセミナーでは視聴者から寄せられた質問に対し、登壇した方々が回答している。すでにディスカッションの一部で回答したものもあるが、時間の都合で答えきれなかったものもあった。そこで、本稿の制作にあたって、登壇した方々に改めて寄せられた質問に回答してもらった。

Q.1

組織としてデータ分析を推進していくために、現場にデータサイエンスでできることを理解してもらった上でデータ活用アイデアを募るべきか、各現場で困っていることをヒアリングしデータサイエンティストがデータ分析により解決できるか判断するべきか、どちらが良いとお考えでしょうか?
前者は現場への教育コスト(大人数だが最低限の知識でよい)、後者はデータサイエンティストの教育コストor採用コスト(少人数だが高度な知識が必要)が発生すると考えており、そのあたりも踏まえた上で、どうしていくのが良いか、難しい問題ではありますがご意見を賜われたら幸いです。

―― 田中先生
「組織サイズ、現場のスケール、求められる分析レベルによるとは思いますが、データサイエンティストに求められるスキルが高度化している現状を考えますと、一般的には後者かなと思います」
―― 田村氏
「まずは後者の進め方で現場の課題を重視して、データ活用を推進するというのが事業として現実的だと思います。データに基づいた判断を行う上で、最初のステップを不慣れな現場からスタートすると理解が得にくいというのが個人的な経験です。データを扱える人が現場の声を聴きながら一緒に課題解決を進めていき、それに伴う結果が出て水平展開されていき、現場に広くデータ活用する文化が広がっていくことが大切だと思っています」

Q.2

他社のGPSスマホデータとは異なり非常に高いサンプル率をもつモバイル空間統計は、価格が下がれば世の中の課題を解決する事例が爆発的に増えると感じています。価格面のハードルを下げた商品や提供形態のサービスやその計画があれば、今後の展望を含めて教えていただきたいです。

―― 田村氏
「人口分布統計ではお客様のニーズに合わせたカスタマイズ分析以外に、標準版というサービスがあります。定型的なデータ形式でしか提供できないという制約はありますが、数十万円帯の比較的廉価な価格で販売可能です。
また最近「モバイル空間統計 人口マップ」というサービスを展開しており、このサービス自体は無償ですが、有償で他社様との連携も進めさせていただいています。まずは少額のPOCという形でデータの提供も可能ですので、ぜひご相談ください」

Q.3


3社それぞれの視点で、産学連携の協働を決められたきっかけや決め手などはありましたか?

―― 田中先生
「それぞれのニーズが合致することは勿論ですが、人的な相性の重要性も否定できません。この点で、今回の産学連携では非常に良いご縁に恵まれたと感じています。ただし人的要素に依存してしまいますと、人事異動などで担当者が入れ替わった際に連携にほころびが出てしまうかもしれません。その意味で、最初は人と人のピンポイントで連携を模索しながらも、連携が始まったらできるだけ多くの人を連携の枠組みに関わらせ、点から面へと連携の裾野を広げていくことが大事だと思います」
―― 田村氏
「田中先生とは今回の取り組み以前にデータを扱っていただいたのが最初のご縁でした。その中でモバイル空間統計についての詳細なご理解や、我々のデータを扱った積極的な研究をしていただけたことが今回の連携でも決め手となっています。

また滋賀大学様が積極的な産学連携を進めていることがきっかけとなり、今回の日本HP様との連携にも繋がりました」

―― 新井氏
「滋賀大学様は、以前から、GIS関連でワークステーションと大判プリンタを研究に活用いただいている中で、ZCentral Remote Boost の活用や大判プリンタの効果的な使い方などの事例化にご協力いただいております。HPは、最新の製品やソリューションの情報をお届けし、製品をご活用いただいています。滋賀大学様からは、製品提案の参考となるフィードバックとその発表などにご協力もいただいております。滋賀大学様のデータサイエンス学科は、様々なデータを持つ企業や自治体との産学連携を積極的に進めていらっしゃいますので、今回はドコモ・インサイトマーケティング様との連携もご紹介いただき、協調させていただくことになりました」

Q.4


データサイエンティストとして、自らSQLやデータ加工の技術を身に付けるよりも、必要に応じて技術者に相談できる環境を作れるよう心がけることが重要なのでしょうか?

―― 田中先生
「そう思いますが、必要なスキルに関する最低限の知識は身につけておくことが、技術者との意思疎通と共同作業を円滑化する上で重要だと思います」
―― 田村氏
「SQLやPythonの知識を多少なりとも身に着け、これらを扱った分析で『何ができるか/何ができないか』をある程度知っておくことは重要だと思います。相談を受ける技術者側もそのポイントを押さえておいてもらえると、お互いにアウトプットが見えている状態で意思疎通が図れます」
―― 新井氏
「データサイエンティストの手法や技術を身に着けていただくことが重要ですが、効率を上げるためには、技術者のアドバイスをうけられればメリットがあります。そのような機会がない場合は、Web上の情報や、Kaggleなどのデータサイエンティストのオンラインコミュニティなどで発信されている情報も役立ちます」

Q.5


モバイル統計情報には、カバーしている地域性、期間性のような制約条件が、明確されているのでしょうか?若しくは、通年的にジェネリックに統計情報を扱われているのでしょうか? また、オープンデータとしてモバイル統計情報を扱われているのでしょうか?

―― 田村氏
「モバイル空間統計のカバー性/地域性についての制約はなく、日本全国365日24時間で人口統計データを保持しています。

またTellusというオープンデータプラットフォームにモバイル空間統計のデータを提供しており、この中でデータを取り扱うことができます
https://www.tellusxdp.com/market/tool_detail/tellus-default/125」

本ウェブセミナーの模様はアーカイブで視聴可能

今回のウェブセミナーの模様は、アーカイブとして配信中だ。

下記のフォームに必要事項を記載すれば、動画視聴のURLが送付され視聴できるようになる。

まだ視聴していない方はぜひとも必要事項を記入のうえ、アーカイブ配信を見てほしい。


新規CTA