データサイエンス(Data Science)とは | 注目される背景や未来、AIとの融合について

このエントリーをはてなブックマークに追加

近年の技術発展に伴い、膨大な量の情報を作成し収納できるようになってから、かつてないスピードでデータの量が増大しています。この大量のデータを活用することで、世界中の企業や社会に革新的なメリットがもたらされるでしょう。そんな中、データを扱うデータサイエンスという学問は今、多大なる注目を浴びています。本稿ではそんなデータサイエンスという学問を紐解いていきます。

データサイエンスとは?

photo by pixabay

データサイエンスとは、多数の分野にまたがる学問であり、科学的な方法やプロセスに基づき、アルゴリズム、システムを使用して、データから価値を抽出するものです。

近年のデータサイエンスではビッグデータと呼ばれる大規模かつ複雑なデータを扱うケースが増えています。多くの企業がこのようなデータの応用に目をつけ、自社のデータサイエンス部門に重点的な投資を行っている状況です。
では、データサイエンスはいつどのようにして誕生したのでしょうか。

データサイエンスという学問はまだまだ新しい学術分野ですが、実は用語としては昔から存在しており、デンマークのコンピューター科学者ピーター・ナウアが1974年にはすでに自著『Concise Survey of Computer Methods』の中で使っていたことが知られています。“Data Science”の語源は、数値化されたデータから新しい知識を発見しようという試みの “Data Mining”と、情報の動きをコンピュータを活用して表現する “Computer Science”の2つを掛け合わせて派生したと言われています。

実際にデータサイエンスを職務として扱う、「データサイエンティスト」という肩書きが一般に広く認知され始めたのは2010年代からです。現在データサイエンスの学位を授与する大学は多くなりつつあるものの、データサイエンティストの数は常に不足している状況と言われています。

データサイエンスが注目されている背景

photo by pixabay

ではなぜデータサイエンスはこれほどまでに注目されているのでしょうか。
その理由は主に2つあります。

理由の1つ目は、
2018年時点で世界に実在するデータの90%以上は過去2年間に生成されていると推定されていると言います。私たちの目の前で今、「情報爆発」が起きているのです。
2つ目は、
ビッグデータ(従来のデータベース管理システムなどでは記録や保管、解析が難しいような膨大なデータ群)を用いたデータサイエンスが、ビジネスなど多様多種な業種に変革をもたらすと言われているからです。

この2つ理由の根拠となる調査結果があります。
アメリカのカリフォルニア大学が行った調査によると、現在のFacebookでは、1時間あたりに約1,000万枚の写真をアップロードされていると言われています。加えて、世界に存在するオンラインデバイス、すなわちIoT (インターネット・オブ・シングズ)で使われているデバイスの数は、2025年までに750億台を超えると予想されています。

膨大なデータが至る所に偏在し、誰でもアクセスできる時代に突入した今、データ分析/活用は世界中の企業や社会に革新的なメリットをもたらす可能性があります。このメリットを享受するためには、テクノロジーによって格納される大量のデータを解釈する必要があります。そこで必要となるのが、データサイエンスなのです。

大手外資系コンサルティング会社、マッキンゼーも自社のホームページで、データ・アナリティクスがビジネスブレイクスルーを創出すると述べています。
最近ではデータサイエンスに特化した人材を集めたチーム、デジタル・マッキンゼー (Digital McKinsey)を結成しています。

データサイエンスを駆使するデータサイエンティスト

photo by pixabay

データサイエンスを職務として扱うデータサイエンティストは、今注目されている仕事の一つです。データ分析・解析を行うデータサイエンティストは企業の競争力を左右する重要な役割を担うことになり、需要が高まりつつあります。

データサイエンティストの仕事内容

データサイエンティストの仕事内容は簡潔にいうと「データを分析し、ビジネスに活用すること」です。その仕事内容は以下の4つに大きく分けられます。

1.問題定義
ビジネス上の課題に対してデータ分析で解決したい事柄を設定

2.データ収集・整理
課題解決に必要となるデータを収集し、保管する環境を整備

3.データ分析
分析手法に沿って、収集したデータを分析し、ビジネス上の課題解決につながるような知見をあぶり出す

4.課題解決・提言
データを分析して得られた知見をビジネス上の課題解決に結び付け、レポートを作成して報告

たとえば、AI開発に携わるデータサイエンティストであれば、AIシステムを構築・運用する際に、学習データの質を理解して適切に教え込む業務をこなします。膨大な情報・統計からバリューを見出し、AIにどのような「データ」を与えるかで出力される結果も変わっていきます。

データサイエンティストはプログラミングやデータベース、データ分析手法など技術的なスキルに加えて、ビジネス力、コミュニケーション能力などのソフトスキルの双方を兼ね備える必要があります。詳しくは以下の記事を参照してください。

データサイエンティストにおすすめの資格一覧

データサイエンティストのスキルを習得するためのアクションとして、まずはこちらの資格獲得を通じ、データサイエンスの知識を身につける所から始めてみるのもいいでしょう。

・ITスキルを幅広く身につけたい人には:情報処理技術者試験(外部リンク)

・データベースの設計/管理を行ないたい人には:
データベーススペシャリスト試験(外部リンク)

・データベースの基本を身につけたい人には:
OSS-DB技術者認定試験(外部リンク)

・統計を学びたい人には:統計検定(外部リンク)

・人工知能(機械学習、ディープラーニング)について学びたい人には:
G検定・E資格(外部リンク)

・Pythonを学びたい人におすすめ:Python試験(外部リンク)

データサイエンスが用いられる業種・分野

photo by pixabay

データサイエンスは一体どのような業種、分野に活用されているのでしょうか。

実はデータサイエンスは業種の隔たりを超えて、ビジネス、都市設計や交通、行動科学、社会学、医療など、さまざまな分野で役立てられています。

データサイエンスの活用事例:医療

出典:“ビッグデータ”でコロナと闘う

世界各国で感染拡大が止まらない新型コロナウイルス(COVID-19)の新たな感染者を防ぐための手段として、医療×データサイエンスのアプローチが注目されています。

2020年3月31日から始まった厚生労働省の新型コロナウイルス対策のための全国健康調査には見覚えがある人も多いと思います。調査では全国で8,300万人が利用する通信アプリ「LINE」のユーザーに直接呼びかけ、今の健康状態などを聞き取っていました。一回の調査で寄せられた回答は約2,500万人分に上り、国民のおよそ5人に1人が回答したアンケートの結果から感染リスクに関する重要なデータが明らかになったそうです。

回答者のうち、37度5分以上の発熱が4日以上続いていると答えた約2万7,000人を職業別のグループで分類したところ、飲食店や外回りの営業など、長時間にわたって人との接触や密集を避けるのが難しい職業のグループでの感染者が多いことが判明したといいます。この分析結果から、日頃の行動で「社会的な距離を保つ」、「密閉・密集・密接の3密を避ける」ことが新型コロナウイルスの感染リスクを下げるために重要であることが、データにより裏付けられることとなりました。

このビッグデータを利用した調査や健康サポートのシステムを作り上げた慶應義塾大学医学部の宮田裕章教授は、「感染拡大の収束がまだ見えない中、データを活用することの重要性は今後さらに高まっていく」とクローズアップ現代+で話しています。

データサイエンスの活用事例:小売業

photo by unsplash

アマゾンもデータサイエンスを応用し、顧客や消費者の自発的行動に加えて、企業がITなどを利用した仕組みによって自動収集するさまざまな切り口のデータ(インタラクションデータ)を分析しています。
その1つが、Webのクリックストリームデータです。

アマゾンでは、単に「どの本が売れたか」(トランザクションデータ)というデータだけでなく、「ユーザーが過去にどういう本を買ったのか」、あるいは「今回どういう本をチェックして最終的な購買に至ったのか」というインタラクションデータを全て蓄積、保存、分析することで、なぜその本が売れたのかを分かるようにしています。

アマゾンのようなネット企業は、これらのビッグデータをウェブ上で簡単に収集し分析することで売り上げを伸ばしています。
参照元:ウォルト・ディズニーも活用するビッグデータ、その4つの適用パターン–野村総合研究所 城田真琴氏

データサイエンスの活用事例:エンターテイメント

photo by pixabay

アメリカのフロリダ州にあるテーマパークのディズニーワールドもデータサイエンスを活用し、顧客満足度の向上を測っています。

ディズニーでは、MagicBandというリストバンド型ウェアラブルデバイスを開発しており、MagicBandをかざすだけでディズニーランドへの入場ができ、ディズニーリゾートホテルのルームキーにもなります。パーク内の複数の箇所にタッチポイントがあり、レストランやショップでの支払いも可能で、支払い時には事前に登録したPINコードの入力が求められるという仕組みです。

MagicBandを使うことで、入場者により高いサービスや体験を提供することが可能になると同時に、ディズニーには膨大なデータが入手できるというメリットがあります。
テーマパーク内での入場者の行動が分かれば、施設やサービスの改良に役立てられる貴重なデータになるからです。入場者がいつ、どこにいて、アトラクションをどう利用したかや購入したものが分かれば、そのデータに基づいて合理的な判断を下し、改善することができます。

このようにディズニーは、これまでは勘や経験に頼る部分が多かったものでも、データサイエンスを用いることにより戦略的に施策を考え、入場者のニーズに応えています。
参照元:あのテーマパークも。すべての産業を変えていく、IoTの利用例7選

AI×データサイエンスの融合

photo by pixabay

今最も注目されている分野は「AI×データサイエンス」の融合かもしれません。

日本以上に新型コロナウイルスの感染が広がっているイギリスでは、AI×データサイエンスを活用したサービスが急速に普及しています。

イギリスのベンチャー企業「Babylon Health(バビロン・ヘルス)」が運営するAIを使った遠隔診療サービス「AIドクター」は、利用者がスマートフォンやパソコンによるチャットで現在の体調や症状を申告することで、AIが自動で質問を投げかけて生活習慣や持病などを聞き取り、可能性のある病名を回答することができます。

医療費がほぼ無料のイギリスでは、軽い症状でも人々が病院に頼るため、受診できるまで最大2週間かかることがあります。そんな中、24時間365日、待ち時間なく利用することができるこのAIドクターが、医師に代わって最初の診断を担うことで、病院に駆けつける人を減らすことができ、今回の新型コロナウイルス対策でも医療現場を支える役割を果たしているといいます。

このAIドクターは、既にアフリカなど世界17か国でも導入がされており、日本でのサービス開始も検討されています。

このように統計的な分析やAIによる解析によって、ビッグデータにより高い価値を産み出す、「AI×データサイエンス」は今後も注目され続けるでしょう。
参照元:“ビッグデータ”でコロナと闘う

50年後のデータサイエンス

photo by pixabay

これからのデータサイエンスはどのような変貌を遂げていくのでしょうか。

アメリカのマサチューセッツ工科大学(MIT)のDavid Donoho博士は自身が2015年に執筆した論文、「50 years of Data Science」のなかで、50年後のデータサイエンスと科学の姿を予測しています。

予測1 ”Open Science takes over”(科学がオープンに)

これまでの科学研究成果は、複雑な情報や実験工程を省き、研究論文を読む読者に分かりやすいように説明されていました。そのため、論文の読者と研究を行った著者との研究の理解度には乖離がありました。したがって、実験を再度真似しようと思っても、省かれたデータやコードをーから復元することは手間がかかり難しく、研究の再現性が困難を極めていました。

しかし、今後50年間でテクノロジーの発達に伴い、省かれた膨大な量のデータやコードはコンピュータ上に保管され、誰もが昔の実験に使われたデータに容易にアクセスすることが可能となります。よって過去の研究を素早く、そして忠実に再現することも容易になるといいます。これをDavid博士は「科学がオープンになる」と主張しています。

予測2 ”Science as data”(科学がデータに)

過去の科学研究成果は紙に執筆され、提出されていました。よって次の研究者が必要な情報を手に入れるには紙に書かれた論文に目を通し、手動でデータを取り出すしかありませんでした。これには物凄い労力と時間がかかり、ミスも起こり得ます。

しかし、次の50年で科学がオープンになることで、今まで紙に記載されていた大量の情報がすべて正確にプログラム化され、コンピュータ上から抽出可能になります。まさにDavid博士曰く、「科学がデータ化」するのです。

結論、2065年には科学が完全にデータ化し、今までは考えもつかなかった膨大なデータの組み合わせによる研究や実験が容易に実現可能になると示しています。

今後もデータサイエンスは社会に変革をもたらす重要な学問になることが、現実世界で起きている事例を通して鑑みることができます。多様多種な業種・分野とデータサイエンスとの融合がこの先も注目されるに伴い、データサイエンティストという職務の需要も伸び続けることでしょう。この記事を通して少しでもデータサイエンスという学問に興味を持ち、理解を深めていただけたらなと思います。