ビッグデータ(Big Data)とは|定義・活用・AIとの関係・普及した理由まで

このエントリーをはてなブックマークに追加

膨大な量のデータが生成され、それらに簡単にアクセスできるようになった今、「ビッグデータ」という言葉が世界的に普及しています。このビッグデータは私たちの暮らしを大きく変える可能性を秘めていることから、ビジネスの分野でも多くの注目を集めています。本稿ではビッグデータの普及の理由とその活用事例、またビッグデータが抱える問題、AIやIoTとの関係について詳しく解説します。



ビッグデータ(Big Data)とは 

ビッグデータ(Big Data)とは、従来のデータベース管理システムなどでは記録や保管、解析が難しいような膨大なデータ群のことです。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されています IT用語辞典より抜粋

一般的に、ビッグデータはVolume (量)、Velocity (速度)、Variety (種類)の3つのVにより表されます。

Volume (量)
ビッグデータの「ビッグ」はそのデータの量を表しています。ビッグデータでは、密度が低く、構造化されていないデータを大量に処理しなければなりません。データ量の単位は数十テラバイトの場合もあれば、数百ペタバイト(1ペタバイト=1024テラバイト)に及ぶことさえあります。

Velocity (速度)
速度とは、データが受け取られ、処理されるまでの高速な速度のことです。さまざまなサービスやメディア、センサーなどから得られる膨大な量のデータをほぼリアルタイムで処理する必要があります。

Variety (種類)
種類とは、利用できるデータが多様であることを指します。従来のデータは構造化されていましたが、ビッグデータの普及とともに、テキスト、音声、動画などの構造化されていない新しいデータの種類が増えています。

2000年代初頭に定義された3Vですが、最近になって新たなVが追加されました。それが、Value(価値) です。

Value (価値)
データには固有の価値があります。しかし、それもその価値が発見されなければ意味がありません。同じく重要なのが、そのデータがどのくらい信頼できるかということです。ビッグデータに価値を見出す上で重要なのは、その分析だけではなく、検出プロセス全体です。

ビッグデータはなぜ普及したのか

photo by pixabay

ビッグデータが普及した主な要因は2つあります。

要因1
SNSなどの普及で日々大量のデジタルデータが生み出されるようになりました。今私たちの目の前で、「情報爆発」が起きているのです。
要因2
膨大な量のデータを収集し、格納するフレームワークが開発されたことで、ビッグデータの扱いが容易になり、格納するコストが下がりました。
情報爆発とは
クラウド・コンピューティングの広がり、SNS(Social Networking Service)の普及、センサーネットワークやスマートフォンの普及などを背景に、デジタルデータが爆発的に増加したことを指します。

今では1億人以上のアクティブユーザを有するツイッターは、1日あたり2億5000万ものつぶやきが発生していると言われています。これを単位に変換すると、ツイッター全体1日に8テラバイトものデータが生み出されていると言えます。

また、Facebook社のシステムは、毎日25億件のコンテンツ、単位に変換すると500テラバイト以上のデータを処理していると言われています。このように情報量が爆発的に増えたことに加え、このデータを格納する受け皿も開発されたことにより、ビッグデータは企業の間でも取り扱われるようになりました。

加えてオープンデータの概念もビッグデータが普及した要因を支えています。オープンデータとは、誰でも二次利用が可能な公開されたデータのことを指します。ビッグデータを公開し、公共利用することで、新しい事業やサービスの創出、地域経済の活性化などにつながることが期待されています。

ビッグデータの活用例と分析方法

ビッグデータを用いた分析は、ビジネスなど多様多種な業種に変革をもたらすと言われています。利用できる情報が増え、従来では不可能だった複雑な分析が可能になり、新たに信頼性の高い回答を見出すことが容易になったのです。

photo by unsplash

たとえば、Googleは、利用者がウェブで検索した情報を蓄積・分析することで、その人の興味・関心に合った広告を表示させられます。蓄積する情報が多ければ多いほど明確に分析をすることができます。Googleは、1日に24ペタバイト以上のデータを処理していると言われています。これは、米国議会図書館に所蔵してある全印刷物の何千倍もの情報量に相当するデータ量です。

photo by unsplash

アマゾンでは、単に「どの本が売れたか」というデータだけでなく、「ユーザが過去にどういう本を買ったのか」、あるいは「今回どういう本をチェックして最終的な購買に至ったのか」というデータを全て蓄積、保存、分析することで、なぜその本が売れたのかを分かるようにしています。アマゾンのようなネット企業は、これらのビッグデータをウェブ上で簡単に収集し分析することで売り上げを伸ばしています。

ビッグデータを用いた分析方法

ビッグデータを用いた分析方法は主に以下の3つのステップに分けられます。

1.統合
ビッグデータは、種類の異なる多数のソースやアプリケーションからビジネス上の課題解決に必要となるデータを集めます。

2.管理
ビッグデータを保管するにはストレージが必要です。データがどんな構造であれ、それを格納する環境を整備することは重要です。

3.分析
分析手法に沿って、収集したデータを分析し、ビジネス上の課題解決につながるような知見をあぶり出します。

ビッグデータの応用例

医療

毎日大量かつ複雑な非構造化データを生成する医療業界では、ビッグデータを予防医療に役立てています。例えば、ウェアラブルデバイスなどから収集されるビッグデータを活用することで、患者の健康状態を監視し、医療機関にデータを転送できます。さらに何百、何千万人もの患者から収集したデータを使用することで、根拠に基づいた診断をすることも可能です。

観光

旅行業界は、主に顧客の観光地への興味と、その行動特徴のデータに基づいてビジネスを展開しています。例えば、口コミや顧客の検索キーワードのデータを分析することにより、提供しているサービスの需要や課題を見出すことができます。

教育

生徒学習履歴や行動履歴などのビッグデータを収集し、可視化・分析することで、学習の評価や様々な予測、成績と学習行動の関係性を明らかにすることができます。例えば、学習履歴のデータを使用し、個々の学生のためにカスタマイズされたコースとスキームを作成することで、生徒の全体的な結果を改善可能です。

小売

ビッグデータを用いた市場と顧客関心の分析により、小売業の生産性と効率化を図っています。例えば売上データを分析することで、商品の需給予測の精度を向上させ、製品の入荷に関して合理的な判断を下すことが可能になります。

農業

従来、農業は経験と勘に頼る部分が多くを占めましたが、農作業にビッグデータを活用できれば、収穫の予測や生産性向上につながります。例えば、センサーから得られた気温・日射量・雨量や農作業のデータを解析することで、生産計画から収穫・出荷までを可視化できます。



ビッグデータとIoT

photo by pixabay

近年はIoTの普及により、ビッグデータの収集は容易になっています。トヨタ自動車はビッグデータとIoTをうまく活用することで、交通事故を減らそうという狙いがあります。

これから販売されるトヨタ新型車には、障害物のない状況でも異常なアクセル操作時に加速を抑制する「急アクセル時加速抑制機能」が搭載される予定です。

この機能は、今乗られているコネクテッドカー(常時ネット接続され、最新の道路状態を取得して最適なルートを算出したり、車両にトラブルが発生した際にしかるべきところに連絡してくれたりする機能を搭載した車)から得られる、アクセルペダルの踏まれ方の特徴のビッグデータを活用することで実現しています。

IoTから得られたビッグデータにより、異常なアクセル操作状況を特定して割り出し加速抑制を行うことで、交通事故のリスクを削減するという仕組みになっています。

ビッグデータとAIの関係

photo by pixabay

統計的な分析やAIによる解析によって、ビッグデータにより高い価値を産み出す「ビッグデータ × AI」が近年注目されています。

ビッグデータとAIは互いに密接な関係を築いています。従来の技術では膨大なデータの管理や保管は難しいものがありました。しかし、AIの中でも機械学習やディープラーニングの発展により、従来不可能とされていた膨大なデータの管理や解析が可能になりました。これにより、企業が持っている大量のデータも効率よく分析し整理し、有用なデータのみを抽出できるようになりました。

さらに、機械学習やディープラーニングの分野は、現在も凄まじいスピードで進化を続けています。特に2012年にディープラーニングが登場して以来、画像認識の精度が向上し、従来だと人が手を動かしていた画像や音声などのビッグデータの分析・整理もコンピュータによって実施できるようになりました。ディープラーニングの精度を上げるためには教材となるビッグデータが必要であり、そのためデータの扱いに長け、AIの開発にも関われるデータサイエンティストの需要が拡大しているのです。

たとえば、AI開発に携わるデータサイエンティストであれば、AIシステムを構築・運用する際に、学習データの質を理解して適切に教え込む業務をこなします。膨大な情報・統計からバリューを見出し、AIにどのような「データ」を与えるかで出力される結果も変わっていきます。

ビッグデータとAI、「Watson」

2011年2月にアメリカで放映されたクイズ番組に勝利して注目を浴びた、自然言語を理解するAIの「Watson」は、医療機関で活躍しています。米国の6つの医療機関とタイの1つの医療機関は、がん治療においてWatsonを利用しています。

Watsonは、がん治療のガイドラインや医学文献の抄録、図書館の公開データなどから「この症状は、こんな診断になる」「この治療をしたらどうか」と、診断や治療に関する医師の判断を支援します。例えば、胃がんのステージ2なら、「どのような抗がん剤なら効果があるか」「こんな検査をしたらどうか」と医師に提示します。医師が他の選択肢が良いと判断した場合は、その情報が今度はWatsonに登録されて、次回から活用されます。

Watsonは文献から蓄積されるビッグデータと、自身の経験から得られるデータを掛け合わせて判断の精度が向上しています。

ソフトバンク社では2017年から人事部にAI,「Watson」を導入し、AIによる大量のES(エントリーシート)の自動振り分けを実現することで、業務効率を大幅に改善しています。

ソフトバンクの場合、毎年送られてくる3000人分のESを手作業で読むことは、人事部にとっては負担が大きいものでした。業務状況を改善するため、人事担当者がWatsonにこれまで採用した学生のESを記憶させ、同じような傾向のある学生をまとめることに成功しました。以来ソフトバンクでは、膨大なデータを取り込んだAIがESの自動振り分けを行うことで、効率的にかつ効果的に優秀な人材を見つけられるようになりました。

これまで人の経験と勘に頼ってきた部分をビッグデータ×AIに置き換えることで、より高い価値を生み出すことに成功している一例です。

ビッグデータが抱える課題

photo by pixabay

ビッグデータは多くの点で有望ですが、課題がないわけではありません。ビッグデータを用いる際に浮かび上がってくる問題点は主に2つあります。

問題1 データの整理に時間がかかる

ビッグデータはその名のとおり、膨大なデータ量のことを指します。データを格納するための新しい技術も開発されてはいますが、今データの量は2年おきに2倍に増えていると言われています。各企業はいまだに、膨大な量のデータを有効に保存する方法を見いだすことに苦労しているのが現状です。

加えて、データはただ保存すればいいものではありません。ビッグデータは使って初めて価値を生むもので、そのためにはビッグデータを整理することが必要です。クリーンデータ、つまり顧客にとって適切であり、意味のある形で分析ができるよう整理されているデータを用意するには、相当の労力が必要になります。データサイエンティストは、実際にデータが使えるようになる前の準備と整備に、仕事時間の50〜80%を費やしているといわれています。

問題2 プライバシー

ビッグデータにも個人情報が含まれることあり、無断でデータを活用するとプライバシーの侵害にあたる可能性もあります。日本の個人情報保護法では、匿名データや統計データなど、個人が特定されない情報は個人情報に該当せず、第三者への提供に関しても本人の同意を必要としないとされています。しかし、日本企業はこの匿名の顧客情報の扱いを巡り、世間から批判を浴びてきた過去があります。交通系ICカードの移動履歴やスマホアプリの位置情報についても、匿名化されており法律には抵触しなくても利用者が知らないところで第三者に提供したことが問題視されたことがありました。

ビッグデータは科学と似て、「諸刃の剣」になり得ます。間違った使い方をすれば、人々に害をもたらす可能性は拭えません。一方で正しい使い方をすれば、人々や社会にプラスの影響を与えることもできる、ということを理解する必要があると思います。

ビッグデータの展望

photo by pixabay

膨大なデータが至る所に偏在し、誰でもアクセスできる時代に突入した今、ビッグデータの分析/活用は世界中の企業や社会に革新的なメリットをもたらす可能性があります。メリットを享受するためには、ビッグデータを正しく用いて解釈する必要があります。そして今後はますますAI技術を用いたビッグデータ解析が企業の間でも普及していくことが現実世界で起きている事例を通して考えられます。この記事を通して少しでもビッグデータ、そしてその活用について理解を深めていただけたらなと思います。