データサイエンス・データサイエンティストとは
データサイエンスとは、ビッグデータを分析・解析し、ビジネスに活用するための知見・情報を引き出す学問です。科学的な方法やプロセスに基づき、アルゴリズム、システムを使用して、データから価値を抽出します。
データサイエンティストは、「データを分析・解析し、ビジネスに活用する」ことを主目的とした職業です。近年、多くの企業で「データを分析・解析し、ビジネスに活用できるように導くこと」は重要であると認識されつつあります。データサイエンティストは企業の競争力を左右する重要な役割を担うため、需要が高まっています。
ビッグデータとは
ビッグデータとは、従来のデータベース管理システムなどでは記録や保管、解析が難しいような膨大なデータ群のことです。データサイエンティストはこのデータ処理や統計処理を行い、得た情報を企業のビジネスへ活用する方法や、事業や企業が利益を生み出す方法を予測します。
データサイエンティスト 誕生の背景
データサイエンティストが誕生した背景としては、コンピュータやインターネットなどの発達・普及により「情報爆発」が起きていること、データ分析・活用が武器になる時代が到来したことが挙げられます。
クラウド・コンピューティングの広がり、SNS(Social Networking Service)の普及、センサーネットワークやスマートフォンの普及などを背景に、デジタルデータが爆発的に増加しました。このことを「情報爆発」と呼びます。情報爆発にともない、ビッグデータを用いたデータサイエンスが、ビジネスなど多様多種な業種に変革をもたらすと期待されています。
膨大なデータがいたる所に偏在し、誰でもアクセスできる時代に突入した今、データ分析・活用は世界中の企業や社会に革新的なメリットをもたらす可能性があります。メリットを享受するためには、テクノロジーによって格納される大量のデータを解釈する必要があり、そこで求められるようになったのがデータサイエンティストなのです。
データサイエンティストの仕事内容
データサイエンティストの仕事内容は簡潔にいうと「データを分析し、ビジネスに活用させること」です。
業務内容は課題抽出、データ収集・整理、データ分析、課題解決・提言に大別されます。
課題抽出
「課題抽出」では、ビジネス上の課題に対してデータ分析で解決したい事柄を設定します。
ターゲットにすべき課題と達成目標の明確化、課題の洗い出しと優先順位付け、課題解決のための仮説立案などの作業を行います。
データ収集・整理
「データ収集・整理」では、課題解決に必要となるデータを収集し、保管する環境を整備します。
分析のもととなるデータを業務システムやSNSなどから収集するように環境を構築。収集するだけでなく、扱いやすい形式に変換・統一します。
データ分析
「データ分析」では、分析手法に沿って、収集したデータを分析し、ビジネス上の課題解決につながるような知見をあぶりだします。
データを組み合わせて解析し、統計的に有意なデータ項目を特定します。「大量のデータ群から意味のある項目を見つけ出す作業」といえるでしょう。
ここでは、データ分析ソフトウェア(R、SASなど)登場します。データサイエンティストは、行いたい分析手法に対して適切なツールを選んで分析を行います。
*データマイニング:構造化されたデータベースから情報を抽出し、自動的に傾向やパターンを発見する分析手法
課題解決・提言
「課題解決・提言」では、データを分析して得られた知見をビジネス上の課題解決に結び付け、レポートを作成して報告します。
データサイエンティストに求められるスキル
データサイエンティストは、データサイエンスに対する理解はもちろんのこと、実際に会社に活かすためのビジネス力も求められます。
プログラミングスキル(Python、R言語、Javaなど)
データサイエンティストには、プログラミング言語の知識やコーディングスキルが必須です。
PythonやR言語の需要は高く、とりわけPythonはさまざまなアプリケーション制作にも相性が良く、万能であるためにPythonへの移行が活発化しております。
データベースに関するスキル(Hadoop、Spark、SQLなど)
データサイエンティストが扱うデータは基本的にデータベースに格納されています。そのため、分析基盤環境を構築する際だけでなく、利用する際にもデータベースに関する深い知識が求められます。データベースを操作するための言語であるSQLでデータを抽出できることに加え、Hadoop、Sparkの理解も求められます。
データ分析ソフトウェアに関するスキル(Excel、R、SAS、Tableauなど)
多くのデータ分析手法は途中計算が非常に煩雑なため、基本的にはデータ分析ツールを用いて分析を行います。そのため、データ分析ツールを使いこなせる必要があります。回帰分析など、Excelでも使用できる分析手法もありますが、より専門的なデータ分析手法にはオープンソースソフトウェアであるRなどが用いられます。
データ分析手法に関する知識(統計学、データマイニング、数学など)
データ分析では、データの統計処理や数理モデルを作成することで、分析を進めています。そのため、統計処理手法やデータマイニング手法について理解しておく必要があります。
また、データ分析の共通語である数学の知識も必要です。データ分析の書籍にもほぼ必ず数学が登場します。そのため、最低でも高校卒業程度の数学(特に確率・統計・微分積分・行列が必要とされる)を身につけておく必要があります。
機械学習に関する知識
機械学習とは、コンピューターが大量のデータを学習し、分類や予測などのタスクを遂行するアルゴリズムやモデルを自動的に構築する技術です。機械で自動的に分析することで、短時間でより多くのデータ分析が可能になるため、データサイエンティストに必須の知識です。
ビジネス力(コミュニケーション能力、クリティカルシンキングなど)
データサイエンティストは、技術的なスキルだけでなくビジネススキルも求められます。
データの分析に使う統計や人工知能などのスキルは専門性が高いため、提案内容などを説明する際には、専門的な用語を相手に伝わりやすい言葉に置き換えるなど、コミュニケーション能力も重要です。
また、クリティカルシンキング(批判的思考)も求められるでしょう。データサイエンティストは、膨大なデータの中から問題点や解決策を見つけ出さなくてはなりません。そのためには、問題をあらゆる角度から見て検討するための客観的、批判的な視点や物事の本質を捉える考え方が求められます。
データサイエンティストの年収
データサイエンティストの平均年収はおおよそ650万〜750万のレンジに転ぶと言われています。メガベンチャーや大手企業によっては年収1000万円以上を提示している場合もあり、データサイエンティストの需要の高さが伺えます。ほかの職種と比べても高水準であるデータサイエンティストですが、専門的なスキルが高いほど高年収が期待される職種です。
現在データサイエンティストは人手不足にあることから、獲得を巡って企業間の競争が激化しています。データサイエンティストとしての経験はなくとも、必要な知識があると判断された場合であれば採用されることもあると言われています。
データサイエンティストになる方法
生徒・学生など
データサイエンティストを目指す生徒・学生などの場合、まずはデータサイエンスや統計を学べる環境に身を置くことが重要です。
現在、日本にはデータサイエンスについて学べる大学が一定数あります。滋賀大学、武蔵野大学、横浜市立大学、立正大学がデータサイエンス学部を設けたほか、慶應義塾大学や駒澤大学などの大学でも独自の教育プログラムを用意しています。
特に米国ではデータサイエンス課程を設置している学部が多くあるため、留学をすることも一つの選択肢です。オクラホマ州立大学、アラバマ大学、ケネソー州立大学(ジョージア州)、サザン・メソジスト大学(テキサス州)、ノースカロライナ州立大学、テキサスA&M大学などはデータサイエンティストの養成に力を入れています。
大学にデータサイエンスが学べる環境がない方は、データサイエンティストとして仕事をする上で役に立つ資格を獲得するのも一つの手です。おすすめの資格については後ほど紹介します。
社会人
データサイエンスの知識がない社会人の場合、まずはデータベースエンジニアを目指し、データサイエンティストに必要なデータ分析やデータベースに関する基礎知識を習得するのも1つの選択肢です。また、資格を利用しても勉強できます。
データベースエンジニアとして実務経験を積んだ後は、データサイエンティストに必要なビジネス力をつけましょう。ビジネスにおける課題解決の手腕や、優れたコミュニケーション能力を身に付けるためには、企業の経営戦略に自らが携わっていく方法があります。それに加えて、実際に第一線で活躍するデータサイエンティストに接触することも重要でしょう。
データサイエンティストにおすすめの資格6選
データサイエンティストは国家資格ではないので、必要な資格があるわけではありません。
一方、データサイエンティストとして仕事をする上で、役に立つ資格も存在します。資格の取得を通じて体系的に知識を学べるだけでなく、キャリアアップに繋げることもできるでしょう。
ITスキルを幅広く身につけたい人におすすめ:情報処理技術者試験
情報処理技術推進機構(IPA)が実施する資格試験。データサイエンティストのみならず、IT業界に関わる人なら取っておきたい資格です。基本情報処理技術者試験と応用情報技術者試験の2つがあり、データサイエンティストを目指すなら、難易度の高い応用情報技術者試験も取っておきたいです。情報セキュリティの知識からソフトウェア設計・開発、プログラミング言語などITに関する幅広い知識が問われます。
リンクはこちら(外部リンク)
データベースを扱える(設計・管理)ようになりたい人におすすめ:データベーススペシャリスト試験
情報処理技術推進機構(IPA)の提供する資格試験のなかでも、データベースに関する専門的な知識が問われる試験です。データベースに関する試験の中でも最難関と言われ、2019年の累計の合格率は14.4%でした。データベースの企画、要件定義、開発、運用、保守のための知識が問われます。
リンクはこちら(外部リンク)
データベースの基本を身に付けたい人におすすめ:OSS-DB技術者認定試験
LPI-Japanが、オープンソースデータベース(OSS-DB)に関する技術力と知識を認定する民間資格です。データサイエンティストに欠かせないデータベースの基本的な知識・技術が問われます。基本的なデータベースに関する知識が問われる「Silver」と応用的なOSS-DBについて出題される「Gold」の2つのレベルがあります。比較的難易度が低いことから、この資格を足掛かりに上記のデータベーススペシャリスト試験を受ける人も多いです。
リンクはこちら(外部リンク)
統計を学びたい人におすすめ:統計検定
日本統計学会が認定する統計学に関する知識や活用力を評価する資格試験です。データサイエンティストに必要な「分析力」に直結する統計の知識を確認できます。習得スキル別にレベルが5段階に分かれています。
リンクはこちら(外部リンク)
人工知能(機械学習、ディープラーニング)について学びたい人におすすめ:G検定・E資格
一般社団法人日本ディープラーニング協会(JDLA)が主催する資格試験。事業を活用する人材(ジェネラリスト)用のG検定とエンジニア向けのE資格があります。データサイエンティストの必須知識のひとつである機械学習・深層学習の知識・技能を測ることが可能。E資格の受験には、JDLAが指定する認定プログラムの講座を受講が必要です。
リンクはこちら(外部リンク)
Pythonを学びたい人におすすめ:Python試験
一般社団法人Pythonエンジニア育成推進協会が実施している民間試験。Pythonは、上記でも述べたようにデータサイエンティストに求められるスキルNo.1になるほどで、今やデータサイエンティストに必須スキルといっても過言ではないでしょう。Pythonはプログラミング言語のなかでも、機械学習や統計解析など幅広い用途で利用できます。
Pythonの文法基礎を問う「Python3エンジニア認定基礎試験」に加え、Pythonを使ったデータ分析の基礎や方法を問う「Python3エンジニア認定データ分析試験」が2020年から新たに実施されます。
リンクはこちら(外部リンク)
データサイエンティストを目指す人におすすめの学習サイト3選
データサイエンティストに必要なスキルはオンラインからも学ぶことが可能です。
Aidemy
Aidemyでは「機械学習を学ぶ際のハードルを下げる」ことを目指しサービスの開発を進めているため、入門講座が人気です。入門編の講座からの学習を始め、AIにまつわる知識やスキルを学べる講座が公開されています。無料から始められる講座も多く、一部の講座は完全無料で受講できるため、IT初心者でもお試し程度の気分で始めることができます。まずはPython入門 | 10秒で始めるAIプログラミング学習サービスAidemy[アイデミー]から始めてみてはいかがでしょうか。
Udemy
Udemyでは、データサイエンティストに必要なIT知識やプログラミングスキルを動画コンテンツを用いて学習することができます。Udemyの料金は講座によって異なりますが、およそ1万円前後のものが多いです。加えて、サブスクリプションではなく買切り型のコンテンツなので、いつでも復習できます。
Udemyでは、IT初心者でも「そもそもAIとは何か」といった基礎的な部分から専門的な知識・スキルも学べるので、安心して学習に取り組むことが可能です。
まずは【世界で34万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプのコースでデータサイエンティストに必要な知識を学んでみてはいかがでしょうか。
Chainer
ChainerはPythonを使ったディープラーニング向けのフレームワークで、ニューラルネットワークを使用した学習を行うための機能がオープンソースで提供されています。初学者向けのチュートリアルはあるものの、どちらかといえば経験者向けで、高性能で様々な研究や企業でのAI(人工知能)開発に活かせる機能を持っています。
IT初心者であれば、まずはAidemyやUdemyの講座から始めてみてもいいかもしれません。Chainerはオープンソースで提供されているため、無料で使用可能です。まずはディープラーニング入門:Chainer チュートリアルから試してみてはいかがでしょうか。
Ledge.aiがおすすめする勉強法
データサイエンティストを目指すにあたって、初期に学習して欲しいことは、
2. 基礎的なプログラミング
になります。
- 初期は統計の基礎的な知識を固めるべきです。まずはUdemyの【ゼロからおさらい】統計学の基礎から統計学の学習を始めると良いでしょう。
データサイエンティストを目指すのであれば、プログラミングの中でもPythonとSQLをしっかりと理解する必要があります。プログラミングは、まずprogateでPythonとSQLの基礎を学び、次にPython実践データ分析100本ノックでプログラミングのテクニックを磨き、最後にKaggleで腕試しするルートをおすすめします。
データサイエンティストを目指す人におすすめの書籍4選
データサイエンティストを目指す人は、以下の書籍を使って勉強することをおすすめします。
ビッグデータ分析・活用のためのSQLレシピ
『ビッグデータ分析・活用のためのSQLレシピ』では、ビッグデータ加工の手法、データ分析に使用するSQL、レポーティング・分析の手法について書かれています。データ分析の際、統一されていないデータに対して、SQLでどのように工夫して処理すればいいか、目的と段階別に詳しく学べます。IT初心者の方からでも、ビッグデータの活用について詳しく理解できる書籍です。価格は4180円。
トップデータサイエンティストが教える データ活用実践教室
『トップデータサイエンティストが教える データ活用実践教室』では、日本を代表する現役のデータサイエンティストが、仕事で役立つデータ活用の新しいアプローチ、会社を動かす分析戦略の組み立て方、ビッグデータ技術を現場の視点をもって回答しています。価格は2200円。
著者の一人である安宅和人さんは『イシューから始めよ』や、世間でも話題を生んだ『シン・ニホン』などの著者でもあり、まったくのIT初心者から経験者まで、幅広い層にとって勉強になる書籍を多く執筆しています。
データサイエンティストの秘密ノート 35の失敗事例と克服法
『データサイエンティストの秘密ノート 35の失敗事例と克服法』は、データ分析の初心者や企業担当者を対象に、データ分析の実際を解説しています。SBTが手掛けた事例を元に、データ分析を行う際に起こりやすい失敗事例とその克服法をまとめています。著者は、豊富なデータ分析の経験を持つSBT社データサイエンス部のスタッフであり、リアリティのある、真に役立つデータ分析の実例を学べます。価格は1980円。
Ledge.aiがおすすめする書籍
統計を詳しく学びたい方には『統計学入門 (基礎統計学Ⅰ)』を読むことをおすすめします。大学レベルの基礎統計や基礎数学の知識をある程度持っている人に向けての書籍になります。本書は統計学の体系的な知識を与えるように編集されており、豊富な実際例を用いつつ,図表を多くとり入れ,視覚的にもわかりやすく親しみながら学べます。価格は3080円。
これに加えてKaggleやっていくうちに更なるステップアップを目指す方は『Kaggleで勝つデータ分析の技術』を読むことをおすすめします。本書の特徴は全てが「Kaggleで勝つ」、すなわち「未知のデータセットに対する汎化性能を上げる」という目的のもとで執筆されている点です。 加えてPythonのサンプルコードが随所に掲載されているため、読者にとって非常に実践的な内容が含まれています。価格は3608円。