データサイエンティストとは | 仕事内容・必要なスキル・ニーズ・おすすめ資格6選を徹底解説

このエントリーをはてなブックマークに追加

企業のデータ活用を推進する上で大きな役割を果たす「データサイエンティスト」。

社会の情報化は急速に進行し、あらゆることがデータから導かれるようになった現代において、その注目度は増しています。また、AI技術の急速な発展もデータ活用の需要を後押ししています。しかしその一方で、AIの台頭による将来性を疑問視する声も。

本記事では、データサイエンティストの意味や仕事内容、求められるスキル、おすすめ資格試験、将来性を解説します。

データサイエンティストとは

データサイエンティストとは、ビッグデータを分析・解析し、それをビジネスに活用するための知見・情報を引き出す職業を指します。

ビッグデータとは
ビッグデータとは、従来のデータベース管理システムなどでは記録や保管、解析が難しいような膨大なデータ群のことです。データサイエンティストはこのデータ処理や統計処理を行い、得た情報を企業のビジネスへ活用する方法や、事業や企業が利益を生み出す方法を予測します。

データサイエンティスト誕生の背景

データサイエンティストが誕生した要因は2つあります。

クラウド・コンピューティングの広がり、SNS(Social Networking Service)の普及、センサーネットワークやスマートフォンの普及などを背景に、デジタルデータが爆発的に増加しました。このことを「情報爆発」と呼びます。情報爆発に伴い、ビッグデータを用いたデータサイエンスが、ビジネスなど多様多種な業種に変革をもたらすと期待されています。
膨大なデータが至る所に偏在し、誰でもアクセスできる時代に突入した今、データ分析/活用は世界中の企業や社会に革新的なメリットをもたらす可能性があります。このメリットを享受するためには、テクノロジーによって格納される大量のデータを解釈する必要があり、そこで求められるようになったのがデータサイエンティストです。

データサイエンティストが注目される理由

データサイエンティストが注目されている理由として、「ビッグデータ市場の拡大」「AI市場の拡大」が挙げられます。

ビッグデータ市場の拡大に伴う需要の増加

近年は社会の情報化が進み、ビッグデータ市場は拡大しています。本格的なデータ活用に乗り出す企業が急速に増えています。そのためデータ分析・解析を行うデータサイエンティストは企業の競争力を左右する重要な役割を担うことになり、需要が高まりつつあります。

AIを使いこなす人材としての期待

ディープラーニングの登場以降、世界的にAI開発競争が加熱しています。ディープラーニングの精度を上げるためには教材となるビッグデータが必要であり、そのためデータの扱いに長け、AIの開発にも関われるデータサイエンティストの需要が拡大しているのです。

データサイエンティストの年収

データサイエンティストの平均年収はおおよそ650万〜750万のレンジに転ぶといわれています。メガベンチャーや大手企業によっては年収1,000万円以上を提示している場合もあり、データサイエンティストの需要の高さが伺えます。ほかの職種と比べても高水準であるデータサイエンティストですが、専門的なスキルが高いほど高年収が期待される職種です。

現在データサイエンティストは人手不足にあることから、その獲得を巡って企業間の競争が激化しています。データサイエンティストとしての経験はなくとも、必要な知識があると判断された場合であれば採用されることもあるといわれています。

データサイエンティストの仕事内容

Photo by mohamed_hassan on Pixabay

データサイエンティストの仕事内容は簡潔にいうと「データを分析し、ビジネスに活用させること」です。

業務内容は問題定義データ収集・整理データ分析課題解決・提言に大別されます。
Ledge.ai 編集部作成

問題定義

「問題定義」では、ビジネス上の課題に対してデータ分析で解決したい事柄を設定します。
ターゲットにすべき課題と達成目標の明確化、課題の洗い出しと優先順位付け、
課題解決のための仮説立案などの作業を行います。

データ収集・整理

「データ収集・整理」では、課題解決に必要となるデータを収集し、保管する環境を整備します。
分析のもととなるデータを業務システムやSNSなどから収集するように環境を構築。収集するだけでなく、扱いやすい形式に変換・統一します。

データ分析

「データ分析」では、分析手法に沿って、収集したデータを分析し、ビジネス上の課題解決につながるような知見をあぶりだします

データを組み合わせて解析し、統計的に有意なデータ項目を特定します。「大量のデータ群から意味のある項目を見つけ出す作業」といえるでしょう。

ここでは、データ分析ソフトウェア(R、SASなど)登場します。データサイエンティストは、行いたい分析手法に対して適切なツールを選んで分析を行います。

課題解決・提言

「課題解決・提言」では、データを分析して得られた知見をビジネス上の課題解決に結び付け、レポートを作成して報告します。

具体例

  • データ分析の結果をレポートにまとめる際に、レポートを見た人が内容を把握しやすいように、図形やグラフィックの形で表現
  • 整理した分析対象となるデータ項目をKPIとして設定し、レポートにまとめ、解決策を提言
  • データサイエンティストに求められるスキル

    Photo by kreatikar on Pixabay

    次に、データサイエンティストに求められるスキルを見ていきましょう。

    一般社団法人データサイエンティスト協会は、データサイエンティストのスキルセットを次の3種類に分類しています。

    参考:http://www.datascientist.or.jp/files/news/2014-12-10.pdf

    以上から、データサイエンティストには幅広い知識やスキルが求められると分かります。これらのスキルを「技術的なスキル」、「その他求められる知識・スキル」に二分し、より具体的に解説します。

    技術的なスキル

    画像出典:https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db

    データサイエンティストの求人情報に掲載されている、「求められる技術的なスキル」の上位20項目をまとめたものです。

    上位のものや代表的なスキルを抜粋して解説していきます。

    ◼︎プログラミングスキル(Python、R言語、Javaなど)
    データサイエンティストには、プログラミング言語の知識やコーディングスキルが必須です。データサイエンティストの仕事では、ログ収集のバッチ作成やBI(Business Intelligence)ツールへのデータ挿入など、プログラムを書く機会が頻繁にあります。

    上の図を見るとPythonやR言語の需要が高いことがわかります。なかでもPythonはさまざまなアプリケーション制作にも相性が良く、万能であるためにPythonへの移行が活発化しており注目されています。


    ◼︎データベースに関するスキル(Hadoop、Spark、SQLなど)
    データサイエンティストが扱うデータは基本的にデータベースに格納されています。そのため、分析基盤環境を構築する際だけでなく、利用する際にもデータベースに関する深い知識が求められます。データベースを操作するための言語であるSQLでデータを抽出できることに加え、Hadoop、Sparkの理解も求められます。

    Hadoopとは
    Hadoopは、大規模なデータに対して、分散処理技術を活用して蓄積、分析するオープンソースのミドルウェア・プラットフォームです。
    Sparkとは
    Sparkは高速のインメモリデータ処理エンジンです。データを扱う人にとっては、データセットへの高速の相互アクセスを要求されるストリーミングや機械学習、あるいはSQLのワークロードを効率的に実行することができるように開発された、簡潔で表現力に富むAPIが備えられています。分散処理技術を活用する点ではHadoopと同様ですが、データをリアルタイムで高速に処理できます。

    ◼︎データ分析ソフトウェアに関するスキル(Excel、R、SAS、Tableauなど)
    多くのデータ分析手法は途中計算が非常に煩雑なため、基本的にはデータ分析ツールを用いて分析を行います。そのため、データ分析ツールを使いこなせる必要があります。回帰分析など、Excelでも使用できる分析手法もありますが、より専門的なデータ分析手法にはオープンソースソフトウェアであるRなどが用いられます。

    Tableauは、タブローソフトウェア社が販売するBI(ビジネスインテリジェンス)に特化したデータの可視化ツールです。データ分析の専門知識がなくても、マウス操作で簡単にデータ分析ができるソフトウェアです。

    その他求められる知識・スキル

    ◼︎データ分析手法に関する知識(統計学、データマイニング、数学など)
    データ分析では、データの統計処理や数理モデルを作成することで、分析を進めています。そのため、統計処理手法やデータマイニング手法について理解しておく必要があります

    たとえば、売上に関係するユーザー属性を特定するためには重回帰分析、課金ユーザーと無課金ユーザーの行動の違いを分析するためには決定木分析、ユーザーをセグメントに分割するためにはクラスター分析を用います。このように、自らが必要とする結論を出すためにどのような分析手法を用いればよいのか知っておく必要があります

    また、データ分析の共通語である数学の知識も必要です。データ分析の書籍にもほぼ必ず数学が登場します。そのため、最低でも高校卒業程度の数学(特に確率・統計・微分積分・行列が必要とされる)を身につけておく必要があります。


    ◼︎機械学習に関する知識
    社会の情報化によってデータ量が増加する一方で、それに伴い分析で扱うデータ量も増大しています。そのような時流で、人力での分析はどうしても限界があります。

    そこで登場するのが機械学習です。機械学習とは、コンピューターが大量のデータを学習し、分類や予測などのタスクを遂行するアルゴリズムやモデルを自動的に構築する技術です。機械で自動的に分析することで、短時間でより多くのデータ分析が可能になるため、データサイエンティストに必須の知識です。


    ◼︎ビジネス力(コミュニケーション能力、クリティカルシンキングなど)
    データサイエンティストは、技術的なスキルだけでなくビジネススキルも求められます。

    データの分析に使う統計や人工知能などのスキルは専門性が高いため、提案内容などを説明する際には、専門的な用語を相手に伝わりやすい言葉に置き換えるなど、コミュニケーション能力も重要です。

    また、クリティカルシンキング(批判的思考)も求められるでしょう。データサイエンティストは、膨大なデータの中から問題点や解決策を見つけ出さなくてはなりません。そのためには、問題をあらゆる角度から見て検討するための客観的、批判的な視点や物事の本質を捉える考え方が求められます。

    データサイエンティストにおすすめの資格

    Photo by Tumisu on Pixabay

    データサイエンティストは国家資格ではないので、必要な資格があるわけではありません。

    一方、データサイエンティストとして仕事をする上で、役に立つ資格も存在します。資格の取得を通じて体系的に知識を学べるだけでなく、キャリアアップに繋げることもできるでしょう。

    今回は、データサイエンティストにおすすめの資格を6つ厳選して解説します。

    ITスキルを幅広く身につけたい人におすすめ:情報処理技術者試験

    情報処理技術推進機構(IPA)が実施する資格試験。データサイエンティストのみならず、IT業界に関わる人なら取っておきたい資格です。基本情報処理技術者試験と応用情報技術者試験の2つがあり、データサイエンティストを目指すなら、難易度の高い応用情報技術者試験も取っておきたいです。情報セキュリティの知識からソフトウェア設計・開発、プログラミング言語などITに関する幅広い知識が問われます。
    リンクはこちら(外部リンク)

    データベースを扱える(設計・管理)ようになりたい人におすすめ:データベーススペシャリスト試験

    情報処理技術推進機構(IPA)の提供する資格試験のなかでも、データベースに関する専門的な知識が問われる試験です。データベースに関する試験の中でも最難関と言われ、2019年の累計の合格率は14.4%でした。データベースの企画、要件定義、開発、運用、保守のための知識が問われます。
    リンクはこちら(外部リンク)

    データベースの基本を身に付けたい人におすすめ:OSS-DB技術者認定試験

    LPI-Japanが、オープンソースデータベース(OSS-DB)に関する技術力と知識を認定する民間資格です。データサイエンティストに欠かせないデータベースの基本的な知識・技術が問われます。基本的なデータベースに関する知識が問われる「Silver」と応用的なOSS-DBについて出題される「Gold」の2つのレベルがあります。比較的難易度が低いことから、この資格を足掛かりに上記のデータベーススペシャリスト試験を受ける人も多いです。
    リンクはこちら(外部リンク)

    統計を学びたい人におすすめ:統計検定

    日本統計学会が認定する統計学に関する知識や活用力を評価する資格試験です。データサイエンティストに必要な「分析力」に直結する統計の知識を確認できます。習得スキル別にレベルが5段階に分かれています。
    リンクはこちら(外部リンク)

    人工知能(機械学習、ディープラーニング)について学びたい人におすすめ:G検定・E資格

    一般社団法人日本ディープラーニング協会(JDLA)が主催する資格試験。事業を活用する人材(ジェネラリスト)用のG検定とエンジニア向けのE資格があります。データサイエンティストの必須知識のひとつである機械学習・深層学習の知識・技能を測ることが可能。E資格の受験には、JDLAが指定する認定プログラムの講座を受講が必要です。
    リンクはこちら(外部リンク)

    Pythonを学びたい人におすすめ:Python試験

    一般社団法人Pythonエンジニア育成推進協会が実施している民間試験。Pythonは、上記でも述べたようにデータサイエンティストに求められるスキルNo.1になるほどで、今やデータサイエンティストに必須スキルといっても過言ではないでしょう。Pythonはプログラミング言語のなかでも、機械学習や統計解析など幅広い用途で利用できます。Pythonの文法基礎を問う「Python3エンジニア認定基礎試験」に加え、Pythonを使ったデータ分析の基礎や方法を問う「Python3エンジニア認定データ分析試験」が2020年から新たに実施されます。
    リンクはこちら(外部リンク)

    データサイエンティストを目指す人におすすめのサイト

    データサイエンティストに必要なスキルはオンラインからも学ことが可能です。

    Aidemy

    Aidemyでは「機械学習を学ぶ際のハードルを下げる」ことを目指しサービスの開発を進めているため、入門講座が人気です。入門編の講座からの学習を始め、AIにまつわる知識やスキルを学べる講座が公開されています。無料から始められる講座も多く、一部の講座は完全無料で受講できるため、IT初心者でもお試し程度の気分で始めることができます。まずはPython入門 | 10秒で始めるAIプログラミング学習サービスAidemy[アイデミー]から始めてみてはいかがでしょうか。

    Udemy

    Udemyでは、データサイエンティストに必要なIT知識やプログラミングスキルを動画コンテンツを用いて学習することができます。Udemyの料金は講座によって異なりますが、およそ1万円前後のものが多いです。加えて、サブスクリプションではなく買切り型のコンテンツなので、いつでも復習をすることができます。Udemyでは、IT初心者でも「そもそもAIとは何か」といった基礎的な部分から専門的な知識・スキルも学べるので、安心して学習に取り組むことが可能です。まずは【世界で34万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプのコースでデータサイエンティストに必要な知識を学んでみてはいかがでしょうか。

    Chainer

    ChainerはPythonを使ったディープラーニング向けのフレームワークで、ニューラルネットワークを使用した学習を行うための機能がオープンソースで提供されています。初学者向けのチュートリアルはあるものの、どちらかといえば経験者向けで、高性能で様々な研究や企業でのAI(人工知能)開発に活かせる機能を持っています。IT初心者であれば、まずはAidemyやUdemyの講座から始めてみてもいいかもしれません。Chainerはオープンソースで提供されているため、無料で使用可能です。まずはディープラーニング入門:Chainer チュートリアルから試してみてはいかがでしょうか。

    Ledgeがおすすめする勉強法

    データサイエンティストを目指すにあたって、初期に学習して欲しいことは、

    1. 統計の知識
    2. 基礎的なプログラミング

    になります。

    1. 初期は統計の基礎的な知識を固めるべきです。まずはUdemyの【ゼロからおさらい】統計学の基礎から統計学の学習を始めると良いでしょう。

    2. データサイエンティストを目指すのであれば、プログラミングの中でもPythonSQLをしっかりと理解する必要があります。プログラミングは、まずprogateでPythonSQLの基礎を学び、次にPython実践データ分析100本ノックでプログラミングのテクニックを磨き、最後にKaggleで腕試しするルートをおすすめします。

    データサイエンティストを目指す人におすすめの書籍

    データサイエンティストを目指す人は、以下の書籍を使って勉強することをおすすめします。

    ビッグデータ分析・活用のためのSQLレシピ

    この書籍ではビッグデータ加工の手法、データ分析に使用するSQL、レポーティング・分析の手法について書かれています。データ分析の際、統一されていないデータに対して、SQLでどのように工夫して処理を行えばいいか、目的と段階別に詳しく学ぶことができます。IT初心者の方からでも、ビッグデータの活用について詳しく理解できる書籍です。お値段はアマゾンで4180円から販売されています。

    トップデータサイエンティストが教える データ活用実践教室

    この書籍では日本を代表する現役のデータサイエンティストが、仕事で役立つデータ活用の新しいアプローチ、会社を動かす分析戦略の組み立て方、ビッグデータ技術を現場の視点をもって回答しています。著者の一人である安宅和人さんは『イシューから始めよ』や、世間でも話題を生んだ『シン・ニホン』などの著者でもあり、全くのIT初心者から経験者まで、幅広い層にとって勉強になる書籍を多く執筆しています。お値段はアマゾンで2200円から販売されています。

    データサイエンティストの秘密ノート 35の失敗事例と克服法

    この書籍はデータ分析の初心者や企業担当者を対象に、データ分析の実際を解説しています。SBTが手掛けた事例を元に、データ分析を行う際に起こりやすい失敗事例とその克服法をまとめています。著者は、豊富なデータ分析の経験を持つSBT社データサイエンス部のスタッフであり、リアリティのある、真に役立つデータ分析の実例を学ぶことができます。お値段はアマゾンで1980円から販売されています。

    Ledgeがおすすめする書籍

    統計を詳しく学びたい方には『統計学入門 (基礎統計学Ⅰ』を読むことをおすすめします。大学レベルの基礎統計や基礎数学の知識をある程度持っている人に向けての書籍になります。本書は統計学の体系的な知識を与えるように編集されており、豊富な実際例を用いつつ,図表を多くとり入れ,視覚的にもわかりやすく親しみながら学べます。お値段はアマゾンで3080円から販売されています。

    これに加えてKaggleやっていくうちに更なるステップアップを目指す方は『Kaggleで勝つデータ分析の技術』を読むことをおすすめします。本書の特徴は全てが「Kaggleで勝つ」、すなわち「未知のデータセットに対する汎化性能を上げる」という目的のもとで執筆されている点です。 加えてPythonのサンプルコードが随所に掲載されているため、読者にとって非常に実践的な内容が含まれています。お値段はアマゾンで3608円から販売されています。

    データサイエンティストのニーズ

    Photo by 200 degrees on Pixabay

    データサイエンティストのブームの一方で「データサイエンティストは消える」と耳にしたことがあるかもしれません。そのように言われる理由を解説します。

    いずれAIに置き換わる可能性がある

    AIがデータサイエンティストに取って代わるとも言われています。AIは既存のデータの分類はもちろん、それに基づいた未来予測もできるようになっています。AIの精度が高まるにつれてデータサイエンティストの仕事の一部をAIが代替することは現実に起こっています。

    そのため、データサイエンティストは機械学習に関する知識も求められているのです。

    人材育成が加速し、人余りの状況になる可能性がある

    データサイエンティストの需要増加を受け、高等教育機関が設置されるなど、日本はデータサイエンティスト人材育成に力を入れ始めています。

    日本国内でもデータサイエンス学部、学科、研究コースなどが増えてきました(たとえば国公立大学では、滋賀大学と横浜市立大学で「データサイエンス学部」が創設され、東京大学でも「数理・データサイエンス教育プログラム」が開設されました)。

    現在データサイエンティストの人材不足は事実ですが、日本も人材育成に力を入れ始めたため、将来的には人あまりの状況になる可能性が考えられます。スキルの低いデータサイエンティストは淘汰されるなど、競争もより激しくなるでしょう。

    データサイエンティストになる方法

    学生

    データサイエンティストを目指す学生の場合、まずはデータサイエンスや統計を学べる環境に身を置くことが重要です。現在日本にはデータサイエンス課程を学べる大学が一定数あります。滋賀大学、武蔵野大学、横浜市立大学は実際にデータサイエンス学部を設けています。特に米国ではデータサイエンス課程を設置している学部が多くあるため、留学をすることも一つの選択肢です。オクラホマ州立大学、アラバマ大学、ケネソー州立大学(ジョージア州)、サザン・メソジスト大学(テキサス州)、ノースカロライナ州立大学、テキサスA&M大学などはデータサイエンティストの養成に力を入れています。大学にデータサイエンスが学べる環境がない方は、データサイエンティストとして仕事をする上で役に立つ資格を獲得するのも一つの手です。

    社会人

    データサイエンスの知識がない社会人の場合、まずはデータベースエンジニアを目指し、データサイエンティストに必要なデータ分析やデータベースに関する基礎知識を習得するのも1つの選択肢です。また、資格を利用して勉強することもできます。データベースエンジニアとしてある程度の実務経験を積んだ後は、データサイエンティストに必要なビジネス力をつけましょう。ビジネスにおける課題解決の手腕や、優れたコミュニケーション能力を身に付けるためには、企業の経営戦略に自らが携わっていく方法があります。それに加えて、実際に第一線で活躍するデータサイエンティストに接触することも重要です。

    今後も求められる人材になるために

    Photo by mohamed_hassan on Pixabay

    膨大なデータをいかに活かすかがビジネスの鍵を握る時代において、データサイエンティストの必要性は高まっているのは事実です。

    一方で、先に説明したような「AIに置き換わる可能性」や「データサイエンティスト人材の増加による競争の激化」の懸念もあります。

    求められるのは、「より高度なスキルの習得による他データサイエンティストとの差別化」と、「AIに対する正しい理解」です。

    AIに対する正しい理解や知識がないと、AIに任せられる分析などをいつまでも人の手で膨大な時間をかけて取り組むことになってしまい、結果として得られる結果にも差が出てきます。AIの得意分野はAIにまかせ、苦手なところは補うという考え方が必要になります。

    Ledge.aiではAI業界の活性化を目指す活動の一環として、業界のスペシャリストを招き、最先端の情報に触れる機会を提供する「AI TALK NIGHT」や「THE AI」といったイベントを開催しています。またほかにも、人工知能をビジネスに活かすサポートとして、AI活用事例の検索プラットフォーム「e.g.」を提供しています。

    この機会にAIに対する正しい理解を深め、これからの社会で活躍するデータサイエンティストになる第一歩を踏み出すのはいかがでしょうか。