こんにちは、データサイエンスの講師をしているキカガクの木下です!
今回は「データサイエンス・データ分析」に関するオススメ書籍を 18 冊、厳選して紹介します。
データサイエンティスト関連の本は数多く紹介ありますが、自分に適切な書籍なのか?実務に活かせるのか?など、悩む方は多いのではないでしょうか?
本記事では、以下のような観点でオススメの書籍を紹介します!
各書籍の対象レベルを 3 段階に分割!
データサイエンスを細かいステップに分割、各ステップごとに、参考書籍を紹介!
データサイエンスの実務にすぐに活かせる本を紹介!
データサイエンスの流れ
はじめに、データサイエンスの流れを紹介します。実はそれぞれのステップにおいて、読むべき書籍が違うため、「自分がどのステップを学びたいのか」把握することが必要不可欠です。
データサイエンスの流れは下図のようになります。
それでは、それぞれのステップにおける参考書を紹介していきます。
① 課題への気づき - まず読むべき参考書!-
ここでは、データ分析を行う前に読んでおくべき参考書をピックアップしました。
【定番】分析者のためのデータ解釈学入門 データの本質をとらえる技術
1 冊目は「分析者のためのデータ解釈学入門 データの本質をとらえる技術」です。
この書籍には、データ分析で注意すべきこと、全てが詰まっています。特に、初学者向けの書籍では扱われることの少ない以下のような内容を簡潔に説明していることが特徴です。
- データに含まれる誤差やバイアス
- 探索的データ分析と確証的データ分析の違い
- 数理モデリングの仮定や妥当性
- データ分析・解釈・活用の罠
この中には、すでに分析を経験しているデータサイエンティストも見落としていることが多く含まれており、ドキッとすることも多いのではないでしょうか。
データの本質を捉えるという、データサイエンスにとって一番大切なことを教えてくれる必見の一冊です。
こんな人におすすめ!
これからデータ分析をはじめたい
現在、少しでもデータ分析に携わっている
なんとなく手法などは知っているが、体系的にデータの解釈を学んだことがない
【定番】AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]
2 冊目は「AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出]」です。
この書籍は、データ分析の各手法に関しての解説ではなく、実際にビジネスでデータ分析プロジェクトを行う際の流れや注意点などが書かれています。各節には対象読者が明示されており、自分が読むべきパートがわかりやすいのも特徴です。
また、データサイエンスだけでなく、データエンジニアリングなどの分野にも渡って話が展開されており、熟達したデータサイエンティストでも学ぶことが多い一冊です。
こんな人におすすめ!
これから社内でデータ分析プロジェクトに関わる予定がある
社内のデータを活用したいと考えている
データサイエンティストになりたい
【基礎】図解ポケット 今日から使える! データサイエンスがよくわかる本
3 冊目は「図解ポケット 今日から使える! データサイエンスがよくわかる本」です。
この本は、データサイエンスに全く触れたことのない方におすすめです。どのページを開いても右側のページにはイラストがあり、視覚的に理解できるよう工夫されています。
また、最先端のテクノロジーや学習ロードマップも載っており、次の学習へと繋げやすい書籍です。
こんな人におすすめ!
これからデータサイエンスを学びたい
自分の専門ではないけど、ざっくりデータ分析の概要を知りたい
専門書等でつまずいた経験がある
【発展】実践Data Scienceシリーズ R と Stan ではじめる ベイズ統計モデリングによるデータ分析入門
4 冊目は「実践Data Scienceシリーズ R と Stan ではじめる ベイズ統計モデリングによるデータ分析入門」です。
ビッグデータになるほど、欠測値が多くなる傾向にあります。そのため、欠測値が多いデータに有効とされるベイズ統計への注目度が急上昇中です。
この書籍は、実践的なコードを踏まえて、数学的に難しくなりやすいベイズ統計を簡潔に説明しており、初学者にもおすすめです!
Python のコードはありませんが、R や Stan を初めて使う学習者でも問題なく学べます。特に、行列表現が丁寧に解説されているところが実践的で素晴らしいところです。
こんな人におすすめ!
一歩進んだデータ分析をしたい
ベイズというキーワードに興味がある
Stan を用いたデータ分析を学びたい
② データの取得・構造化 – 見落としがちなデータの前処理 –
次に、データサイエンティストがかなりの時間を費やすこととなるデータの前処理に役立つ書籍を紹介します。
【定番】前処理大全[データ分析のための SQL/R/Python 実践テクニック]
データの前処理で最初に紹介するのは「前処理大全[データ分析のための SQL/R/Python 実践テクニック]」です。
タイトルと表紙のインパクトが強烈な書籍ですが、中身は万人におすすめできる前処理の定番書籍です。
この本の特徴は、SQL, R, Python の 3 種類の処理が載っているだけでなく、Not Awesome なコードとその理由まで記載されていることです。目的の処理を行うことはもちろん、効率的な前処理という一歩先のレベルまで対応しています。
こんな人におすすめ!
汚いデータを扱うことが多い
Python や R だけでなく SQL も頻繁に扱う
効率の良い前処理を会得したい
【定番】 Python 実践データ分析 100 本ノック
次に紹介するのは「Python 実践データ分析 100 本ノック」です。
実際にデータ処理を学ぶことと、実データに適用することには大きな乖離があります。そのギャップを埋めてくれるのがこの本です。
pandas やデータ分析手法を用いて実データを加工する問題が 100 題用意されています。基礎編、実践編、応用編の 3 つに分かれており、特に基礎編での「データの加工」はデータサイエンスで必須の知識です。
また、応用編では、自由記述アンケート分析のための自然言語処理が用意されており、他ではあまり扱われない実践的な状況が想定されていることも大きな特徴です。
この本をすべて解き終えたときには、実践力が相当レベルアップしていること間違いなしです!
こんな人におすすめ!
なんとなく関数の使い方などは理解できた気がしている
実際に手を動かして勉強したい
実データが手元にないけど実践的な演習がしたい
【発展】 pandas クックブック ―Python によるデータ処理のレシピ―
次に紹介するのは「pandas クックブック ―Python によるデータ処理のレシピ―」です。
pandas は Python でデータ分析を行う際に、必須のライブラリです。しかし、pandas の使い方をきちんと学ぶ機会は少ないと思います。
そこで、本書を用いて、pandas の基礎から応用までを体系的に学ぶことはデータサイエンティストにとって非常に重要です!この書籍では、序盤に基本的な pandas の処理を網羅的に学び、後半ではより実践的な使い方を学べます。
一部、読みにくい部分もありますが、筆者の pandas 愛やこだわりがあふれており、一歩進んだ pandas の使い方をしたい人には特におすすめです。
こんな人におすすめ!
Python を用いたデータ分析の経験がある
効率の良い pandas の処理が知りたい
pandas 愛好家
【発展】 改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界
次に紹介するのは「改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界」です。
データ分析は R 派といった方も多いと思います。そんな方には tidyverse と呼ばれる「tidy なツール群」を用いたデータ分析手法を紹介しているこの書籍をおすすめします。この書籍一冊あれば、R 特有の書き方や、強みを生かした分析方法を実践レベルで学ぶことが可能です。
この本は、基本的なデータ処理だけでなく、スクレイピングを用いたデータ取得からレポーティングまで幅広く網羅しています。R を用いてデータ分析を行いたい方は持っていて損のない一冊です!
こんな人におすすめ!
R を用いたデータ分析をしている、したい
R でより簡潔でわかりやすいデータ分析をしたい
R 愛好家
本稿の続きおよび、転載元の記事は「キカガクの技術ブログ」にてご覧ください。