大学4年間のデータサイエンスが10時間でざっと学べる
データサイエンスは変化の激しい分野である。本解説を執筆するにあたって本書を読み返したが、改めて執筆するならば内容を差し替えるだろうと感じた箇所がいくつかあった。それぐらい執筆時点からこの5年の間にいくつもブレークスルーがあった。
特に気になったのが深層学習のセクションである。現代ならトランスフォーマー技術をきっかけとした自然言語処理や画像処理技術の進歩について解説することは避けて通れない。深層学習の学習理論も大きな発展を遂げた。良性過学習の話は本書で解説している内容からは到底想像がつかない。近年では大規模なデータセットを用いて学習した深層学習の事前訓練モデルを公開する動きが非常に活発である。事前訓練モデルはクリック一つでダウンロードし、初学者でも簡単に利用することができる。そうした状況を踏まえると初学者であっても「ざっと」でいいから知っていて欲しい知識を改めて考える必要があるかもしれない。
また、そうした機械学習の先端動向だけではなくデータサイエンティストの働き方も変わってきた。筆者は長らく実践データサイエンス教育に関わってきたが、最初の頃は機械学習モデルを適切にチューニングするだけで十分に仕事になることが多かった。しかし、自動機械学習技術の進展と共にそうしたタスクは機械に任せることができる場面も増えてきた。そうなると下手に機械学習技術だけに詳しい人よりもデータの出元のドメイン知識をもった人の方が素早く精度が出るモデルを作成できることがある。もちろん統計学、計量経済学や機械学習を十分に理解していなければ間違えた解釈や汎用性の低いソフトウェアを書くことになってしまう。しかし、現実の意思決定の現場ではプロのデータサイエンティストが半年かけて出した95点の解答よりも、データサイエンスを完璧に理解しているとは言えないが、解こうとしている問題の背後にある事象やビジネス課題に精通している人が自動機械学習技術を用いて一週間で提出した80点の解答の方が、迅速な意思決定が重要という理由で、好まれることがある。この精度のギャップも徐々に埋められるようになってきており、その意味で「一から理論を丁寧に理解するデータサイエンス」と「機械のアシストありきでドメイン知識を活かすデータサイエンス」を分けて教える日もそう遠くはないのかもしれない。
そうした現状は残念ながら本書には書かれていない。それでは本書は今となっては全く意義はないものか。そうではないと思う。どの時代であっても通奏低音となって流れる芯となる知識はある。変化していく分野であることを心に留めつつ、そうした真の知識とは何かを問いながら本書を通読することがよいように思える。また、そうした進化途中の分野であるからこそデータサイエンスはエキサイティングなのである。
(紹介文執筆者: 情報理工学系研究科 講師 久野 遼平 / 2023)
本の目次
(1) データサイエンスとは?
第2部 データサイエンスの基礎技術
(2) 計算機の仕組み
(3) プログラミングの基礎 [1]
(4) プログラミングの基礎 [2]
(5) アルゴリズム [1]
(6) アルゴリズム [2]
(7) データベース
(8) 最適化の方法
第3部 統計学・機械学習の基礎
(9) 機械学習の基本
(10) 過学習とモデル選択
(11) 回帰問題と住宅価格
(12) アンサンブル学習と住宅価格
(13) 分類問題
(14) 教師なし学習
第4部 コーパスとネットワークの分析
(15) トピックモデル
(16) ネットワーク分析
第5部 ディープラーニング
(17) ニューラルネットワークの基礎
(18) ディープラーニング
(19) ディープラーニングによる系列データ分析
(20) ディープラーニングによる画像分析