
書籍名
Pythonデータ解析入門
判型など
264ページ、A5判
言語
日本語
発行年月日
2024年6月3日
ISBN コード
978-4-13-062466-4
出版社
東京大学出版会
出版社URL
学内図書館貸出状況(OPAC)
英語版ページ指定
データサイエンスや人工知能 (AI) を担う人材を幅広く育成するために、全国の高等教育機関で現在、数理・データサイエンス・AI教育が進められています。本書は特に、数理・データサイエンス・AIの基礎となるデータ解析を学ぶことを目的としています。データサイエンスにおいて、データ解析はデータに潜む規則や構造を捉えるためのさまざまな手法を提供し、そこから得られた結果を適切に解釈することでデータに基づいた問題解決や意思決定の支援を行うことを可能にします。
本書は、東京大学において全学の学部生・大学院生を対象に開講されている2つの授業、「Pythonプログラミング入門」と「データマイニング概論」、において実際に学生が学んでいる内容に基づいて全体を教科書として構成・執筆したものです。同授業は、同大学の数理・情報教育研究センターが提供する数理・データサイエンス教育の学部横断型プログラムの構成科目となっており、開講以来、文理を問わずこれまで数多くの学生がプログラミングやデータサイエンスの基礎を学んできています。学生が将来国内のみならず世界で活躍できる人材として成長するための礎となるべき知識を学んでほしいとの思いから、関連分野の教育において先進的な諸外国の大学の実際の授業内容を調査した上で、本書の内容を設計しました。
データサイエンスやAIの学びにおいては、関連する基礎的な概念の理解に加えて、それらの背景にある数理的知識の理解ならびプログラミングによる知識の実践の両方が重要となります。現実の課題解決や価値創造においては、数理とプログラミングが両輪となり駆動されることで、数理・データサイエンス・AIの知識を真に活用することができるようになります。そのため本書では、データサイエンスやAIの基礎となるデータ解析の考え方や代表的な手法について、それらの数理的背景も含めて理解するとともに、Pythonプログラミングによりそれらの手法を、実際に手を動かしながら実装することで理解を深めるような構成としました。データ解析の手法は、線形代数学、確率・統計学、解析学などの数学に立脚しています。主に大学初年次・2年次に学ぶこれらの数学基礎の上で、数理的知識にしっかりと裏打ちされた骨太で真に応用力のある数理・データサイエンス・AIのスキルを習得することを目指します。本書がデータ解析の入門のための教科書として、数理・データサイエンス・AIをこれから学ぶ意欲のある皆さんの一助となれば幸いです。
(紹介文執筆者: 情報理工学系研究科 准教授 森 純一郎 / 2024)
本の目次
第1章 データ解析を学ぶ
1.1 はじめに/1.2 本書の構成/1.3 データサイエンス教育に関するスキルセットとの対応/1.4 学習の進め方/1.5 記号表
第2章 Python の基礎
2.1 Python プログラミング言語/2.2 算術演算/2.3 変数/2.4 関数/2.5 if 文と条件分岐/2.6 リスト/2.7 文字列/2.8 for 文と繰り返し/2.9 辞書/2.10 プログラムの作成
第3章 Python のモジュール
3.1 モジュール/3.2 pandas ライブラリ/3.3 NumPy ライブラリ/3.4 Matplotlib ライブラリ
第4章 データ分析の基礎
4.1 データとは/4.2 データの収集/4.3 データの観察と理解/4.4 データの整形と加工
第5章 テキストデータの分析
5.1 テキストデータ/5.2 テキストの分かち書きと形態素解析/5.3 テキストのベクトル表現/5.4 テキストの類似度/5.5 プログラミング
第6章 ネットワークデータの分析
6.1 ネットワーク分析/6.2 ネットワークの行列表現/6.3 最短経路/6.4 中心性/6.5 固有ベクトル中心性/6.6 ページランク/6.7 プログラミング
第7章 機械学習の基礎
7.1 データの表現/7.2 教師あり学習/7.3 汎化性能/7.4 教師なし学習/7.5 機械学習のモデル/7.6 プログラミング
第8章 クラスタリング
8.1 クラスタリング/8.2 階層化クラスタリング/8.3 K-means 法/8.4 【発展】確率分布モデルによる K-means 法の解釈/8.5 プログラミング
第9章 主成分分析
9.1 主成分分析による次元削減/9.2 主成分分析の考え方/9.3 主成分分析の詳細/9.4 プログラミング
第10章 線形回帰
10.1 線形回帰/10.2 最小二乗法/10.3 勾配降下法/10.4 勾配降下法の一般化/10.5 正規方程式の一般化/10.6 モデルの評価/10.7 【発展】最尤法によるパラメータ推定/10.8 プログラミング
第11章 モデル選択
11.1 過学習/11.2 モデル選択/11.3 交差検証/11.4 交差検証によるモデル選択の例
第12章 ロジスティック回帰
12.1 ロジスティック回帰モデルによる分類/12.2 ロジスティック回帰モデルのパラメータ推定/12.3 ロジスティック回帰モデルのパラメータ推定の一般化/12.4 【発展】多クラス分類/12.5 分類結果の評価/12.6 プログラミング
第13章 ニューラルネットワークの基礎
13.1 ニューロンとニューラルネットワーク/13.2 多層ニューラルネットワーク/13.3 【発展】ニューラルネットワークによる関数の表現/13.4 【発展】ニューラルネットワークの学習/13.5 確率的勾配降下法/13.6 深層ニューラルネットワーク
付録 Python のプログラミング環境
付.1 Colaboratory/付.2 Anaconda
さらに勉強するために
索引