Python数据分析入门――从数据获取到可视化 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

沈祥壮著

图书标签:

Python
数据分析
数据可视化
Pandas
NumPy
Matplotlib
Seaborn
数据清洗
数据处理
入门

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到新城书站

book.cndgn.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：电子工业出版社

ISBN：9787121336539

版次：1

商品编码：12330816

品牌：Broadview

包装：平装

开本：16开

出版时间：2018-03-01

用纸：胶版纸

页数：260

字数：290000

正文语种：中文

具体描述

产品特色

编辑推荐

适读人群：了解基本的Python语法，想利用Python进行数据分析，数据挖掘的初学者

这是一本务实之作，充分体现数据分析流程的各项环节，包含数据的采集、清洗和探索性分析，并通过大家耳熟能说的Python工具加以实操。

内容简介

本书作为数据分析的入门图书，以Python语言为基础，介绍了数据分析的整个流程。本书内容涵盖数据的获取（即网络爬虫程序的设计）、前期数据的清洗和处理、运用机器学习算法进行建模分析，以及使用可视化的方法展示数据及结果。首先，书中不会涉及过于高级的语法，不过还是希望读者有一定的语法基础，这样可以更好地理解本书的内容。其次，本书重点在于应用Python来完成一些数据分析和数据处理的工作，即如何使用Python来完成工作而非专注于Python语言语法等原理的讲解。本书的目的是让初学者不论对数据分析流程本身还是Python语言，都能有一个十分直观的感受，为以后的深入学习打下基础。最后，读者不必须按顺序通读本书，因为各个章节层次比较分明，可以根据兴趣或者需要来自行安排。例如第5章介绍了一些实战的小项目，有趣且难度不大，大家可以在学习前面内容之余来阅读这部分内容。

作者简介

沈祥壮

自学Python两年，以数据分析为主线，系统学习了数据的采集，处理、分析和可视化。在研究统计机器学习理论的同时，使用Python语言实现了部分统计学习算法。研究方向包括数据采集，数据挖掘，统计机器学习及图像处理。

精彩书评

这是一本务实之作，充分体现数据分析流程的各项环节，包含数据的采集、清洗和探索性分析，并通过大家耳熟能说的Python工具加以实操。对Python的初学者来说，可以从本书学到数据分析的思维和实战。这是一本不错的入门指南。

——刘顺祥（公众号：数据分析1480）嘉桥信息科技有限公司高级数据分析师

1 准备 1
1．1 开发环境搭建 2
1．1．1 在Ubuntu系统下搭建Python集成开发环境 2
1．1．2 在Windows系统下搭建Python集成开发环境 13
1．1．3 三种安装第三方库的方法 16
1．2 Python基础语法介绍 19
1．2．1 if__name__==＇__main__＇ 20
1．2．2 列表解析式 22
1．2．3 装饰器 23
1．2．4 递归函数 26
1．2．5 面向对象 27
1．3 The Zen of Python 28
参考文献 30

2 数据的获取 31
2．1 爬虫简介 31
2．2 数据抓取实践 33
2．2．1 请求网页数据 33
2．2．2 网页解析 38
2．2．3 数据的存储 46
2．3 爬虫进阶 50
2．3．1 异常处理 50
2．3．2 robots．txt 58
2．3．3 动态UA 60
2．3．4 代理IP 61
2．3．5 编码检测 61
2．3．6 正则表达式入门 63
2．3．7 模拟登录 69
2．3．8 验证码问题 74
2．3．9 动态加载内容的获取 84
2．3．10 多线程与多进程 93
2．4 爬虫总结 101
参考文献 102

3 数据的存取与清洗 103
3．1 数据存取 103
3．1．1 基本文件操作 103
3．1．2 CSV文件的存取 111
3．1．3 JSON文件的存取 116
3．1．4 XLSX文件的存取 121
3．1．5 MySQL数据库文件的存取 137
3．2 NumPy 145
3．2．1 NumPy简介 145
3．2．2 NumPy基本操作 146
3．3 pandas 158
3．3．1 pandas简介 158
3．3．2 Series与DataFrame的使用 159
3．3．3 布尔值数组与函数应用 169
3．4 数据的清洗 174
3．4．1 编码问题 174
3．4．2 缺失值的检测与处理 175
3．4．3 去除异常值 181
3．4．4 去除重复值与冗余信息 183
3．4．5 注意事项 185
参考文献 187

4 数据的分析及可视化 188
4．1 探索性数据分析 189
4．1．1 基本流程 189
4．1．2 数据降维 197
4．2 机器学习入门 199
4．2．1 机器学习简介 200
4．2．2 决策树――机器学习算法的应用 202
4．3 手动实现KNN算法 205
4．3．1 特例――最邻近分类器 205
4．3．2 KNN算法的完整实现 213
4．4 数据可视化 215
4．4．1 高质量作图工具――matplotlib 215
4．4．2 快速作图工具――pandas与matplotlib 223
4．4．3 简捷作图工具――seaborn与matplotlib 226
4．4．4 词云图 230
参考文献 232

5 Python与生活 234
5．1 定制一个新闻提醒服务 234
5．1．1 新闻数据的抓取 235
5．1．2 实现邮件发送功能 237
5．1．3 定时执行及本地日志记录 239
5．2 Python与数学 241
5．2．1 估计π值 242
5．2．2 三门问题 245
5．2．3 解决LP与QP问题（选读） 247
5．3 QQ群聊天记录数据分析 251
参考文献 256

精彩书摘

3.4 数据的清洗

数据的清洗工作，在整个数据分析的流程中占据重要的地位，需要消耗大量的时间和精力。因为数据没有清洗干净会为后续的分析造成很多不必要的麻烦，严重时还可能得到错误的分析结果，事倍功半。所以数据的清洗是非常值得重视的。作为数据分析的入门书，这里将以pandas库为主，介绍一些常用的、清洗数据的方法。

3.4.1 编码问题

我们接触到的数据中有时会包含大量的文本数据，而文本数据的编码是大多数人都感到头疼的事情。其实，在介绍爬虫的时候，获取网页数据可以通过chardet检测编码来确保编码的正确性。当然在编写爬虫程序时，这是一种极为有效的办法。这里介绍另一种方法来解决更加普遍的编码问题，那就是ftfy库。

先来看一个简单的爬虫。

In [5]: import requests

In [6]: data = requests.get('http://www.baidu.com')

In [7]: data

Out[7]:

In [8]: data.text()

运行输出如下所示（部分）。

class=cp-feedback>æx84x8fè§x81åx8fx8dé¦x88

äº¬ICPè¯x810301

73åx8f?

/gs.gif>

body>

相信读者对这段代码已经非常熟悉了，程序只是简单地请求了百度主页的内容。但是从结果可以看出，输出的文本并没有中文，显然存在编码问题。

用ftfy解决问题的代码如下。

In [15]: from ftfy import fix_text

In [16]: fix_text(data.text)

运行输出如下所示（部分）。

; 京ICP证030173号

data-lazyload=//www.baidu.com/img/gs.gif>

可以看到，只需要简单的调用另外一行代码就可以修复编码问题。ftfy还有许多其他的特性，就不再介绍。如果读者在工作中需要处理更复杂的编码问题，可以参考ftfy官方文档进行进一步学习。

3.4.2 缺失值的检测与处理

缺失值的检测，代码如下。

In [37]: df = DataFrame({'c1':[0,1,2,None], 'c2':[1,None,2, 3]})

In [38]: df

Out[38]:

c1 c2

0 0.0 1.0

1 1.0 NaN

2 2.0 2.0

3 NaN 3.0

In [39]: df.isnull()

Out[39]:

c1 c2

0 False False

1 False True

2 False False

3 True False

In [40]: df.isnull().sum()

Out[40]:

c1 1

c2 1

dtype: int64

可以看到Python中的None在pandas被识别为缺失值NaN（Not a Number），而且我们可以通过isnull()进行检测。再通过sum()，可以得到行或者列的缺失值汇总。在当前列缺失值不太多的时候，可以通过多种方法进行缺失值的填充。

可以直接指定特定的值来填补缺失值，如下所示。

In [57]: df.fillna('missing')

Out[57]:

c1 c2

0 0 1

1 1 missing

2 2 2

3 missing 3

In [58]: df.fillna(df.mean())

Out[58]:

c1 c2

0 0.0 1.0

1 1.0 2.0

2 2.0 2.0

3 1.0 3.0

也可以指定相应的方法，根据周围的值来填补缺失值，如下所示。

In [68]: df.ix[0,1] = None

In [69]: df

Out[69]:

c1 c2

0 0.0 NaN

1 1.0 NaN

2 2.0 2.0

3 NaN 3.0

In [70]: df.fillna(method="bfill", limit=1)

Out[70]:

c1 c2

0 0.0 NaN

1 1.0 2.0

2 2.0 2.0

3 NaN 3.0

下面进行简要说明。

bfill

这里指定了bfill（back fill）方法进行填充，即为使用缺失值后面的数据进行填充，如第二列第二个缺失值，就被填充为其后面的2.0，而第一列的缺失值后面没有值，就继续保持缺失状态。类似的填充方法还有ffill，用其前面的值进行填充。

limit

使用limit是为了限制连续填充。这里选择1表示一列中有多个缺失值相邻时，只填充最近的一个缺失值。

前言/序言

Python作为一门优秀的编程语言，近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点；二是由于互联网的飞速发展，我们正迎来大数据的时代，而Python无论是在数据的采集与处理方面，还是在数据分析与可视化方面都有独特的优势。我们可以利用Python便捷地开展与数据相关的项目，以很低的学习成本快速完成项目的研究。本书本着实用性的目的，着眼于整个数据分析的流程，介绍了从数据采集到可视化的大致流程。希望借此为Python初学者打开数据分析领域的大门，初窥数据分析的奥秘。

本书的主要内容

第1章主要讲解了在Ubuntu和Windows系统下，Python集成开发环境的搭建。考虑到初学者容易为安装第三方库犯难，又介绍了三种简单实用的方法来安装这些常见的库。接着对几个后面要用到的高级语法进行了简单介绍，为之后的应用打下基础。

第2章集中讲解了数据采集的流程，即网络爬虫程序的设计与实现。首先本章没有拘泥于使用Python的内置库urllib库进行实现，而是直接介绍了requests和其他更加简捷强大的库来完成程序的设计。在进阶内容中，对常见的编码问题、异常处理、代理IP、验证码、机器人协议、模拟登录，以及多线程等相关问题给出了解决的方案。

第3章讲解数据的清洗问题。在具体讲解清洗数据之前，先介绍了TXT、XLSX、JSON、CSV等各种文件的导入和导出的方法，并介绍了Python与MySQL数据库交互的方式。接着介绍了NumPy和pandas库的基本使用方法，这是我们用于数据处理和科学计算的两个强大的工具。最后综合以上的学习介绍了数据的去重、缺失值的填补等经典的数据清洗方法。

第4章首先讲解探索性数据分析的应用，并且简单介绍了机器学习基本知识。然后演示如何应用sklearn库提供的决策树和最邻近算法来处理分类问题，并尝试根据算法原理手动实现最邻近算法。最后介绍如何使用pandas、matplotlib和seaborn这三个库来实现数据的可视化。

第5章是综合性学习的章节，讲解了三个小项目的完整实现过程，旨在通过操作生活中真正的数据来强化前面基础内容的学习。

本书的读者对象

本书面向想从事数据工作的Python初学者。由于本书并不对Python的基础语法做详细的讲解，所以希望读者有一定的语法基础。

测试环境及代码

我们使用的语法是基于Python 3的，具体是Python 3.6，用到的第三方库也已经全面支持此版本，所以读者不必担心相关的版本问题；测试环境为Ubuntu 16.04 LTS 64-Bit。本书中使用的全部代码及相关数据已经托管至Github, 读者可以进入https://github.com/shenxiangzhuang/PythonDataAnalysis进行下载。

联系作者

虽然本书只是入门级图书，但是限于笔者水平有限，难免会存在一些错误，有些地方的表述可能也不是那么准确。非常欢迎读者指出本书的不当之处或提出建设性的意见。笔者的电子邮件地址是datahonor@gmail.com。

致谢

在本书的撰写过程中受到过很多人的帮助，这里特别感谢刘松学长，感谢学长对笔者本人长久以来的帮助，从他那里我学到了很多关于Python语言、机器学习以及计算机视觉等相关知识。另外，特别感谢IT工作者谢满锐先生对本书的细心审校，也感谢他为本书的进一步修改提出建设性意见。同时，感谢电子工业出版社石倩、杨嘉媛编辑的帮助。最后，本书参阅了大量的国内外的文献，这里对有关作者表示衷心的感谢。

书名：Python数据分析入门——从数据获取到可视化简介在这个数据爆炸的时代，掌握数据分析的能力已经成为一项不可或缺的技能，无论你是希望在科研领域取得突破，还是在商业决策中占据优势，亦或是仅仅想更深入地理解我们周围的世界，数据分析都将是你强大的助推器。而Python，凭借其简洁的语法、丰富的库以及强大的社区支持，已然成为数据分析领域的首选语言。本书《Python数据分析入门——从数据获取到可视化》正是为你量身打造的一站式学习指南，将引领你踏上Python数据分析的奇妙旅程，从零开始，循序渐进，掌握从数据获取、清洗、处理、建模到最终可视化的全过程。本书特色与核心价值本书最大的特色在于其实战导向和系统性。我们不仅仅是讲解概念，更注重将理论知识转化为实际操作。从最基础的数据获取方法，到复杂的模型构建，再到直观的可视化呈现，每一个环节都配以大量真实案例和代码示例，确保你能够边学边练，快速掌握关键技能。本书的核心价值在于帮助你建立一个完整的数据分析工作流。许多入门教程可能只关注数据分析的某一个环节，导致学习者碎片化，难以形成系统的认知。而本书将带你贯穿整个数据分析的生命周期，让你理解每个环节的重要性以及它们之间的关联，从而能够独立完成一次完整的数据分析项目。适用人群零基础学习者：如果你对Python编程和数据分析一无所知，本书将为你提供坚实的基础，从Python的安装和基础语法开始，逐步引导你进入数据分析的世界。有一定编程基础但缺乏数据分析经验者：如果你已经掌握了Python的基本语法，但不知道如何将这些知识应用于数据分析，本书将为你展示Python在数据处理、分析和可视化方面的强大能力。转行或提升技能者：无论你是想进入数据科学领域，还是希望在当前工作中提升数据分析能力，本书都能为你提供扎实的理论和实践基础。学生和研究人员：如果你在学习或研究中需要处理大量数据，本书将帮助你高效地完成数据处理和分析任务，为你的研究成果提供有力的支持。内容概览本书内容设计上，我们力求逻辑清晰，由浅入深，覆盖数据分析的各个关键阶段。第一部分：Python基础与数据获取在开始数据分析之前，你需要对Python有一个基本的了解。本部分将为你打下坚实的Python编程基础，包括： Python环境搭建：详细介绍如何安装Python以及常用的开发环境（如Anaconda、Jupyter Notebook），让你能够快速进入编码状态。 Python基础语法：讲解Python的核心概念，如变量、数据类型（整数、浮点数、字符串、布尔值）、运算符、控制流（if-else语句、for循环、while循环）、函数等，帮助你掌握编写Python程序的基本功。数据结构：重点介绍Python中常用的数据结构，如列表（List）、元组（Tuple）、字典（Dictionary）和集合（Set），理解它们在数据存储和操作中的作用。数据获取：这是数据分析的起点。我们将介绍多种数据获取方式，让你能够从不同的来源获取所需数据：文件读取：学习如何读取CSV、Excel、JSON等常见格式的文件，这是最基础也是最常用的数据获取方式。网络爬虫入门：介绍使用Python库（如requests、BeautifulSoup）进行网页数据抓取的基础知识，让你能够从互联网上自动获取信息。数据库交互：讲解如何连接和操作常见的数据库（如SQLite、MySQL），提取数据库中的数据。 API调用：介绍如何通过API接口获取来自各种服务（如社交媒体、天气服务）的数据。第二部分：数据清洗与预处理原始数据往往是杂乱无章的，充斥着缺失值、异常值、格式不统一等问题，直接使用这些数据进行分析将导致错误的结果。本部分将教会你如何有效地进行数据清洗和预处理，为后续分析奠定基础。 NumPy入门：深入学习NumPy库，它是Python进行科学计算的基础，提供高效的多维数组对象和相关的数学函数。你将学会使用NumPy进行数值计算、数组操作、索引和切片等。 Pandas数据处理的核心： Pandas是Python数据分析的“瑞士军刀”。本部分将详细讲解Pandas的核心数据结构——Series和DataFrame，以及如何利用它们进行数据读取、存储、索引、选择、合并、重塑等操作。缺失值处理：学习如何检测、识别和处理数据中的缺失值，包括删除、填充（均值、中位数、众数、插值法）等策略。异常值检测与处理：介绍识别数据中异常值的方法（如箱线图、Z-score法），并探讨如何处理异常值，如移除或变换。数据格式转换与标准化：学习如何统一数据格式，处理日期时间数据、文本数据，以及进行数据类型转换。数据分组与聚合：掌握使用Pandas的`groupby()`函数进行数据分组、聚合和汇总，这是从大量数据中提取关键信息的重要手段。数据合并与连接：学习如何将多个数据集合并（merge）或连接（join），以构建更全面的分析数据集。第三部分：数据探索性分析（EDA）在清洗好数据后，我们需要对其进行深入的探索，理解数据的分布、特征之间的关系以及潜在的模式。描述性统计：使用Pandas和NumPy计算数据的均值、中位数、方差、标准差、最小值、最大值等统计量，了解数据的基本特征。数据分布分析：学习如何通过直方图、密度图等方式可视化数据的分布情况，判断数据是否符合正态分布等。特征间关系分析：探索不同特征之间的相关性，使用散点图、热力图等工具来发现变量之间的线性或非线性关系。分组分析：结合数据分组和聚合技术，深入分析不同类别下的数据特征差异。第四部分：数据可视化数据可视化是将分析结果直观呈现的关键环节，能够帮助我们更清晰地理解数据，并有效地与他人沟通发现。 Matplotlib基础：学习Matplotlib库，它是Python中最基础和最灵活的绘图库。掌握创建各种基本图表，如折线图、散点图、柱状图、饼图等，并学会自定义图表的标题、标签、图例、颜色等。 Seaborn进阶可视化： Seaborn是基于Matplotlib的高级可视化库，提供了更美观、更便捷的绘图接口，特别适合用于统计图形。学习使用Seaborn绘制更复杂的统计图表，如箱线图、小提琴图、热力图、分布图等，以及如何根据数据变量的美学属性（如颜色、大小）来映射数据。交互式可视化入门（可选）：简单介绍Plotly或Bokeh等库，让你了解如何创建交互式的图表，使数据探索更加生动。可视化最佳实践：讲解如何选择合适的图表类型来表达不同的数据含义，以及如何设计清晰、简洁、信息丰富的可视化图表。第五部分：机器学习入门与应用（可选，但推荐）虽然本书定位为入门，但掌握一些基础的机器学习模型将极大地扩展你的数据分析能力。本部分将简要介绍机器学习的基本概念，以及如何使用Python库（如Scikit-learn）来实现一些常见的模型。机器学习基本概念：介绍监督学习、无监督学习、回归、分类等核心概念。模型训练与评估：学习如何使用Scikit-learn进行模型训练，包括数据划分、特征工程（简介）、模型选择和模型评估（如准确率、精确率、召回率、F1分数、均方误差等）。常见模型示例：演示如何使用线性回归、逻辑回归、决策树、K-means聚类等基本模型解决实际问题。学习本书，你将收获：扎实的Python数据分析技能：从数据获取到可视化的完整流程，让你具备独立完成数据分析项目的能力。强大的工具箱：熟练掌握NumPy、Pandas、Matplotlib、Seaborn等核心Python数据分析库。解决实际问题的能力：通过大量的案例学习，将理论知识应用于解决现实世界中的数据问题。清晰的思维模式：理解数据分析的逻辑和方法论，培养严谨的数据思维。持续学习的动力：建立起对数据科学的兴趣，为进一步深入学习打下坚实基础。结语数据是未来的石油，而Python则是提炼这些石油的利器。《Python数据分析入门——从数据获取到可视化》将是你在这条道路上的最佳伙伴。无论你是想开启一段全新的职业生涯，还是希望在现有领域实现技术飞跃，本书都将为你提供最直接、最有效的路径。现在，就让我们一起，用Python解锁数据的无限可能！

用户评价

评分☆☆☆☆☆

这本书的排版设计非常人性化，字体大小适中，段落清晰，阅读起来非常舒适。而且，书中大量的图表和代码片段，都经过了精心设计，不仅美观，而且易于理解。我特别喜欢书中对于复杂概念的类比和解释，使得我能够很快地理解并记住。例如，在讲解数据清洗的某个环节时，作者用了一个非常贴切的生活化比喻，让我瞬间茅塞顿开。此外，书中还提供了一些非常实用的资源链接和工具推荐，为我的学习之路提供了极大的便利。我尝试使用书中推荐的一些在线平台来练习代码，感觉非常流畅。总的来说，这本书不仅仅是一本技术书籍，更是一本能够激发读者学习兴趣和探索欲望的优秀读物。它让我对数据分析产生了由衷的喜爱，并坚定了我在这个领域深入发展的决心。

评分☆☆☆☆☆

在接触这本书之前，我对Python在数据分析领域的应用了解非常有限，仅仅停留在一些零散的概念层面。而这本书的出现，彻底改变了我的认知。它不是简单地罗列Python的语法，而是将Python的强大功能与实际的数据分析任务紧密结合。从数据的导入、清洗、转换，到各种统计分析方法的应用，再到最终的数据可视化，这本书为我构建了一个完整的知识体系。我尤其欣赏作者在讲解过程中，穿插的大量实战案例。这些案例取材于现实生活中的各种场景，让我能够亲身感受到数据分析的魅力，并学到如何在实际工作中运用所学的知识。例如，书中关于用户行为分析的案例，就让我明白了如何通过分析用户点击、浏览、购买等行为数据，来优化产品设计和提升用户体验。这本书不仅是学习Python数据分析的入门指南，更是通往数据驱动决策之路的启蒙之书。

评分☆☆☆☆☆

这本书的内容深度和广度都让我感到惊喜。它不仅仅停留在基础知识的讲解，而是深入到了一些更高级的概念和技术。作者在讲解过程中，充分考虑到了读者的学习曲线，循序渐进，逻辑清晰。对于每一个重要的概念，都配以详细的代码示例和图文解释，让我能够轻松理解和掌握。我特别喜欢书中关于机器学习在数据分析中的应用章节，它为我打开了新的视野，让我看到了数据分析的更多可能性。虽然我目前还没有深入学习机器学习，但这本书让我对它产生了浓厚的兴趣，并为我日后的深入学习打下了坚实的基础。此外，书中关于数据预处理和特征工程的讲解也非常到位，这些都是数据分析中至关重要的环节，能够极大地影响分析结果的质量。这本书真的让我受益匪浅。

评分☆☆☆☆☆

这本书的内容让我对数据分析有了全新的认识。我原本以为数据分析只是简单地处理数字，但这本书让我看到了数据背后蕴含的巨大能量。作者用生动的语言和翔实的案例，将原本枯燥的代码和复杂的概念解释得通俗易懂。我尤其喜欢书中关于数据可视化的部分，它不仅仅是教你如何画图，更是引导你如何通过图表来讲述数据故事，如何让数据变得直观、有说服力。我尝试了书中介绍的几种可视化方法，发现即使是简单的柱状图和折线图，在恰当的应用下也能展现出惊人的洞察力。比如，书中关于销售数据趋势分析的案例，通过一个简单的折线图，就能清晰地看到产品的淡旺季，为制定营销策略提供了有力的依据。这让我意识到，优秀的数据分析师不仅要有扎实的技术功底，更要有敏锐的洞察力和良好的沟通能力，而这本书正是从这两个方面帮助我提升。

评分☆☆☆☆☆

这本书的封面设计非常吸引人，简洁大方，让人一眼就能联想到数据和代码的结合。我一直对数据分析很感兴趣，但又苦于不知从何入手。市面上有很多关于Python的书籍，但大多过于理论化，或者内容过于分散，很难形成一个完整的学习路径。这本书的出现，恰好填补了我的这一需求。从目录上看，它涵盖了从最基础的数据获取，到中间的数据清洗、处理，再到最终的数据可视化，整个流程都梳理得非常清晰。特别是看到“从数据获取”这个章节，就觉得非常实用，很多时候我们拿到现成的数据集，但实际工作中，很多数据都需要自己去爬取或者对接API，这部分内容的介绍，无疑能让读者在实际操作中少走很多弯路。而且，书名中“入门”二字，也让我感到安心，知道它会以循序渐进的方式引导我，不会让我一开始就面对过于复杂的概念而望而却步。我特别期待它在数据清洗方面的内容，因为数据质量问题往往是阻碍数据分析成败的关键，如果这本书能提供一些实用的技巧和方法，那就太棒了。

评分☆☆☆☆☆

非常好的书，虽然还没有看。非常好的书，虽然还没有看。

评分☆☆☆☆☆

非常好的书，虽然还没有看。非常好的书，虽然还没有看。

评分☆☆☆☆☆

书不错，内容循序渐进，适合入门

评分☆☆☆☆☆

做活动买的，很划算，省了好多钱

评分☆☆☆☆☆

写的比较详细新手高手都能看

评分☆☆☆☆☆

快递一如既往的块。京东购物。体验非常好。