Python网络数据爬取及分析从入门到精通(分析篇)(内容讲解专业但不晦涩,实例分析实际但不枯燥)
作者:杨秀璋,颜娜出版社:北京航空航天大学出版社出版时间:2018年05月
定价 59.8元
版 次:1页 数:字 数:印刷时间:2018年05月28日开 本:16开纸 张:胶版纸包 装:平装-胶订是否套装:否国际标准书号ISBN:9787512427136
所属分类:
图书>计算机/网络>程序设计>其他
编辑推荐
这是一套以实例为主、使用Python语言讲解网络数据爬虫及分析的实战指南。本套书通俗易懂,涵盖了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例进行详细讲解。
本套书包括两本:《Python网络数据爬取及分析从入门到精通(爬取篇)》和《Python网络数据爬取及分析从入门到精通(分析篇)》。
看完此书,真正让你做到从入门到精通。
本书采用通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python语言进行网络数据分析的知识,主要内容包括Python数据分析常用库、可视化分析、回归分析、聚类分析、分类分析、关联规则挖掘分析、数据预处理及文本聚类、词云热点与主题分布分析、复杂网络与基于数据库技术的分析等。
书中所有知识点都结合了具体的实例进行介绍,涉及的实例都给出了详细分析流程,程序代码都给出了具体的注释,采用图文结合的形式讲解,让读者能更加轻松地领会Python网络数据分析的精髓,快速提高自己的开发能力。
本书既可作为Python开发入门者的自学用书,也可作为高等院校数据分析、数据挖掘、机器学习、大数据等相关专业的教学参考书或实验指导书,还可供Python数据分析人员查阅、参考。
作者简介
杨秀璋,毕业于北京理工大学软件学院,长期从事Web数据挖掘、Python数据分析、网络数据爬取工作及研究。他现任教于贵州财经大学信息学院,主讲“数据挖掘与分析”“大数据技术及应用”课程,并从事大数据分析、数据挖掘、知识图谱等领域的项目研究与开发;有多年的Python编程、数据分析及知识图谱研究经验,实战经验较为丰富。
此外,他还积极分享编程知识和开源代码编写经验,先后在CSDN、博客园、阿里云栖社区撰写博客,仅在CSDN就分享了300多篇原创文章,开设了11个专栏,累计阅读量超过250万人次。
第1章 网络数据分析概述 1
1.1 数据分析 1
1.2 相关技术 3
1.3 Anaconda开发环境 5
1.4 常用数据集 9
1.4.1 Sklearn数据集 9
1.4.2 UCI数据集 10
1.4.3 自定义爬虫数据集 11
1.4.4 其他数据集 12
1.5 本章小结 13
参考文献 14
第2章 Python数据分析常用库 15
2.1 常用库 15
2.2 NumPy 17
2.2.1 Array用法 17
2.2.2 二维数组操作 19
2.3 Pandas 21
2.3.1 读/写文件 22
2.3.2 Series 24
2.3.3 DataFrame 26
2.4 Matplotlib 26
2.4.1 基础用法 27
2.4.2 绘图简单示例 28
2.5 Sklearn 31
2.6 本章小结 32
参考文献 32
第3章 Python可视化分析 33
3.1 Matplotlib可视化分析 33
3.1.1 绘制曲线图 33
3.1.2 绘制散点图 37
3.1.3 绘制柱状图 40
3.1.4 绘制饼状图 42
3.1.5 绘制3D图形 43
3.2 Pandas读取文件可视化分析 45
3.2.1 绘制折线对比图 45
3.2.2 绘制柱状图和直方图 48
3.2.3 绘制箱图 51
3.3 ECharts可视化技术初识 53
3.4 本章小结 57
参考文献 57
第4章 Python回归分析 58
4.1 回 归 58
4.1.1 什么是回归 58
4.1.2 线性回归 59
4.2 线性回归分析 60
4.2.1 LinearRegression 61
4.2.2 线性回归预测糖尿病 63
4.3 多项式回归分析 68
4.3.1 基础概念 68
4.3.2 PolynomialFeatures 69
4.3.3 多项式回归预测成本和利润 70
4.4 逻辑回归分析 73
4.4.1 LogisticRegression 75
4.4.2 鸢尾花数据集回归分析实例 75
4.5 本章小结 83
参考文献 83
第5章 Python聚类分析 85
5.1 聚 类 85
5.1.1 算法模型 85
5.1.2 常见聚类算法 86
5.1.3 性能评估 88
5.2 K-Means 90
5.2.1 算法描述 90
5.2.2 用K-Means分析篮球数据 96
5.2.3 K-Means聚类优化 99
5.2.4 设置类簇中心 103
5.3 BIRCH 105
5.3.1 算法描述 105
5.3.2 用BIRCH 分析氧化物数据 106
5.4 降维处理 110
5.4.1 PCA降维 111
5.4.2 Sklearn PCA降维 111
5.4.3 PCA降维实例 113
5.5 本章小结 117
参考文献 118
第6章 Python分类分析 119
6.1 分 类 119
6.1.1 分类模型 119
6.1.2 常见分类算法 120
6.1.3 回归、聚类和分类的区别 122
6.1.4 性能评估 123
6.2 决策树 123
6.2.1 算法实例描述 123
6.2.2 DTC算法 125
6.2.3 用决策树分析鸢尾花 126
6.2.4 数据集划分及分类评估 128
6.2.5 区域划分对比 132
6.3 KNN分类算法 136
6.3.1 算法实例描述 136
6.3.2 KNeighborsClassifier 138
6.3.3 用KNN分类算法分析红酒类型 139
6.4 SVM 分类算法 147
6.4.1 SVM 分类算法的基础知识 147
6.4.2 用SVM 分类算法分析红酒数据 148
6.4.3 用优化SVM 分类算法分析红酒数据集 151
6.5 本章小结 154
参考文献 154
第7章 Python关联规则挖掘分析 156
7.1 基本概念 156
7.1.1 关联规则 156
7.1.2 置信度与支持度 157
7.1.3 频繁项集 158
7.2 Apriori算法 159
7.3 Apriori算法的实现 163
7.4 本章小结 167
参考文献 167
第8章 Python数据预处理及文本聚类 168
8.1 数据预处理概述 168
8.2 中文分词 170
8.2.1 中文分词技术 170
8.2.2 Jieba中文分词工具 171
8.3 数据清洗 175
8.3.1 概 述 175
8.3.2 中文语料清洗 176
8.4 特征提取及向量空间模型 179
8.4.1 特征规约 179
8.4.2 向量空间模型 181
8.4.3 余弦相似度计算 182
8.5 权重计算 184
8.5.1 常用权重计算方法 184
8.5.2 TF-IDF 185
8.5.3 用Sklearn计算TF-IDF 186
8.6 文本聚类 188
8.7 本章小结 192
参考文献 192
第9章 Python词云热点与主题分布分析 193
9.1 词 云 193
9.2 WordCloud的安装及基本用法 194
9.2.1 WordCloud的安装 194
9.2.2 WordCloud的基本用法 195
9.3 LDA 203
9.3.1 LDA的安装过程 203
9.3.2 LDA的基本用法及实例 204
9.4 本章小结 214
参考文献 214
第10章 复杂网络与基于数据库技术的分析 215
10.1 复杂网络 215
10.1.1 复杂网络和知识图谱 215
10.1.2 NetworkX 217
10.1.3 用复杂网络分析学生关系网 219
10.2 基于数据库技术的数据分析 224
10.2.1 数据准备 224
10.2.2 基于数据库技术的可视化分析 225
10.2.3 基于数据库技术的可视化对比 232
10.3 基于数据库技术的博客行为分析 234
10.3.1 幂率分布 234
10.3.2 用幂率分布分析博客数据集 235
10.4 本章小结 245
参考文献 245
本套后记 246
致谢 248
Python网络数据爬取及分析从入门到精通(爬取篇)(内容讲解专业但不晦涩,实例分析实际但不枯燥)
作者:杨秀璋,颜娜出版社:北京航空航天大学出版社出版时间:2018年05月
定价 59.8元
版 次:1页 数:字 数:印刷时间:2018年05月28日开 本:16开纸 张:胶版纸包 装:平装-胶订是否套装:否国际标准书号ISBN:9787512427129
所属分类:
图书>计算机/网络>程序设计>其他
编辑推荐
这是一套以实例为主、使用Python语言讲解网络数据爬虫及分析的实战指南。本套书通俗易懂,涵盖了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例进行详细讲解。
本套书包括两本:《Python网络数据爬取及分析从入门到精通(爬取篇)》和《Python网络数据爬取及分析从入门到精通(分析篇)》。
看完此书,真正让你做到从入门到精通。
本书采用通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python语言进行网络数据爬取的知识,主要内容包括Python语法、正则表达式、BeautifulSoup技术、Selenium技术、Scrapy框架、数据库存储等,同时详细介绍了爬取网站和博客内容、电影数据信息、招聘信息、在线百科知识、微博内容、农产品信息等实例。
书中所有知识点都结合经典实例进行介绍,涉及的实例都给出了详细的分析流程,程序代码都给出了具体的注释,同时采用图文结合的形式讲解,让读者能更加轻松地领会Python网络数据爬虫的精髓,并快速提高自己的开发能力。
本书即可作为Python开发入门者的自学用书,也可作为高等院校数据爬取、数据分析、数据挖掘、大数据等相关专业的教学参考书或实验指导书,还可供Python开发人员查阅、参考。
作者简介
杨秀璋,毕业于北京理工大学软件学院,长期从事Web数据挖掘、Python数据分析、网络数据爬取工作及研究。他现任教于贵州财经大学信息学院,主讲“数据挖掘与分析”“大数据技术及应用”课程,并从事大数据分析、数据挖掘、知识图谱等领域的项目研究与开发;有多年的Python编程、数据分析及知识图谱研究经验,实战经验较为丰富。
此外,他还积极分享编程知识和开源代码编写经验,先后在CSDN、博客园、阿里云栖社区撰写博客,仅在CSDN就分享了300多篇原创文章,开设了11个专栏,累计阅读量超过250万人次。
第1章 网络数据爬取概述 1
1.1 网络爬虫 1
1.2 相关技术 3
1.2.1 HTTP 3
1.2.2 HTML 3
1.2.3 Python 5
1.3 本章小结 5
参考文献 5
第2章 Python知识初学 6
2.1 Python简介 6
2.2 基础语法 11
2.2.1 缩进与注释 11
2.2.2 变量与常量 12
2.2.3 输入与输出 14
2.2.4 赋值与表达式 16
2.3 数据类型 16
2.3.1 数字类型 16
2.3.2 字符串类型 17
2.3.3 列表类型 17
2.3.4 元组类型 19
2.3.5 字典类型 19
2.4 条件语句 19
2.4.1 单分支 20
2.4.2 二分支 20
2.4.3 多分支 21
2.5 循环语句 22
2.5.1 while循环 22
2.5.2 for循环 24
2.5.3 break和continue语句 24
2.6 函 数 25
2.6.1 自定义函数 26
2.6.2 常见内部库函数 27
2.6.3 第三方库函数 29
2.7 字符串操作 30
2.8 文件操作 32
2.8.1 打开文件 32
2.8.2 读/写文件 32
2.8.3 关闭文件 33
2.8.4 循环遍历文件 34
2.9 面向对象 34
2.10 本章小结 36
参考文献 36
第3章 正则表达式爬虫之牛刀小试 37
3.1 正则表达式 37
3.2 Python网络数据爬取的常用模块 39
3.2.1 urllib模块 39
3.2.2 urlparse模块 42
3.2.3 requests模块 44
3.3 正则表达式爬取网络数据的常见方法 45
3.3.1 爬取标签间的内容 45
3.3.2 爬取标签中的参数 49
3.3.3 字符串处理及替换 50
3.4 个人博客爬取实例 52
3.4.1 分析过程 52
3.4.2 代码实现 57
3.5 本章小结 59
参考文献 59
第4章 BeautifulSoup技术 60
4.1 安装BeautifulSoup 60
4.1.1 Python 2.7安装BeautifulSoup 60
4.1.2 pip安装扩展库 63
4.2 快速开始BeautifulSoup解析 67
4.2.1 BeautifulSoup解析 HTML 68
4.2.2 简单获取网页标签信息 71
4.2.3 定位标签并获取内容 72
4.3 深入了解BeautifulSoup 73
4.3.1 BeautifulSoup对象 74
4.3.2 遍历文档树 79
4.3.3 搜索文档树 82
4.4 BeautifulSoup简单爬取个人博客网站 84
4.5 本章小结 87
参考文献 87
第5章 BeautifulSoup爬取电影信息 88
5.1 分析网页DOM 树结构 88
5.1.1 分析网页结构及简单爬取 88
5.1.2 定位节点及网页翻页分析 91
5.2 爬取豆瓣电影信息 94
5.3 链接跳转分析及详情页面爬取 98
5.4 本章小结 104
参考文献 104
第6章 Python数据库知识 105
6.1 MySQL数据库 105
6.1.1 MySQL的安装与配置 105
6.1.2 SQL基础语句详解 112
6.2 Python操作 MySQL数据库 119
6.2.1 安装 MySQL扩展库 119
6.2.2 程序接口DB-API 121
6.2.3 Python调用 MySQLdb扩展库 122
6.3 Python操作SQLite 3数__________据库 126
6.4 本章小结 129
参考文献 129
第7章 基于数据库存储的BeautifulSoup招聘爬虫 130
7.1 知识图谱和智联招聘 130
7.2 BeautifulSoup爬取招聘信息 132
7.2.1 分析网页超链接及跳转处理 132
7.2.2 DOM 树节点分析及网页爬取 135
7.3 Navicat for MySQL工具操作数据库 137
7.3.1 连接数据库 137
7.3.2 创建数据库 139
7.3.3 创建表 141
7.3.4 数据库增删改查操作 143
7.4 MySQL数据库存储招聘信息 146
7.4.1 MySQL操作数据库 146
7.4.2 代码实现 148
7.5 本章小结 153
参考文献 153
第8章 Selenium技术 154
8.1 初识Selenium 154
8.1.1 安装Selenium 155
8.1.2 安装浏览器驱动 156
8.1.3 PhantomJS 158
8.2 快速开始Selenium解析 159
8.3 定位元素 162
8.3.1 通过id属性定位元素 163
8.3.2 通过name属性定位元素 165
8.3.3 通过XPath路径定位元素 166
8.3.4 通过起链接文本定位元素 168
8.3.5 通过标签名定位元素 169
8.3.6 通过类属性名定位元素 170
8.3.7 通过CSS选择器定位元素 170
8.4 常用方法和属性 170
8.4.1 操作元素的方法 170
8.4.2 WebElement常用属性 174
8.5 键盘和鼠标自动化操作 175
8.5.1 键盘操作 175
8.5.2 鼠标操作 177
8.6 导航控制 178
8.6.1 下拉菜单交互操作 178
8.6.2 Window和Frame间对话框的移动 179
8.7 本章小结 180
参考文献 180
第9章 Selenium爬取在线百科知识 181
9.1 三大在线百科 181
9.1.1 维基百科 181
9.1.2 百度百科 183
9.1.3 互动百科 184
9.2 Selenium爬取维基百科 185
9.2.1 网页分析 185
9.2.2 代码实现 190
9.3 Selenium爬取百度百科 190
9.3.1 网页分析 190
9.3.2 代码实现 195
9.4 Selenium爬取互动百科 198
9.4.1 网页分析 198
9.4.2 代码实现 200
9.5 本章小结 202
参考文献 203
第10章 基于数据库存储的Selenium博客爬虫 204
10.1 博客网站 204
10.2 Selenium爬取博客信息 206
10.2.1 Forbidden错误 206
10.2.2 分析博客网站翻页方法 208
10.2.3 DOM 树节点分析及网页爬取 210
10.3 MySQL数据库存储博客信息 212
10.3.1 Navicat for MySQL创建表 213
10.3.2 Python操作 MySQL数据库 214
10.3.3 代码实现 216
10.4 本章小结 222
第11章 基于登录分析的Selenium微博爬虫 223
参考文献 242
第12章 基于图片抓取的Selenium爬虫 243
12.4 本章小结 254
第13章 Scrapy技术爬取网络数据 255
13.4 本章小结 285
参考文献 285
套书后记 286
致谢 288
评分
评分
评分
评分
评分
评分
评分
评分
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有