发表于2024-11-23
Python网络数据爬取及分析从入门到精通(分析篇)
这是一套以实例为主、使用Python语言讲解网络数据爬虫及分析的实战指南。本套书通俗易懂,涵盖了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例进行详细讲解。
本套书包括两本:《Python网络数据爬取及分析从入门到精通(爬取篇)》和《Python网络数据爬取及分析从入门到精通(分析篇)》。
看完此书,真正让你做到从入门到精通。
Python网络数据爬取及分析从入门到精通(分析篇)
本书采用通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python语言进行网络数据分析的知识,主要内容包括Python数据分析常用库、可视化分析、回归分析、聚类分析、分类分析、关联规则挖掘分析、数据预处理及文本聚类、词云热点与主题分布分析、复杂网络与基于数据库技术的分析等。
书中所有知识点都结合了具体的实例进行介绍,涉及的实例都给出了详细分析流程,程序代码都给出了具体的注释,采用图文结合的形式讲解,让读者能更加轻松地领会Python网络数据分析的精髓,快速提高自己的开发能力。
本书既可作为Python开发入门者的自学用书,也可作为高等院校数据分析、数据挖掘、机器学习、大数据等相关专业的教学参考书或实验指导书,还可供Python数据分析人员查阅、参考。
杨秀璋,毕业于北京理工大学软件学院,长期从事Web数据挖掘、Python数据分析、网络数据爬取工作及研究。他现任教于贵州财经大学信息学院,主讲“数据挖掘与分析”“大数据技术及应用”课程,并从事大数据分析、数据挖掘、知识图谱等领域的项目研究与开发;有多年的Python编程、数据分析及知识图谱研究经验,实战经验较为丰富。
此外,他还积极分享编程知识和开源代码编写经验,先后在CSDN、博客园、阿里云栖社区撰写博客,仅在CSDN就分享了300多篇原创文章,开设了11个专栏,累计阅读量超过250万人次。
第1章 网络数据分析概述…………………………………………………………… 1
1.1 数据分析 ……………………………………………………………………… 1
1.2 相关技术 ……………………………………………………………………… 3
1.3 Anaconda开发环境…………………………………………………………… 5
1.4 常用数据集 …………………………………………………………………… 9
1.4.1 Sklearn数据集…………………………………………………………… 9
1.4.2 UCI数据集 …………………………………………………………… 10
1.4.3 自定义爬虫数据集……………………………………………………… 11
1.4.4 其他数据集……………………………………………………………… 12
1.5 本章小结……………………………………………………………………… 13
参考文献 …………………………………………………………………………… 14
第2章 Python数据分析常用库 …………………………………………………… 15
2.1 常用库………………………………………………………………………… 15
2.2 NumPy ……………………………………………………………………… 17
2.2.1 Array用法 ……………………………………………………………… 17
2.2.2 二维数组操作…………………………………………………………… 19
2.3 Pandas ……………………………………………………………………… 21
2.3.1 读/写文件 ……………………………………………………………… 22
2.3.2 Series…………………………………………………………………… 24
2.3.3 DataFrame……………………………………………………………… 26
2.4 Matplotlib …………………………………………………………………… 26
2.4.1 基础用法………………………………………………………………… 27
2.4.2 绘图简单示例…………………………………………………………… 28
2.5 Sklearn ……………………………………………………………………… 31
2.6 本章小结……………………………………………………………………… 32
参考文献 …………………………………………………………………………… 32
第3章 Python可视化分析 ………………………………………………………… 33
3.1 Matplotlib可视化分析 ……………………………………………………… 33
3.1.1 绘制曲线图……………………………………………………………… 33
3.1.2 绘制散点图……………………………………………………………… 37
3.1.3 绘制柱状图……………………………………………………………… 40
3.1.4 绘制饼状图……………………………………………………………… 42
3.1.5 绘制3D图形 …………………………………………………………… 43
3.2 Pandas读取文件可视化分析 ……………………………………………… 45
3.2.1 绘制折线对比图………………………………………………………… 45
3.2.2 绘制柱状图和直方图…………………………………………………… 48
3.2.3 绘制箱图………………………………………………………………… 51
3.3 ECharts可视化技术初识 …………………………………………………… 53
3.4 本章小结……………………………………………………………………… 57
参考文献 …………………………………………………………………………… 57
第4章 Python回归分析 …………………………………………………………… 58
4.1 回 归………………………………………………………………………… 58
4.1.1 什么是回归……………………………………………………………… 58
4.1.2 线性回归………………………………………………………………… 59
4.2 线性回归分析………………………………………………………………… 60
4.2.1 LinearRegression ……………………………………………………… 61
4.2.2 线性回归预测糖尿病…………………………………………………… 63
4.3 多项式回归分析……………………………………………………………… 68
4.3.1 基础概念………………………………………………………………… 68
4.3.2 PolynomialFeatures …………………………………………………… 69
4.3.3 多项式回归预测成本和利润…………………………………………… 70
4.4 逻辑回归分析………………………………………………………………… 73
4.4.1 LogisticRegression …………………………………………………… 75
4.4.2 鸢尾花数据集回归分析实例…………………………………………… 75
4.5 本章小结……………………………………………………………………… 83
参考文献 …………………………………………………………………………… 83
第5章 Python聚类分析 …………………………………………………………… 85
5.1 聚 类………………………………………………………………………… 85
5.1.1 算法模型………………………………………………………………… 85
5.1.2 常见聚类算法…………………………………………………………… 86
5.1.3 性能评估………………………………………………………………… 88
5.2 K-Means …………………………………………………………………… 90
5.2.1 算法描述………………………………………………………………… 90
5.2.2 用K-Means分析篮球数据 …………………………………………… 96
5.2.3 K-Means聚类优化 …………………………………………………… 99
5.2.4 设置类簇中心 ………………………………………………………… 103
5.3 BIRCH ……………………………………………………………………… 105
5.3.1 算法描述 ……………………………………………………………… 105
5.3.2 用BIRCH 分析氧化物数据 ………………………………………… 106
5.4 降维处理 …………………………………………………………………… 110
5.4.1 PCA降维 ……………………………………………………………… 111
5.4.2 Sklearn PCA降维 …………………………………………………… 111
5.4.3 PCA降维实例 ………………………………………………………… 113
5.5 本章小结 …………………………………………………………………… 117
参考文献…………………………………………………………………………… 118
第6章 Python分类分析 ………………………………………………………… 119
6.1 分 类 ……………………………………………………………………… 119
6.1.1 分类模型 ……………………………………………………………… 119
6.1.2 常见分类算法 ………………………………………………………… 120
6.1.3 回归、聚类和分类的区别……………………………………………… 122
6.1.4 性能评估 ……………………………………………………………… 123
6.2 决策树 ……………………………………………………………………… 123
6.2.1 算法实例描述 ………………………………………………………… 123
6.2.2 DTC算法 ……………………………………………………………… 125
6.2.3 用决策树分析鸢尾花 ………………………………………………… 126
6.2.4 数据集划分及分类评估 ……………………………………………… 128
6.2.5 区域划分对比 ………………………………………………………… 132
6.3 KNN分类算法 …………………………………………………………… 136
6.3.1 算法实例描述 ………………………………………………………… 136
6.3.2 KNeighborsClassifier………………………………………………… 138
6.3.3 用KNN分类算法分析红酒类型 …………………………………… 139
6.4 SVM 分类算法……………………………………………………………… 147
6.4.1 SVM 分类算法的基础知识…………………………………………… 147
6.4.2 用SVM 分类算法分析红酒数据 …………………………………… 148
6.4.3 用优化SVM 分类算法分析红酒数据集 …………………………… 151
6.5 本章小结 …………………………………………………………………… 154
参考文献…………………………………………………………………………… 154
第7章 Python关联规则挖掘分析 ……………………………………………… 156
7.1 基本概念 …………………………………………………………………… 156
7.1.1 关联规则 ……………………………………………………………… 156
7.1.2 置信度与支持度 ……………………………………………………… 157
7.1.3 频繁项集 ……………………………………………………………… 158
7.2 Apriori算法………………………………………………………………… 159
7.3 Apriori算法的实现………………………………………………………… 163
7.4 本章小结 …………………………………………………………………… 167
参考文献…………………………………………………………………………… 167
第8章 Python数据预处理及文本聚类 ………………………………………… 168
8.1 数据预处理概述 …………………………………………………………… 168
8.2 中文分词 …………………………………………………………………… 170
8.2.1 中文分词技术 ………………………………………………………… 170
8.2.2 Jieba中文分词工具…………………………………………………… 171
8.3 数据清洗 …………………………………………………………………… 175
8.3.1 概 述 ………………………………………………………………… 175
8.3.2 中文语料清洗 ………………………………………………………… 176
8.4 特征提取及向量空间模型 ………………………………………………… 179
8.4.1 特征规约 ……………………………………………………………… 179
8.4.2 向量空间模型 ………………………………………………………… 181
8.4.3 余弦相似度计算 ……………………………………………………… 182
8.5 权重计算 …………………………………………………………………… 184
8.5.1 常用权重计算方法 …………………………………………………… 184
8.5.2 TF-IDF ……………………………………………………………… 185
8.5.3 用Sklearn计算TF-IDF …………………………………………… 186
8.6 文本聚类 …………………………………………………………………… 188
8.7 本章小结 …………………………………………………………………… 192
参考文献…………………………………………………………………………… 192
第9章 Python词云热点与主题分布分析 ……………………………………… 193
9.1 词 云 ……………………………………………………………………… 193
9.2 WordCloud的安装及基本用法 …………………………………………… 194
9.2.1 WordCloud的安装 …………………………………………………… 194
9.2.2 WordCloud的基本用法 ……………………………………………… 195
9.3 LDA ………………………………………………………………………… 203
9.3.1 LDA的安装过程……………………………………………………… 203
9.3.2 LDA的基本用法及实例……………………………………………… 204
9.4 本章小结 …………………………………………………………………… 214
参考文献…………………………………………………………………………… 214
第10章 复杂网络与基于数据库技术的分析 …………………………………… 215
10.1 复杂网络…………………………………………………………………… 215
10.1.1 复杂网络和知识图谱………………………………………………… 215
10.1.2 NetworkX …………………………………………………………… 217
10.1.3 用复杂网络分析学生关系网………………………………………… 219
10.2 基于数据库技术的数据分析……………………………………………… 224
10.2.1 数据准备……………………………………………………………… 224
10.2.2 基于数据库技术的可视化分析……………………………………… 225
10.2.3 基于数据库技术的可视化对比……………………………………… 232
10.3 基于数据库技术的博客行为分析………………………………………… 234
10.3.1 幂率分布……………………………………………………………… 234
10.3.2 用幂率分布分析博客数据集………………………………………… 235
10.4 本章小结…………………………………………………………………… 245
参考文献…………………………………………………………………………… 245
本套后记……………………………………………………………………………… 246
致 谢………………………………………………………………………………… 248
推荐序 一
作为与秀璋同窗同寝的10年老友,此书可以说是他实践的总结。秀璋是深受朋友信任的好兄弟,亦是深受学生爱戴的好老师,似乎有着用不完的热情,这种热情,带给我们这个社会一丝丝的温暖,在人与人之间传递着。当初在博客上不断写文章,并耐心解答网友们的各种问题,还帮助许多网友学习编程,指导他们的作业甚至毕业论文,所以,当教师这颗种子早已埋下。毕业后的秀璋,拿着同学们羡慕的北京IT行业某网络公司的录取通知书,却毅然决然踏上返乡的路,这一走,走进了大山里的贵州,成了一名受人尊敬的人民教师。生活平淡而辛苦,而乐观的秀璋却收获了爱情,此也命也。
拒绝了无数聚会的邀请,见证了无数贵阳凌晨的灯火,秀璋和颜娜孜孜不倦写下这本书,作为朋友,着实替他们高兴。作为见证这本书从下笔到问世的读者,作为一个Python爱好者及有一定数据分析功底的学生,读这本书真是如晤老友———有大量的网络数据爬取实例,从Python 基础知识到正则表达式爬虫,再到BeautifulSoup、Selenium、Scrapy爬取技术,并结合数据存储、海量图集分析、自动登录等实例进行讲解。本书配以专业但不晦涩的语言,将原本枯燥的学术知识娓娓道来,此时的秀璋不是老师,而是一个熟悉的老友,用大家听得懂的话,解释着您需要了解的一切。同时,当您学习完Python网络数据爬取之后,还推荐您继续学习本套书中的另一本书———《Python网络数据爬取及分析从入门到精通(数据分析篇)》,进而更好地掌握与Python相关的 Python网络数据爬取及分析从入门到精通(分析篇) 下载 mobi epub pdf txt 电子书 格式
Python网络数据爬取及分析从入门到精通(分析篇) 下载 mobi pdf epub txt 电子书 格式 2024
Python网络数据爬取及分析从入门到精通(分析篇) 下载 mobi epub pdf 电子书评分
评分
评分
评分
评分
评分
评分
评分
Python网络数据爬取及分析从入门到精通(分析篇) mobi epub pdf txt 电子书 格式下载 2024