作 译 者:零一,韩要宾,黄园园
出版时间:2018-03 千 字 数:200
版 次:01-01 页 数:212
开 本:16开
装 帧:
I S B N :9787121333590
换 版:
所属分类:科技 >> 计算机 >> 计算机科学
纸质书定价:¥49.0
本书内容来自笔者在浙江某高校授课内容,主要介绍运用Python工具获取电商平台的页面数据,并对数据做清洗和存储。本书简化了Python基础部分,保证有足够的篇幅来介绍爬虫和数据清洗的内容,对于Python基础,建议新手可以选购对应的基础书籍配合本书一起学习。
第1 章 Python 基础 ..................................................................................... 1
1.1 安装Python 环境.............................................................................................................. 1
1.1.1 Python 3.6.2 安装与配置 .......................................................................................... 1
1.1.2 使用IDE 工具——PyCharm .................................................................................... 4
1.1.3 使用IDE 工具——Anaconda ................................................................................... 4
1.2 Python 操作入门 .............................................................................................................. 6
1.2.1 编写第一个Python 代码 .......................................................................................... 6
1.2.2 Python 基本操作 ....................................................................................................... 9
1.2.3 变量 .......................................................................................................................... 10
1.3 Python 数据类型 ............................................................................................................ 10
1.3.1 数字 .......................................................................................................................... 10
1.3.2 字符串 .......................................................................................................................11
1.3.3 列表 .......................................................................................................................... 13
1.3.4 元组 .......................................................................................................................... 14
1.3.5 集合 .......................................................................................................................... 15
1.3.6 字典 .......................................................................................................................... 15
1.4 Python 语句与函数 ......................................................................................................... 16
1.4.1 条件语句 .................................................................................................................. 16
1.4.2 循环语句 .................................................................................................................. 16
1.4.3 函数 .......................................................................................................................... 17
第2 章 写一个简单的爬虫 .......................................................................... 18
2.1 关于爬虫的合法性 ......................................................................................................... 18
2.2 了解网页 ......................................................................................................................... 20
2.2.1 认识网页结构 .......................................................................................................... 21
2.2.2 写一个简单的HTML ............................................................................................. 21
2.3 使用requests 库请求网站 .............................................................................................. 23
Python 3 爬虫、数据清洗与可视化实战
2.3.1 安装requests 库 ....................................................................................................... 23
2.3.2 爬虫的基本原理 ...................................................................................................... 25
2.3.3 使用GET 方式抓取数据 ........................................................................................ 26
2.3.4 使用POST 方式抓取数据 ...................................................................................... 27
2.4 使用Beautiful Soup 解析网页 ....................................................................................... 30
2.5 清洗和组织数据 ............................................................................................................. 34
2.6 爬虫攻防战 ..................................................................................................................... 35
第3 章 用API 爬取天气预报数据 ............................................................... 38
3.1 注册免费API 和阅读技术文档 ..................................................................................... 38
3.2 获取API 数据 ................................................................................................................ 40
3.3 存储数据到MongoDB ................................................................................................... 45
3.3.1 下载并安装MongoDB ............................................................................................ 45
3.3.2 在PyCharm 中安装Mongo Plugin ......................................................................... 46
3.3.3 将数据存入MongoDB ............................................................................................ 49
3.4 MongoDB 数据库查询 ................................................................................................... 52
第4 章 大型爬虫案例:抓取某电商网站的商品数据 ................................... 55
4.1 观察页面特征和解析数据 ............................................................................................. 55
...................
书 名Python 3网络爬虫开发实战
系列书名图灵原创
执行编辑关于本书的内容有任何问题,请联系 王军花
书 号978-7-115-48034-7
页 数608
印刷方式单色
开 本16开
出版状态正在排版
定价99.00
本书特色
1.本书详细介绍了爬虫的关键技术,涵盖面广,实用性强。
2.本书作者崔庆才,北京航空航天大学硕士,北京钉趣网络公司技术总监,其个人博客为cuiqingcai.com,其上爬虫文章的浏览量总计已过百万。
目录
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫。
本书适合Python程序员阅读。
作 译 者: | |||||||||
| |||||||||
所属分类: >> >> 数据库 | |||||||||
纸质书定价:¥59.0 |
本书作为数据分析的入门图书,以Python语言为基础,介绍了数据分析的整个流程。本书内容涵盖数据的获取(即网络爬虫程序的设计)、前期数据的清洗和处理、运用机器学习算法进行建模分析,以及使用可视化的方法展示数据及结果。首先,书中不会涉及过于高级的语法,不过还是希望读者有一定的语法基础,这样可以更好地理解本书的内容。其次,本书重点在于应用Python来完成一些数据分析和数据处理的工作,即如何使用Python来完成工作而非专注于Python语言语法等原理的讲解。本书的目的是让初学者不论对数据分析流程本身还是Python语言,都能有一个十分直观的感受,为以后的深入学习打下基础。最后,读者不必须按顺序通读本书,因为各个章节层次比较分明,可以根据兴趣或者需要来自行安排。例如第5章介绍了一些实战的小项目,有趣且难度不大,大家可以在学习前面内容之余来阅读这部分内容。
1 准备 1
1.1 开发环境搭建 2
1.1.1 在Ubuntu系统下搭建Python集成开发环境 2
1.1.2 在Windows系统下搭建Python集成开发环境 13
1.1.3 三种安装第三方库的方法 16
1.2 Python基础语法介绍 19
1.2.1 if__name__=='__main__' 20
1.2.2 列表解析式 22
1.2.3 装饰器 23
1.2.4 递归函数 26
1.2.5 面向对象 27
1.3 The Zen of Python 28
参考文献 30
2 数据的获取 31
2.1 爬虫简介 31
2.2 数据抓取实践 33
2.2.1 请求网页数据 33
2.2.2 网页解析 38
2.2.3 数据的存储 46
2.3 爬虫进阶 50
2.3.1 异常处理 50
2.3.2 robots.txt 58
2.3.3 动态UA 60
2.3.4 代理IP 61
2.3.5 编码检测 61
2.3.6 正则表达式入门 63
2.3.7 模拟登录 69
2.3.8 验证码问题 74
2.3.9 动态加载内容的获取 84
2.3.10 多线程与多进程 93
2.4 爬虫总结 101
参考文献 102
3 数据的存取与清洗 103
3.1 数据存取 103
3.1.1 基本文件操作 103
3.1.2 CSV文件的存取 111
3.1.3 JSON文件的存取 116
3.1.4 XLSX文件的存取 121
3.1.5 MySQL数据库文件的存取 137
3.2 NumPy 145
3.2.1 NumPy简介 145
3.2.2 NumPy基本操作 146
3.3 pandas 158
3.3.1 pandas简介 158
3.3.2 Series与DataFrame的使用 159
3.3.3 布尔值数组与函数应用 169
3.4 数据的清洗 174
3.4.1 编码问题 174
3.4.2 缺失值的检测与处理 175
3.4.3 去除异常值 181
3.4.4 去除重复值与冗余信息 183
3.4.5 注意事项 185
参考文献 187
4 数据的分析及可视化 188
4.1 探索性数据分析 189
4.1.1 基本流程 189
4.1.2 数据降维 197
4.2 机器学习入门 199
4.2.1 机器学习简介 200
4.2.2 决策树——机器学习算法的应用 202
4.3 手动实现KNN算法 205
4.3.1 特例——最邻近分类器 205
4.3.2 KNN算法的完整实现 213
4.4 数据可视化 215
4.4.1 高质量作图工具——matplotlib 215
4.4.2 快速作图工具——pandas与matplotlib 223
4.4.3 简捷作图工具——seaborn与matplotlib 226
4.4.4 词云图 230
参考文献 232
5 Python与生活 234
5.1 定制一个新闻提醒服务 234
5.1.1 新闻数据的抓取 235
5.1.2 实现邮件发送功能 237
5.1.3 定时执行及本地日志记录 239
5.2 Python与数学 241
5.2.1 估计π值 242
5.2.2 三门问题 245
5.2.3 解决LP与QP问题(选读) 247
5.3 QQ群聊天记录数据分析 251
参考文献 256
评分
评分
评分
评分
评分
评分
评分
评分
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有