书 名Python 3网络爬虫开发实战
系列书名图灵原创
执行编辑关于本书的内容有任何问题,请联系 王军花
书 号978-7-115-48034-7
定 价99.00 元
页 数608
印刷方式单色
开 本16开
出版状态正在排版
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫。
本书适合Python程序员阅读。
本书特色
1.本书详细介绍了爬虫的关键技术,涵盖面广,实用性强。
2.本书作者崔庆才,北京航空航天大学硕士,北京钉趣网络公司技术总监,其个人博客为cuiqingcai.com,其上爬虫文章的浏览量总计已过百万。
目录
正在加工……
作者介绍
崔庆才,北京航空航天大学硕士,静觅博客(https://cuiqingcai.com/)博主,爬虫博文访问量已过百万,喜欢钻研,热爱生活,乐于分享。
基本信息
定价:¥49.00
作者:唐松 陈智铨
I S B N :978-7-111-57841-3条码书号:9787111578413上架日期:2017/9/5出版日期:2017/9/5版 次:1-1出 版 社:机械工业出版社丛 书 名: 页 数:244
内容简介
本书将介绍如何使用Python编写网络爬虫程序获取互联网上的大数据。本书包括三部分内容:基础部分、进阶部分和项目实践。基础部分(第1~6章)主要介绍爬虫的三个步骤(获取网页、解析网页和存储数据),并通过诸多示例的讲解,让读者从基础内容开始系统性地学习爬虫技术,并在实践中提升Python爬虫水平。进阶部分(第7~12章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步提升爬虫水平。项目实践部分(第13~16章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。无论是否有编程基础,只要是对爬虫技术感兴趣的读者,本书就能带领读者从入门到进阶,再到实战,一步步了解爬虫,终写出自己的爬虫程序。
第1章网络爬虫入门
1.1为什么要学网络爬虫
1.1.1 网络爬虫能带来什么好处
1.1.2能从网络上爬取什么数据
1.1.3应不应该学爬虫
1.2网络爬虫是否合法
1.2.1 Robots协议
1.2.2 网络爬虫的约束
1.3网络爬虫的基本议题
1.3.1 Python爬虫的流程
1.3.2三个流程的技术实现
2章编写一个网络爬虫
2.1搭建Python平台
2.1.1 Python的安装
2.1.2使用pip安装第三方库
2.1.3使用编译器Jupyter编程
2.2 Python使用入门
2.2.1基本命令
2.2.2数据类型
2.2.3条件语句和循环语句
2.2.4函数
2.2.5面向对象编程
2.3编写一个简单的爬虫
第3章静态网页抓取
第4章动态网页抓取
第5章解析网页
第6章数据存储
第7章提升爬虫的速度
第8章反爬虫问题
第9章解决中文乱码
第10章登录与验证码处理
第11章服务器采集
第12章分布式爬虫
第13章爬虫实践一:维基百科
第14章爬虫实践二:知乎Live
第15章爬虫实践三:百度地图API
第16章爬虫实践四:餐厅点评
..
Python 3爬虫、数据清洗与可视化实战
作 译 者:零一,韩要宾,黄园园
出版时间:2018-03 千 字 数:200
版 次:01-01 页 数:212
开 本:16开
装 帧:
I S B N :9787121333590
换 版:
所属分类:科技 >> 计算机 >> 计算机科学
纸质书定价:¥49.0
1 章 Python 基础 ..................................................................................... 1
1.1 安装Python 环境.............................................................................................................. 1
1.1.1 Python 3.6.2 安装与配置 .......................................................................................... 1
1.1.2 使用IDE 工具——PyCharm .................................................................................... 4
1.1.3 使用IDE 工具——Anaconda ................................................................................... 4
1.2 Python 操作入门 .............................................................................................................. 6
1.2.1 编写一个Python 代码 .......................................................................................... 6
1.2.2 Python 基本操作 ....................................................................................................... 9
1.2.3 变量 .......................................................................................................................... 10
1.3 Python 数据类型 ............................................................................................................ 10
1.3.1 数字 .......................................................................................................................... 10
1.3.2 字符串 .......................................................................................................................11
1.3.3 列表 .......................................................................................................................... 13
1.3.4 元组 .......................................................................................................................... 14
1.3.5 集合 .......................................................................................................................... 15
1.3.6 字典 .......................................................................................................................... 15
1.4 Python 语句与函数 ......................................................................................................... 16
1.4.1 条件语句 .................................................................................................................. 16
1.4.2 循环语句 .................................................................................................................. 16
1.4.3 函数 .......................................................................................................................... 17
2 章 写一个简单的爬虫 .......................................................................... 18
2.1 关于爬虫的合法性 ......................................................................................................... 18
2.2 了解网页 ......................................................................................................................... 20
2.2.1 认识网页结构 .......................................................................................................... 21
2.2.2 写一个简单的HTML ............................................................................................. 21
2.3 使用requests 库请求网站 .............................................................................................. 23
Python 3 爬虫、数据清洗与可视化实战
2.3.1 安装requests 库 ....................................................................................................... 23
2.3.2 爬虫的基本原理 ...................................................................................................... 25
2.3.3 使用GET 方式抓取数据 ........................................................................................ 26
2.3.4 使用POST 方式抓取数据 ...................................................................................... 27
2.4 使用Beautiful Soup 解析网页 ....................................................................................... 30
2.5 清洗和组织数据 ............................................................................................................. 34
2.6 爬虫攻防战 ..................................................................................................................... 35
3 章 用API 爬取天气预报数据 ............................................................... 38
3.1 注册免费API 和阅读技术文档 ..................................................................................... 38
3.2 获取API 数据 ................................................................................................................ 40
3.3 存储数据到MongoDB ................................................................................................... 45
3.3.1 下载并安装MongoDB ............................................................................................ 45
3.3.2 在PyCharm 中安装Mongo Plugin ......................................................................... 46
3.3.3 将数据存入MongoDB ............................................................................................ 49
3.4 MongoDB 数据库查询 ................................................................................................... 52
4 章 大型爬虫案例:抓取某电商网站的商品数据 ................................... 55
4.1 观察页面特征和解析数据 ............................................................................................. 55
4.2 工作流程分析 ................................................................................................................. 64
4.3 构建类目树 ..................................................................................................................... 65
4.4 获取产品列表 ................................................................................................................. 68
4.5 代码优化 ......................................................................................................................... 70
4.6 爬虫效率优化 ................................................................................................................. 74
4.7 容错处理 ......................................................................................................................... 77
5 章 Scrapy 爬虫 ................................................................................... 78
5.1 Scrapy 简介 ..................................................................................................................... 78
5.2 Scrapy 安装 ..................................................................................................................... 79
5.3 案例:用Scrapy 抓取股票行情 .................................................................................... 80
6 章 Selenium爬虫 ................................................................................ 88
6.1 Selenium 简介 ................................................................................................................. 88
6.2 案例:用Selenium 抓取电商网站数据 ........................................................................ 90
7 章 数据库连接和查询 ........................................................................ 100
7.1 使用PyMySQL ............................................................................................................ 100
7.1.1 连接数据库 ............................................................................................................ 100
7.1.2 案例:某电商网站女装行业TOP100 销量数据 ................................................. 102
7.2 使用SQLAlchemy ........................................................................................................ 104
7.2.1 SQLAlchemy 基本介绍 ......................................................................................... 104
7.2.2 SQLAlchemy 基本语法 ......................................................................................... 105
7.3 MongoDB ...................................................................................................................... 107
7.3.1 MongoDB 基本语法 .............................................................................................. 107
7.3.2 案例:在某电商网站搜索“连衣裙”的商品数据 ............................................ 107
8 章 NumPy ......................................................................................... 109
8.1 NumPy 简介 .................................................................................................................. 109
8.2 一维数组 ........................................................................................................................110
8.2.1 数组与列表的异同 .................................................................................................110
8.2.2 数组的创建 ............................................................................................................. 111
8.3 多维数组 ........................................................................................................................ 111
8.3.1 多维数组的高效性能 .............................................................................................112
8.3.2 多维数组的索引与切片 .........................................................................................113
8.3.3 多维数组的属性 .....................................................................................................113
8.4 数组的运算 ....................................................................................................................115
9 章 pandas 数据清洗 .......................................................................... 117
9.1 数据读写、选择、整理和描述 ....................................................................................117
9.1.1 从CSV 中读取数据 ...............................................................................................119
9.1.2 向CSV 写入数据 .................................................................................................. 120
9.1.3 数据选择 ................................................................................................................ 120
9.1.4 数据整理 ................................................................................................................ 122
9.1.5 数据描述 ................................................................................................................ 123
9.2 数据分组、分割、合并和变形 ................................................................................... 124
9.2.1 数据分组 ................................................................................................................ 124
9.2.2 数据分割 ................................................................................................................ 127
9.2.3 数据合并 ................................................................................................................ 128
9.2.4 数据变形 ................................................................................................................ 134
9.2.5 案例:旅游数据的分析与变形 ............................................................................ 136
Python 3 爬虫、数据清洗与可视化实战
9.3 缺失值、异常值和重复值处理 ................................................................................... 140
9.3.1 缺失值处理 ............................................................................................................ 140
9.3.2 检测和过滤异常值 ................................................................................................ 144
9.3.3 移除重复数据 ........................................................................................................ 147
9.3.4 案例:旅游数据的值检查与处理 ........................................................................ 149
9.4 时序数据处理 ............................................................................................................... 152
9.4.1 日期/时间数据转换 ............................................................................................... 152
9.4.2 时序数据基础操作 ................................................................................................ 153
9.4.3 案例:天气数据分析与处理 ................................................................................ 155
9.5 数据类型转换 ............................................................................................................... 158
9.6 正则表达式 ................................................................................................................... 160
9.6.1 元字符与限定符 .................................................................................................... 161
9.6.2 案例:用正则表达式提取网页文本信息 ............................................................ 162
10 章 综合应用实例 ............................................................................. 164
10.1 按给用户推荐旅游产品 ................................................................................. 164
10.1.1 数据采集 .............................................................................................................. 165
10.1.2 数据清洗、建模 .................................................................................................. 169
10.2 通过热力图分析为用户提供出行建议 ..................................................................... 172
10.2.1 某旅游网站热门景点爬虫代码(qunaer_sights.py) ....................................... 175
10.2.2 提取CSV 文件中经纬度和销量信息 ................................................................ 178
10.2.3 创建景点门票销量热力地图HTML 文件 ......................................................... 179
11 章 数据可视化 ................................................................................. 182
11.1 matplotlib .................................................................................................................... 183
11.1.1 画出各省份平均价格、各省份平均成交量柱状图 .......................................... 183
11.1.2 画出各省份平均成交量折线图、柱状图、箱形图和饼图 .............................. 184
11.1.3 画出价格与成交量的散点图 .............................................................................. 185
11.2 pyecharts ...................................................................................................................... 186
11.2.1 Echarts 简介 ......................................................................................................... 186
11.2.2 pyecharts 简介 ..................................................................................................... 187
11.2.3 初识pyecharts,玫瑰相送 .................................................................................. 187
11.2.4 pyecharts 基本语法 .............................................................................................. 188
11.2.5 基于商业分析的pyecharts 图表绘制 ................................................................. 190
11.2.6 使用pyecharts 绘制其他图表 ............................................................................. 199
11.2.7 pyecharts 和Jupyter ............................................................................................. 203
评分
评分
评分
评分
评分
评分
评分
评分
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有