目 录
第壹章?理解网络爬虫 1
1.1 爬虫的定义 1
1.2 爬虫的类型 2
1.3 爬虫的原理 3
1.4 爬虫的搜索策略 5
1.5 反爬虫技术及解决方案 6
1.6 本章小结 8
第2章?爬虫开发基础 9
2.1 HTTP与HTTPS 9
2.2 请求头 11
2.3 Cookies 13
2.4 HTML 14
2.5 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小结 20
第3章?Chrome分析网站 21
3.1 Chrome开发工具 21
3.2 Elements标签 22
3.3 Network标签 23
3.4 分析QQ音乐 27
3.5 本章小结 29
第4章?Fiddler抓包工具 30
4.1 Fiddler介绍 30
4.2 Fiddler安装配置 31
4.3 Fiddler抓取手机应用 33
4.4 Toolbar工具栏 36
4.5 Web Session列表 37
4.6 View选项视图 40
4.7 Quickexec命令行 41
4.8 本章小结 42
第5章?Urllib数据抓取 43
5.1 Urllib简介 43
5.2 发送请求 44
5.3 复杂的请求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 证书验证 50
5.7 数据处理 51
5.8 本章小结 52
第6章?Requests数据抓取 54
6.1 Requests简介及安装 54
6.2 请求方式 55
6.3 复杂的请求方式 57
6.4 下载与上传 60
6.5 本章小结 63
第7章?验证码识别 64
7.1 验证码类型 64
7.2 OCR技术 66
7.3 第三方平台 69
7.4 本章小结 72
第8章?数据清洗 74
8.1 字符串操作 74
8.2 正则表达式 78
8.3 Beautiful Soup介绍及安装 84
8.4 Beautiful Soup的使用 86
8.5 本章小结 90
第9章?文档数据存储 92
9.1 CSV数据写入和读取 92
9.2 Excel数据写入和读取 94
9.3 Word数据写入和读取 99
9.4 本章小结 101
第壹0章?ORM框架 104
10.1 SQLAlchemy介绍 104
10.2 安装SQLAlchemy 105
10.3 连接数据库 106
10.4 创建数据表 108
10.5 添加数据 111
10.6 更新数据 112
10.7 查询数据 114
10.8 本章小结 116
第壹1章?MongoDB数据库操作 118
11.1 MongoDB介绍 118
11.2 安装及使用 120
11.2.1 MongoDB 120
11.2.2 MongoDB可视化工具 121
11.2.3 PyMongo 123
11.3 连接数据库 123
11.4 添加文档 125
11.5 更新文档 126
11.6 查询文档 127
11.7 本章小结 130
第壹2章?项目实战:爬取淘宝商品信息 131
12.1 分析说明 131
12.2 功能实现 134
12.3 数据存储 136
12.4 本章小结 138
第壹3章?项目实战:分布式爬虫——QQ音乐 139
13.1 分析说明 139
13.2 歌曲下载 140
13.3 歌手和歌曲信息 145
13.4 分类歌手列表 148
13.5 全站歌手列表 150
13.6 数据存储 152
13.7 分布式概念 154
13.7.1 GIL是什么 154
13.7.2 为什么会有GIL 154
13.8 并发库concurrent.futures 155
13.9 分布式爬虫 157
13.10 本章小结 159
系列书名图灵原创
执行编辑关于本书的内容有任何问题,请联系 王军花
书 号978-7-115-48034-7
页 数608
印刷方式单色
开 本16开
出版状态正在排版
定价99.00
本书特色
1.本书详细介绍了爬虫的关键技术,涵盖面广,实用性强。
2.本书作者崔庆才,北京航空航天大学硕士,北京钉趣网络公司技术总监,其个人博客为cuiqingcai.com,其上爬虫文章的浏览量总计已过百万。
目录
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫。
本书适合Python程序员阅读。
1-开发环境配置
1.1-Python3的安装
1.2-请求库的安装
1.2.1-Requests的安装
1.2.2-Selenium的安装
1.2.3-ChromeDriver的安装
1.2.4-GeckoDriver的安装
1.2.5-PhantomJS的安装
1.2.6-aiohttp的安装
1.3-解析库的安装
1.3.1-lxml的安装
1.3.2-Beautiful Soup的安装
1.3.3-pyquery的安装
1.3.4-tesserocr的安装
1.4-数据库的安装
1.4.1-MySQL的安装
1.4.2-MongoDB安装
1.4.3-Redis的安装
1.5-存储库的安装
1.5.1-PyMySQL的安装
1.5.2-PyMongo的安装
1.5.3-redis-py的安装
1.5.4-RedisDump的安装
1.6-Web库的安装
1.6.1-Flask的安装
1.6.2-Tornado的安装
1.7-App爬取相关库的安装
1.7.1-Charles的安装
1.7.2-mitmproxy的安装
1.7.3-Appium的安装
1.8-爬虫框架的安装
1.8.1-pyspider的安装
1.8.2-Scrapy的安装
1.8.3-Scrapy-Splash的安装
1.8.4-Scrapy-Redis的安装
1.9-部署相关库的安装
1.9.1-Docker的安装
1.9.2-Scrapyd的安装
1.9.3-Scrapyd-Client的安装
1.9.4-Scrapyd API的安装
1.9.5-Scrapyrt的安装
1.9.6-Gerapy的安装
2-爬虫基础
2.1-HTTP基本原理
2.2-网页基础
2.3-爬虫的基本原理
2.4-会话和Cookies
2.5-代理的基本原理
3-基本库的使用
3.1-使用urllib
3.1.1-发送请求
3.1.2-处理异常
3.1.3-解析链接
3.1.4-分析Robots协议
3.2-使用requests
3.2.1-基本用法
3.2.2-高级用法
3.3-正则表达式
3.4-抓取猫眼电影排行
4-解析库的使用
4.1-使用XPath
4.2-使用Beautiful Soup
4.3-使用pyquery
5-数据存储
5.1-文件存储
5.1.1-TXT文本存储
5.1.2-JSON文件存储
5.1.3-CSV文件存储
5.2-关系型数据库存储
5.2.1-MySQL存储
5.3-非关系型数据库存储
5.3.1-MongoDB存储
5.3.2-Redis存储
6-Ajax数据爬取
6.1-什么是Ajax
6.2-Ajax分析方法
6.3-Ajax结果提取
6.4-分析Ajax爬取今日头条街拍美图
7-动态渲染页面爬取
7.1-Selenium的使用
7.2-Splash的使用
7.3-Splash负载均衡配置
7.4-使用Selenium爬取淘宝商品
8-验证码的识别
8.1-图形验证码的识别
8.2-极验滑动验证码的识别
8.3-点触验证码的识别
8.4-微博宫格验证码的识别
9-代理的使用
9.1-代理的设置
9.2-代理池的维护
9.3-付费代理的使用
9.4-ADSL拨号代理
9.5-使用代理爬取微信公众号文章
10-模拟登录
10.1-模拟登录并爬取GitHub
10.2-Cookies池的搭建
11-App的爬取
11.1-Charles的使用
11.2-mitmproxy的使用
11.3-mitmdump爬取“得到”App电子书信息
11.4-Appium的基本使用
11.5-Appium爬取微信朋友圈
11.6-Appium+mitmdump爬取京东商品
12-pyspider框架的使用
12.1-pyspider框架介绍
12.2-pyspider的基本使用
12.3-pyspider用法详解
13-Scrapy框架的使用
13.1-Scrapy框架介绍
13.2-Scrapy入门
13.3-Selector的用法
13.4-Spider的用法
13.5-Downloader Middleware的用法
13.6-Spider Middleware的用法
13.7-Item Pipeline的用法
13.8-Scrapy对接Selenium
13.9-Scrapy对接Splash
13.10-Scrapy通用爬虫
13.11-Scrapyrt的使用
13.12-Scrapy对接Docker
13.13-Scrapy爬取新浪微博
14-分布式爬虫
14.1-分布式爬虫原理
14.2-Scrapy-Redis源码解析
14.3-Scrapy分布式实现
14.4-Bloom Filter的对接
15-分布式爬虫的部署
本书专门针对Python新手量身设计,涵盖了Python 3.5 实际开发的重要知识点。
编者使用通俗易懂的描述和丰富的示例代码,并结合日常生活中的一些小事件,使本书读起来生动有趣,一些复杂的问题也以简单的形式展现出来,读者学起来不仅轻松,而且可以充分感受到Python的魅力。
学编程必须动手才能见到成效,本书在设计上特别强调讲练结合,注重实践,不仅在讲解的过程中结合大量代码示例,同时适时穿插小项目演练,以锻炼读者的程序设计能力。
各章安排了程序调试、问题解答、温故知新等主题,帮助读者发现程序错误,解答学习中的困惑,巩固所学知识。
本书·后通过两个Python热门应用——数据分析和网络爬虫,介绍了Python在实际开发中的方法和技巧,旨在提升读者的开发技能,达成学以致用之目标。
评分
评分
评分
评分
评分
评分
评分
评分
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有