目 錄
第壹章?理解網絡爬蟲 1
1.1 爬蟲的定義 1
1.2 爬蟲的類型 2
1.3 爬蟲的原理 3
1.4 爬蟲的搜索策略 5
1.5 反爬蟲技術及解決方案 6
1.6 本章小結 8
第2章?爬蟲開發基礎 9
2.1 HTTP與HTTPS 9
2.2 請求頭 11
2.3 Cookies 13
2.4 HTML 14
2.5 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小結 20
第3章?Chrome分析網站 21
3.1 Chrome開發工具 21
3.2 Elements標簽 22
3.3 Network標簽 23
3.4 分析QQ音樂 27
3.5 本章小結 29
第4章?Fiddler抓包工具 30
4.1 Fiddler介紹 30
4.2 Fiddler安裝配置 31
4.3 Fiddler抓取手機應用 33
4.4 Toolbar工具欄 36
4.5 Web Session列錶 37
4.6 View選項視圖 40
4.7 Quickexec命令行 41
4.8 本章小結 42
第5章?Urllib數據抓取 43
5.1 Urllib簡介 43
5.2 發送請求 44
5.3 復雜的請求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 證書驗證 50
5.7 數據處理 51
5.8 本章小結 52
第6章?Requests數據抓取 54
6.1 Requests簡介及安裝 54
6.2 請求方式 55
6.3 復雜的請求方式 57
6.4 下載與上傳 60
6.5 本章小結 63
第7章?驗證碼識彆 64
7.1 驗證碼類型 64
7.2 OCR技術 66
7.3 第三方平颱 69
7.4 本章小結 72
第8章?數據清洗 74
8.1 字符串操作 74
8.2 正則錶達式 78
8.3 Beautiful Soup介紹及安裝 84
8.4 Beautiful Soup的使用 86
8.5 本章小結 90
第9章?文檔數據存儲 92
9.1 CSV數據寫入和讀取 92
9.2 Excel數據寫入和讀取 94
9.3 Word數據寫入和讀取 99
9.4 本章小結 101
第壹0章?ORM框架 104
10.1 SQLAlchemy介紹 104
10.2 安裝SQLAlchemy 105
10.3 連接數據庫 106
10.4 創建數據錶 108
10.5 添加數據 111
10.6 更新數據 112
10.7 查詢數據 114
10.8 本章小結 116
第壹1章?MongoDB數據庫操作 118
11.1 MongoDB介紹 118
11.2 安裝及使用 120
11.2.1 MongoDB 120
11.2.2 MongoDB可視化工具 121
11.2.3 PyMongo 123
11.3 連接數據庫 123
11.4 添加文檔 125
11.5 更新文檔 126
11.6 查詢文檔 127
11.7 本章小結 130
第壹2章?項目實戰:爬取淘寶商品信息 131
12.1 分析說明 131
12.2 功能實現 134
12.3 數據存儲 136
12.4 本章小結 138
第壹3章?項目實戰:分布式爬蟲——QQ音樂 139
13.1 分析說明 139
13.2 歌麯下載 140
13.3 歌手和歌麯信息 145
13.4 分類歌手列錶 148
13.5 全站歌手列錶 150
13.6 數據存儲 152
13.7 分布式概念 154
13.7.1 GIL是什麼 154
13.7.2 為什麼會有GIL 154
13.8 並發庫concurrent.futures 155
13.9 分布式爬蟲 157
13.10 本章小結 159
係列書名圖靈原創
執行編輯關於本書的內容有任何問題,請聯係 王軍花
書 號978-7-115-48034-7
頁 數608
印刷方式單色
開 本16開
齣版狀態正在排版
定價99.00
本書特色
1.本書詳細介紹瞭爬蟲的關鍵技術,涵蓋麵廣,實用性強。
2.本書作者崔慶纔,北京航空航天大學碩士,北京釘趣網絡公司技術總監,其個人博客為cuiqingcai.com,其上爬蟲文章的瀏覽量總計已過百萬。
目錄
本書介紹瞭如何利用Python 3開發網絡爬蟲,書中首先介紹瞭環境配置和基礎知識,然後討論瞭urllib、requests、正則錶達式、Beautiful Soup、XPath、pyquery、數據存儲、Ajax數據爬取等內容,接著通過多個案例介紹瞭不同場景下如何實現數據爬取,最後介紹瞭pyspider框架、Scrapy框架和分布式爬蟲。
本書適閤Python程序員閱讀。
1-開發環境配置
1.1-Python3的安裝
1.2-請求庫的安裝
1.2.1-Requests的安裝
1.2.2-Selenium的安裝
1.2.3-ChromeDriver的安裝
1.2.4-GeckoDriver的安裝
1.2.5-PhantomJS的安裝
1.2.6-aiohttp的安裝
1.3-解析庫的安裝
1.3.1-lxml的安裝
1.3.2-Beautiful Soup的安裝
1.3.3-pyquery的安裝
1.3.4-tesserocr的安裝
1.4-數據庫的安裝
1.4.1-MySQL的安裝
1.4.2-MongoDB安裝
1.4.3-Redis的安裝
1.5-存儲庫的安裝
1.5.1-PyMySQL的安裝
1.5.2-PyMongo的安裝
1.5.3-redis-py的安裝
1.5.4-RedisDump的安裝
1.6-Web庫的安裝
1.6.1-Flask的安裝
1.6.2-Tornado的安裝
1.7-App爬取相關庫的安裝
1.7.1-Charles的安裝
1.7.2-mitmproxy的安裝
1.7.3-Appium的安裝
1.8-爬蟲框架的安裝
1.8.1-pyspider的安裝
1.8.2-Scrapy的安裝
1.8.3-Scrapy-Splash的安裝
1.8.4-Scrapy-Redis的安裝
1.9-部署相關庫的安裝
1.9.1-Docker的安裝
1.9.2-Scrapyd的安裝
1.9.3-Scrapyd-Client的安裝
1.9.4-Scrapyd API的安裝
1.9.5-Scrapyrt的安裝
1.9.6-Gerapy的安裝
2-爬蟲基礎
2.1-HTTP基本原理
2.2-網頁基礎
2.3-爬蟲的基本原理
2.4-會話和Cookies
2.5-代理的基本原理
3-基本庫的使用
3.1-使用urllib
3.1.1-發送請求
3.1.2-處理異常
3.1.3-解析鏈接
3.1.4-分析Robots協議
3.2-使用requests
3.2.1-基本用法
3.2.2-高級用法
3.3-正則錶達式
3.4-抓取貓眼電影排行
4-解析庫的使用
4.1-使用XPath
4.2-使用Beautiful Soup
4.3-使用pyquery
5-數據存儲
5.1-文件存儲
5.1.1-TXT文本存儲
5.1.2-JSON文件存儲
5.1.3-CSV文件存儲
5.2-關係型數據庫存儲
5.2.1-MySQL存儲
5.3-非關係型數據庫存儲
5.3.1-MongoDB存儲
5.3.2-Redis存儲
6-Ajax數據爬取
6.1-什麼是Ajax
6.2-Ajax分析方法
6.3-Ajax結果提取
6.4-分析Ajax爬取今日頭條街拍美圖
7-動態渲染頁麵爬取
7.1-Selenium的使用
7.2-Splash的使用
7.3-Splash負載均衡配置
7.4-使用Selenium爬取淘寶商品
8-驗證碼的識彆
8.1-圖形驗證碼的識彆
8.2-極驗滑動驗證碼的識彆
8.3-點觸驗證碼的識彆
8.4-微博宮格驗證碼的識彆
9-代理的使用
9.1-代理的設置
9.2-代理池的維護
9.3-付費代理的使用
9.4-ADSL撥號代理
9.5-使用代理爬取微信公眾號文章
10-模擬登錄
10.1-模擬登錄並爬取GitHub
10.2-Cookies池的搭建
11-App的爬取
11.1-Charles的使用
11.2-mitmproxy的使用
11.3-mitmdump爬取“得到”App電子書信息
11.4-Appium的基本使用
11.5-Appium爬取微信朋友圈
11.6-Appium+mitmdump爬取京東商品
12-pyspider框架的使用
12.1-pyspider框架介紹
12.2-pyspider的基本使用
12.3-pyspider用法詳解
13-Scrapy框架的使用
13.1-Scrapy框架介紹
13.2-Scrapy入門
13.3-Selector的用法
13.4-Spider的用法
13.5-Downloader Middleware的用法
13.6-Spider Middleware的用法
13.7-Item Pipeline的用法
13.8-Scrapy對接Selenium
13.9-Scrapy對接Splash
13.10-Scrapy通用爬蟲
13.11-Scrapyrt的使用
13.12-Scrapy對接Docker
13.13-Scrapy爬取新浪微博
14-分布式爬蟲
14.1-分布式爬蟲原理
14.2-Scrapy-Redis源碼解析
14.3-Scrapy分布式實現
14.4-Bloom Filter的對接
15-分布式爬蟲的部署
本書專門針對Python新手量身設計,涵蓋瞭Python 3.5 實際開發的重要知識點。
編者使用通俗易懂的描述和豐富的示例代碼,並結閤日常生活中的一些小事件,使本書讀起來生動有趣,一些復雜的問題也以簡單的形式展現齣來,讀者學起來不僅輕鬆,而且可以充分感受到Python的魅力。
學編程必須動手纔能見到成效,本書在設計上特彆強調講練結閤,注重實踐,不僅在講解的過程中結閤大量代碼示例,同時適時穿插小項目演練,以鍛煉讀者的程序設計能力。
各章安排瞭程序調試、問題解答、溫故知新等主題,幫助讀者發現程序錯誤,解答學習中的睏惑,鞏固所學知識。
本書·後通過兩個Python熱門應用——數據分析和網絡爬蟲,介紹瞭Python在實際開發中的方法和技巧,旨在提升讀者的開發技能,達成學以緻用之目標。
評分
評分
評分
評分
評分
評分
評分
評分
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有