套裝包括5本圖書:
想深入應用手中的數據?還是想在上韆份文件上重復同樣的分析過程?沒有編程經驗的非程序員們如何能在·短的時間內學會用當今炙手可熱的Python語言進行數據分析?
來自Facebook的數據專傢Clinton Brownley可以幫您解決上述問題。在他的這本書裏,讀者將能掌握基本Python編程方法,學會編寫齣處理電子錶格和數據庫中的數據的腳本,並瞭解使用Python模塊來解析文件、分組數據和生成統計量的方法。
學習基礎語法,創建並運行自己的Python腳本
讀取和解析CSV文件
讀取多個Excel工作錶和工作簿
執行數據庫操作
搜索特定記錄、分組數據和解析文本文件
建立統計圖並繪圖
生成描述性統計量並估計迴歸模型和分類模型
在Windows和Mac環境下按計劃自動運行腳本
網絡上的數據量越來越大,單靠瀏覽網頁獲取信息越來越睏難,如何有效地提取並利用信息已成為一個巨大的挑戰。本書采用簡潔強大的Python語言,全麵介紹網絡數據采集技術,教你從不同形式的網絡資源中自由地獲取數據。你將學會如何使用Python腳本和網絡API一次性采集並處理成韆上萬個網頁上的數據。
本書適閤熟悉Python的程序員、安全專業人士、網絡管理員閱讀。書中不僅介紹瞭網絡數據采集的基本原理,還深入探討瞭更高級的主題,比如分析原始數據、用網絡爬蟲測試網站等。此外,書中還提供瞭詳細的代碼示例,以幫助你更好地理解書中的內容。
通過閱讀本書,你將能夠:
解析復雜的HTML頁麵
遍曆多個網頁和網站
瞭解API的基本概念和工作原理
學習存儲數據的方法
下載、讀取並抽取網絡文檔中的數據
使用工具和方法清洗格式異常的數據
讀取並處理自然語言
越過錶單和登錄窗口采集數據
學習采集的方法
學習圖像處理和文字識彆方法
全麵掌握用Python進行爬蟲抓取以及數據清洗與分析的方法,輕鬆實現高效數據處理 本書采用基於項目的方法,介紹用Python完成數據獲取、數據清洗、數據探索、數據呈現、數據規模化和自動化的過程。主要內容包括:Python基礎知識,如何從CSV、Excel、XML、JSON和PDF文件中提取數據,如何獲取與存儲數據,各種數據清洗與分析技術,數據可視化方法,如何從網站和API中提取數據。 用傳統的電子錶格來處理數據不僅效率低下,而且無法處理某些格式的數據,對於混亂或龐大的數據集更是束手無策。本書將教你如何利用語法簡單、容易上手的Python輕鬆處理數據。作者通過循序漸進的練習,詳細介紹如何有效地獲取、清洗、分析與呈現數據,如何將數據處理過程自動化,如何安排文件編輯與清洗任務,如何處理更大的數據集,以及如何利用獲取的數據來創作引人入勝的故事。學完本書,你的數據處理和分析能力將更上一層樓。
書名:用Python寫網絡爬蟲
定價:45.00元
作者:[澳]理查德 勞森(Richard Lawson)
齣版社:人民郵電齣版社
齣版日期:2016-08-01
ISBN:9787115431790
作為一種便捷地收集網上信息並從中抽取齣可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取復雜的網站。《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑齣指南,講解瞭從靜態頁麵爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交錶單從受驗證碼保護的復雜網站中抽取數據等。本書使用Scrapy創建瞭一個高級網絡爬蟲,並對一些真實的網站進行瞭爬取。《用Python寫網絡爬蟲》介紹瞭如下內容:通過跟蹤鏈接來爬取網站;使用lxml從頁麵中抽取數據;構建綫程爬蟲來並行爬取頁麵;將下載的內容進行緩存,以降低帶寬消耗;解析依賴於的網站;與錶單和會話進行交互;解決受保護頁麵的驗證碼問題;對AJAX調用進行逆嚮工程;使用Scrapy創建高級爬蟲。本書讀者對象本書是為想要構建可靠的數據爬取解決方案的開發人員寫作的,本書假定讀者具有一定的Python編程經驗。當然,具備其他編程語言開發經驗的讀者也可以閱讀本書,並理解書中涉及的概念和原理。
目錄
目錄第1章 網絡爬蟲簡介11.1 網絡爬蟲何時有用 11.2 網絡爬蟲是否閤法 21.3 背景調研 31.3.1 檢查robots.txt 31.3.2 檢查網站地圖 41.3.3 估算網站大小 51.3.4 識彆網站所用技術 71.3.5 尋找網站所有者 71.4 編寫個網絡爬蟲 81.4.1 下載網頁 91.4.2 網站地圖爬蟲 121.4.3 ID遍曆爬蟲 131.4.4 鏈接爬蟲 151.5 本章小結 22第2章 數據抓取 232.1 分析網頁 232.2 三種網頁抓取方法 262.2.1 正則錶達式 262.2.2 Beautiful Soup 282.2.3 Lxml 302.2.4 性能對比 322.2.5 結論 352.2.6 為鏈接爬蟲添加抓取迴調 352.3 本章小結 38第3章 下載緩存 393.1 為鏈接爬蟲添加緩存支持 393.2 磁盤緩存 423.2.1 實現 443.2.2 緩存測試 463.2.3 節省磁盤空間 463.2.4 清理過期數據 473.2.5 缺點 483.3 數據庫緩存 493.3.1 NoSQL是什麼 503.3.2 安裝MongoDB 503.3.3 MongoDB概述 503.3.4 MongoDB緩存實現 523.3.5 壓縮 543.3.6 緩存測試 543.4 本章小結 55第4章 並發下載 574.1 0個網頁 574.2 串行爬蟲 604.3 多綫程爬蟲 604.3.1 綫程和進程如何工作 614.3.2 實現 614.3.3 多進程爬蟲 634.4 性能 674.5 本章小結 68第5章 動態內容 695.1 頁示例 695.2 對頁進行逆嚮工程 725.3 渲染頁 775.3.1 PyQt還是PySide 785.3.2 執行 785.3.3 使用WebKit與網站交互 805.3.4 Selenium 855.4 本章小結 88第6章 錶單交互 896.1 登錄錶單 906.2
內容提要
基本信息
書名:Python數據抓取技術與實戰
定價:49.00元
作者:潘慶和 編著
齣版社:電子工業齣版社
齣版日期:2016-08-01
ISBN:9787121298844
字數:4000
頁碼:256
版次:1
裝幀:平裝
開本:16開
商品重量:
編輯推薦
如何在大數據時代獲得實時的數據信息,分析挖掘、提取齣有價值的信息,並以直觀清晰的圖形錶示齣關鍵的數量關係和概念,是一個值得研究的問題。本書通過數據抓取篇(如何獲得數據信息)、數據分析篇(分析挖掘,提取齣有價值的信息)、數據可視化篇(以直觀清晰的圖形錶示齣關鍵的數量關係和概念)詳細描述數據抓取、分析、展示的整個流程,每一篇自成一體,可以單獨學習掌握。
目錄
目 錄
第1章 Python基礎1
1�保� Python安裝1
1�保� 安裝pip 6
1�保� 如何查看幫助7
1�保� 個程序10
1�保� 文件操作25
1�保� 循環28
1�保� 異常30
1�保� 元組30
1�保� 列錶32
1�保保� 字典36
1�保保� 集閤38
1�保保� 隨機數39
1�保保� enumerate的使用40
1�保保� 第二個例子41
第2章 字符串解析46
2�保� 常用函數46
2�保� 正則錶達式50
2�保� BeautifulSoup 55
2�保� json結構62
第3章 單機數據抓取77
3�保� 單機順序抓取77
3�保� requests 107
3�保� 並發和並行抓取117
第4章 分布式數據抓取137
4�保� RPC的使用138
4�保� Celery係統145
第5章 全能的Selenium 159
Ⅴ
5�保� Selenium單機159
5�保� Selenium分布式抓取178
5�保� Linux無圖形界麵使用Selenium 188
第6章 神秘的Tor 191
6�保� 抓取時IP封鎖的問題191
6�保� Tor的安裝與使用192
6�保� Tor多綫程197
6�保� Tor與Selenium結閤205
第7章 抓取常見問題210
7�保� Flash 210
7�保� 桌麵程序211
7�保� U盤213
7�保� 二級三級頁麵214
7�保� 圖片的處理214
7�保� App數據抓取214
第8章 監控框架221
8�保� 框架說明223
8�保� 監控係統實例225
第9章 擁抱大數據229
9�保� Hadoop生態圈229
9�保� Cloudera環境搭建231
內容提要
如何在大數據時代獲得實時的數據信息,分析挖掘、提取齣有價值的信息,並以直觀清晰的圖形錶示齣關鍵的數量關係和概念,是一個值得研究的問題。本書通過數據抓取篇(如何獲得數據信息)、數據分析篇(分析挖掘,提取齣有價值的信息)、數據可視化篇(以直觀清晰的圖形錶示齣關鍵的數量關係和概念)詳細描述數據抓取、分析、展示的整個流程,每一篇自成一體,可以單獨學習掌握。
評分
評分
評分
評分
評分
評分
評分
評分
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有