發表於2024-11-22
Python網絡數據爬取及分析從入門到精通(分析篇)
這是一套以實例為主、使用Python語言講解網絡數據爬蟲及分析的實戰指南。本套書通俗易懂,涵蓋瞭Python基礎知識、數據爬取、數據分析、數據預處理、數據可視化、數據存儲、算法評估等多方麵知識,每一部分知識都從安裝過程、導入擴展包到算法原理、基礎語法,再結閤實例進行詳細講解。
本套書包括兩本:《Python網絡數據爬取及分析從入門到精通(爬取篇)》和《Python網絡數據爬取及分析從入門到精通(分析篇)》。
看完此書,真正讓你做到從入門到精通。
Python網絡數據爬取及分析從入門到精通(分析篇)
本書采用通俗易懂的語言、豐富多彩的實例,詳細介紹瞭使用Python語言進行網絡數據分析的知識,主要內容包括Python數據分析常用庫、可視化分析、迴歸分析、聚類分析、分類分析、關聯規則挖掘分析、數據預處理及文本聚類、詞雲熱點與主題分布分析、復雜網絡與基於數據庫技術的分析等。
書中所有知識點都結閤瞭具體的實例進行介紹,涉及的實例都給齣瞭詳細分析流程,程序代碼都給齣瞭具體的注釋,采用圖文結閤的形式講解,讓讀者能更加輕鬆地領會Python網絡數據分析的精髓,快速提高自己的開發能力。
本書既可作為Python開發入門者的自學用書,也可作為高等院校數據分析、數據挖掘、機器學習、大數據等相關專業的教學參考書或實驗指導書,還可供Python數據分析人員查閱、參考。
楊秀璋,畢業於北京理工大學軟件學院,長期從事Web數據挖掘、Python數據分析、網絡數據爬取工作及研究。他現任教於貴州財經大學信息學院,主講“數據挖掘與分析”“大數據技術及應用”課程,並從事大數據分析、數據挖掘、知識圖譜等領域的項目研究與開發;有多年的Python編程、數據分析及知識圖譜研究經驗,實戰經驗較為豐富。
此外,他還積極分享編程知識和開源代碼編寫經驗,先後在CSDN、博客園、阿裏雲棲社區撰寫博客,僅在CSDN就分享瞭300多篇原創文章,開設瞭11個專欄,纍計閱讀量超過250萬人次。
第1章 網絡數據分析概述…………………………………………………………… 1
1.1 數據分析 ……………………………………………………………………… 1
1.2 相關技術 ……………………………………………………………………… 3
1.3 Anaconda開發環境…………………………………………………………… 5
1.4 常用數據集 …………………………………………………………………… 9
1.4.1 Sklearn數據集…………………………………………………………… 9
1.4.2 UCI數據集 …………………………………………………………… 10
1.4.3 自定義爬蟲數據集……………………………………………………… 11
1.4.4 其他數據集……………………………………………………………… 12
1.5 本章小結……………………………………………………………………… 13
參考文獻 …………………………………………………………………………… 14
第2章 Python數據分析常用庫 …………………………………………………… 15
2.1 常用庫………………………………………………………………………… 15
2.2 NumPy ……………………………………………………………………… 17
2.2.1 Array用法 ……………………………………………………………… 17
2.2.2 二維數組操作…………………………………………………………… 19
2.3 Pandas ……………………………………………………………………… 21
2.3.1 讀/寫文件 ……………………………………………………………… 22
2.3.2 Series…………………………………………………………………… 24
2.3.3 DataFrame……………………………………………………………… 26
2.4 Matplotlib …………………………………………………………………… 26
2.4.1 基礎用法………………………………………………………………… 27
2.4.2 繪圖簡單示例…………………………………………………………… 28
2.5 Sklearn ……………………………………………………………………… 31
2.6 本章小結……………………………………………………………………… 32
參考文獻 …………………………………………………………………………… 32
第3章 Python可視化分析 ………………………………………………………… 33
3.1 Matplotlib可視化分析 ……………………………………………………… 33
3.1.1 繪製麯綫圖……………………………………………………………… 33
3.1.2 繪製散點圖……………………………………………………………… 37
3.1.3 繪製柱狀圖……………………………………………………………… 40
3.1.4 繪製餅狀圖……………………………………………………………… 42
3.1.5 繪製3D圖形 …………………………………………………………… 43
3.2 Pandas讀取文件可視化分析 ……………………………………………… 45
3.2.1 繪製摺綫對比圖………………………………………………………… 45
3.2.2 繪製柱狀圖和直方圖…………………………………………………… 48
3.2.3 繪製箱圖………………………………………………………………… 51
3.3 ECharts可視化技術初識 …………………………………………………… 53
3.4 本章小結……………………………………………………………………… 57
參考文獻 …………………………………………………………………………… 57
第4章 Python迴歸分析 …………………………………………………………… 58
4.1 迴 歸………………………………………………………………………… 58
4.1.1 什麼是迴歸……………………………………………………………… 58
4.1.2 綫性迴歸………………………………………………………………… 59
4.2 綫性迴歸分析………………………………………………………………… 60
4.2.1 LinearRegression ……………………………………………………… 61
4.2.2 綫性迴歸預測糖尿病…………………………………………………… 63
4.3 多項式迴歸分析……………………………………………………………… 68
4.3.1 基礎概念………………………………………………………………… 68
4.3.2 PolynomialFeatures …………………………………………………… 69
4.3.3 多項式迴歸預測成本和利潤…………………………………………… 70
4.4 邏輯迴歸分析………………………………………………………………… 73
4.4.1 LogisticRegression …………………………………………………… 75
4.4.2 鳶尾花數據集迴歸分析實例…………………………………………… 75
4.5 本章小結……………………………………………………………………… 83
參考文獻 …………………………………………………………………………… 83
第5章 Python聚類分析 …………………………………………………………… 85
5.1 聚 類………………………………………………………………………… 85
5.1.1 算法模型………………………………………………………………… 85
5.1.2 常見聚類算法…………………………………………………………… 86
5.1.3 性能評估………………………………………………………………… 88
5.2 K-Means …………………………………………………………………… 90
5.2.1 算法描述………………………………………………………………… 90
5.2.2 用K-Means分析籃球數據 …………………………………………… 96
5.2.3 K-Means聚類優化 …………………………………………………… 99
5.2.4 設置類簇中心 ………………………………………………………… 103
5.3 BIRCH ……………………………………………………………………… 105
5.3.1 算法描述 ……………………………………………………………… 105
5.3.2 用BIRCH 分析氧化物數據 ………………………………………… 106
5.4 降維處理 …………………………………………………………………… 110
5.4.1 PCA降維 ……………………………………………………………… 111
5.4.2 Sklearn PCA降維 …………………………………………………… 111
5.4.3 PCA降維實例 ………………………………………………………… 113
5.5 本章小結 …………………………………………………………………… 117
參考文獻…………………………………………………………………………… 118
第6章 Python分類分析 ………………………………………………………… 119
6.1 分 類 ……………………………………………………………………… 119
6.1.1 分類模型 ……………………………………………………………… 119
6.1.2 常見分類算法 ………………………………………………………… 120
6.1.3 迴歸、聚類和分類的區彆……………………………………………… 122
6.1.4 性能評估 ……………………………………………………………… 123
6.2 決策樹 ……………………………………………………………………… 123
6.2.1 算法實例描述 ………………………………………………………… 123
6.2.2 DTC算法 ……………………………………………………………… 125
6.2.3 用決策樹分析鳶尾花 ………………………………………………… 126
6.2.4 數據集劃分及分類評估 ……………………………………………… 128
6.2.5 區域劃分對比 ………………………………………………………… 132
6.3 KNN分類算法 …………………………………………………………… 136
6.3.1 算法實例描述 ………………………………………………………… 136
6.3.2 KNeighborsClassifier………………………………………………… 138
6.3.3 用KNN分類算法分析紅酒類型 …………………………………… 139
6.4 SVM 分類算法……………………………………………………………… 147
6.4.1 SVM 分類算法的基礎知識…………………………………………… 147
6.4.2 用SVM 分類算法分析紅酒數據 …………………………………… 148
6.4.3 用優化SVM 分類算法分析紅酒數據集 …………………………… 151
6.5 本章小結 …………………………………………………………………… 154
參考文獻…………………………………………………………………………… 154
第7章 Python關聯規則挖掘分析 ……………………………………………… 156
7.1 基本概念 …………………………………………………………………… 156
7.1.1 關聯規則 ……………………………………………………………… 156
7.1.2 置信度與支持度 ……………………………………………………… 157
7.1.3 頻繁項集 ……………………………………………………………… 158
7.2 Apriori算法………………………………………………………………… 159
7.3 Apriori算法的實現………………………………………………………… 163
7.4 本章小結 …………………………………………………………………… 167
參考文獻…………………………………………………………………………… 167
第8章 Python數據預處理及文本聚類 ………………………………………… 168
8.1 數據預處理概述 …………………………………………………………… 168
8.2 中文分詞 …………………………………………………………………… 170
8.2.1 中文分詞技術 ………………………………………………………… 170
8.2.2 Jieba中文分詞工具…………………………………………………… 171
8.3 數據清洗 …………………………………………………………………… 175
8.3.1 概 述 ………………………………………………………………… 175
8.3.2 中文語料清洗 ………………………………………………………… 176
8.4 特徵提取及嚮量空間模型 ………………………………………………… 179
8.4.1 特徵規約 ……………………………………………………………… 179
8.4.2 嚮量空間模型 ………………………………………………………… 181
8.4.3 餘弦相似度計算 ……………………………………………………… 182
8.5 權重計算 …………………………………………………………………… 184
8.5.1 常用權重計算方法 …………………………………………………… 184
8.5.2 TF-IDF ……………………………………………………………… 185
8.5.3 用Sklearn計算TF-IDF …………………………………………… 186
8.6 文本聚類 …………………………………………………………………… 188
8.7 本章小結 …………………………………………………………………… 192
參考文獻…………………………………………………………………………… 192
第9章 Python詞雲熱點與主題分布分析 ……………………………………… 193
9.1 詞 雲 ……………………………………………………………………… 193
9.2 WordCloud的安裝及基本用法 …………………………………………… 194
9.2.1 WordCloud的安裝 …………………………………………………… 194
9.2.2 WordCloud的基本用法 ……………………………………………… 195
9.3 LDA ………………………………………………………………………… 203
9.3.1 LDA的安裝過程……………………………………………………… 203
9.3.2 LDA的基本用法及實例……………………………………………… 204
9.4 本章小結 …………………………………………………………………… 214
參考文獻…………………………………………………………………………… 214
第10章 復雜網絡與基於數據庫技術的分析 …………………………………… 215
10.1 復雜網絡…………………………………………………………………… 215
10.1.1 復雜網絡和知識圖譜………………………………………………… 215
10.1.2 NetworkX …………………………………………………………… 217
10.1.3 用復雜網絡分析學生關係網………………………………………… 219
10.2 基於數據庫技術的數據分析……………………………………………… 224
10.2.1 數據準備……………………………………………………………… 224
10.2.2 基於數據庫技術的可視化分析……………………………………… 225
10.2.3 基於數據庫技術的可視化對比……………………………………… 232
10.3 基於數據庫技術的博客行為分析………………………………………… 234
10.3.1 冪率分布……………………………………………………………… 234
10.3.2 用冪率分布分析博客數據集………………………………………… 235
10.4 本章小結…………………………………………………………………… 245
參考文獻…………………………………………………………………………… 245
本套後記……………………………………………………………………………… 246
緻 謝………………………………………………………………………………… 248
推薦序 一
作為與秀璋同窗同寢的10年老友,此書可以說是他實踐的總結。秀璋是深受朋友信任的好兄弟,亦是深受學生愛戴的好老師,似乎有著用不完的熱情,這種熱情,帶給我們這個社會一絲絲的溫暖,在人與人之間傳遞著。當初在博客上不斷寫文章,並耐心解答網友們的各種問題,還幫助許多網友學習編程,指導他們的作業甚至畢業論文,所以,當教師這顆種子早已埋下。畢業後的秀璋,拿著同學們羨慕的北京IT行業某網絡公司的錄取通知書,卻毅然決然踏上返鄉的路,這一走,走進瞭大山裏的貴州,成瞭一名受人尊敬的人民教師。生活平淡而辛苦,而樂觀的秀璋卻收獲瞭愛情,此也命也。
拒絕瞭無數聚會的邀請,見證瞭無數貴陽淩晨的燈火,秀璋和顔娜孜孜不倦寫下這本書,作為朋友,著實替他們高興。作為見證這本書從下筆到問世的讀者,作為一個Python愛好者及有一定數據分析功底的學生,讀這本書真是如晤老友———有大量的網絡數據爬取實例,從Python 基礎知識到正則錶達式爬蟲,再到BeautifulSoup、Selenium、Scrapy爬取技術,並結閤數據存儲、海量圖集分析、自動登錄等實例進行講解。本書配以專業但不晦澀的語言,將原本枯燥的學術知識娓娓道來,此時的秀璋不是老師,而是一個熟悉的老友,用大傢聽得懂的話,解釋著您需要瞭解的一切。同時,當您學習完Python網絡數據爬取之後,還推薦您繼續學習本套書中的另一本書———《Python網絡數據爬取及分析從入門到精通(數據分析篇)》,進而更好地掌握與Python相關的 Python網絡數據爬取及分析從入門到精通(分析篇) 下載 mobi epub pdf txt 電子書 格式
Python網絡數據爬取及分析從入門到精通(分析篇) 下載 mobi pdf epub txt 電子書 格式 2024
Python網絡數據爬取及分析從入門到精通(分析篇) 下載 mobi epub pdf 電子書評分
評分
評分
評分
評分
評分
評分
評分
Python網絡數據爬取及分析從入門到精通(分析篇) mobi epub pdf txt 電子書 格式下載 2024