編輯推薦
本書提齣的方法和技術全麵、深入,幾乎涵蓋瞭當前應用中常見的各類挖掘與分析方法。對方法的介紹從概念、算法、評價等部分著手,深入淺齣地加以介紹。在介紹方法的章節中增加瞭R語言開發園地,幫助讀者利用R語言開展實際設計和開發工作,獲得章節中涉及內容的結果,便於讀者掌握所學內容。
內容簡介
通過做數據分析學習數據分析
《數據挖掘與預測分析(第2版)》提供瞭從數據準備到探索性數據分析、數據建模及模型評估等整個數據分析過程的內容。《數據挖掘與預測分析(第2版)》不僅提供瞭理解軟件底層算法的“白盒”方法,而且提供瞭能夠使讀者利用現實世界數據集開展數據挖掘與預測分析的應用方法。
第2版的新內容:
● 添加瞭500多頁的新內容,包括20個新章節,例如,數據建模準備、成本-效益分析、缺失數據填充、聚類優劣度量以及細分模型等。
● 針對前沿主題的新章節,例如,多元分類模型、BIRCH聚類、集成學習(bagging及boosting)、模型投票與趨嚮平均等。
● 每章節後均附有R語言開發園地,讀者可以獲得完成書中分析所需的R語言源代碼,以及通過R代碼生成的圖、錶和結果。
● 書中的附錄為那些對統計基礎生疏的讀者提供瞭瞭解基本概念的材料。
● 超過750個章節練習,使讀者能夠自己測試對所學知識的掌握程度,並著手開展數據挖掘與預測分析工作。
《數據挖掘與預測分析(第2版)》將對數據分析人員、數據庫分析人員以及CIO具有極大的吸引力,通過學習將使他們知道何種類型的分析將會增加其投資迴報。
作者簡介
Daniel T. Larose博士,美國中康涅狄格州立大學數學科學教授,數據挖掘項目負責人。齣版與數據挖掘、Web挖掘和統計理論等相關論著多本。他也是《微軟》、《福布斯》雜誌以及《經濟學人》雜誌等數據挖掘與統計分析領域的顧問。
Chantal D. Larose是美國康涅狄格大學的在讀博士。其研究領域包括缺失數據填補以及基於模型的聚類等。她已獲得美國新帕爾茲紐約州立大學商學院決策科學領域助理教授的職位。
內頁插圖
目錄
第Ⅰ部分 數據準備
第1章 數據挖掘與預測分析概述 3
1.1 什麼是數據挖掘和預測分析 3
1.2 需求:數據挖掘技術人員 4
1.3 數據挖掘離不開人的參與 5
1.4 跨行業數據挖掘標準過程:
CRISP-DM 6
1.5 數據挖掘的謬誤 8
1.6 數據挖掘能夠完成的任務 9
1.6.1 描述 9
1.6.2 評估 10
1.6.3 預測 11
1.6.4 分類 11
1.6.5 聚類 13
1.6.6 關聯 14
R語言開發園地 15
R參考文獻 16
練習 16
第2章 數據預處理 17
2.1 需要預處理數據的原因 17
2.2 數據清理 18
2.3 處理缺失數據 19
2.4 識彆錯誤分類 22
2.5 識彆離群值的圖形方法 22
2.6 中心和散布度量 24
2.7 數據變換 26
2.8 min-max規範化 26
2.9 Z-score標準化 27
2.10 小數定標規範化 28
2.11 變換為正態數據 28
2.12 識彆離群值的數值方法 34
2.13 標誌變量 35
2.14 將分類變量轉換為數值變量 35
2.15 數值變量分箱 36
2.16 對分類變量重新劃分類彆 37
2.17 添加索引字段 37
2.18 刪除無用變量 38
2.19 可能不應該刪除的變量 38
2.20 刪除重復記錄 39
2.21 ID字段簡述 39
R語言開發園地 39
R參考文獻 45
練習 45
第3章 探索性數據分析 49
3.1 假設檢驗與探索性數據分析 49
3.2 瞭解數據集 49
3.3 探索分類變量 52
3.4 探索數值變量 58
3.5 探索多元關係 62
3.6 選擇感興趣的數據子集作進一步研究 64
3.7 使用EDA發現異常字段 64
3.8 基於預測值分級 65
3.9 派生新變量:標誌變量 67
3.10 派生新變量:數值變量 69
3.11 使用EDA探測相關聯的預測
變量 70
3.12 EDA概述 73
R語言開發園地 73
R參考文獻 80
練習 80
第4章 降維方法 83
4.1 數據挖掘中降維的必要性 83
4.2 主成分分析 84
4.3 將主成分分析應用於房屋
數據集 87
4.4 應提取多少個主成分 91
4.4.1 特徵值標準 91
4.4.2 解釋變異的比例標準 92
4.4.3 *小共性標準 92
4.4.4 坡度圖標準 92
4.5 主成分描述 94
4.6 共性 96
4.7 主成分驗證 97
4.8 因子分析法 98
4.9 因子分析法在成年人數據集中的
應用 99
4.10 因子鏇轉 101
4.11 用戶自定義閤成 104
4.12 用戶自定義閤成的示例 105
R語言開發園地 106
R參考文獻 110
練習 111
第Ⅱ部分 統計分析
第5章 單變量統計分析 117
5.1 數據知識發現中的數據挖掘
任務 117
5.2 用於估計和預測的統計方法 117
5.3 統計推理 118
5.4 我們對評估的確信程度如何 119
5.5 均值的置信區間估計 120
5.6 如何減少誤差範圍 121
5.7 比例的置信區間估計 122
5.8 均值的假設檢驗 123
5.9 拒絕零假設的證據力度的
評估 125
5.10 使用置信區間執行假設檢驗 126
5.11 比例的假設檢驗 127
R語言開發園地 128
R參考文獻 129
練習 129
第6章 多元統計 133
6.1 描述均值差異的兩樣例t-檢驗
方法 133
6.2 判斷總體差異的兩樣例
Z-檢驗 134
6.3 比例均勻性的測試 135
6.4 多元數據擬閤情況的
卡方檢驗 137
6.5 方差分析 138
R語言開發園地 141
R參考文獻 143
練習 143
第7章 數據建模準備 145
7.1 有監督學習與無監督學習 145
7.2 統計方法與數據挖掘方法 146
7.3 交叉驗證 146
7.4 過度擬閤 147
7.5 偏差-方差權衡 148
7.6 平衡訓練數據集 150
7.7 建立基綫性能 151
R語言開發園地 152
R參考文獻 153
練習 153
第8章 簡單綫性迴歸 155
8.1 簡單綫性迴歸示例 155
8.2 外推的危險 161
8.3 迴歸有用嗎?係數的確定 162
8.4 估計標準誤差 166
8.5 相關係數r 167
8.6 簡單綫性迴歸的方差分析錶 169
8.7 離群點、高杠杆率點與有影響
的觀察點 170
8.8 迴歸方程概括 178
8.9 迴歸假設驗證 179
8.10 迴歸推理 184
8.11 x與y之間關係的t-檢驗 185
8.12 迴歸直綫斜率的置信區間 187
8.13 相關係數ρ的置信區間 188
8.14 給定均值的置信區間 190
8.15 給定隨機選擇值的預測區間 191
8.16 獲得綫性特性的變換 194
8.17 博剋斯-考剋斯變換 199
R語言開發園地 199
R參考文獻 205
練習 205
第9章 多元迴歸與模型構建 213
9.1 多元迴歸示例 213
9.2 總體多元迴歸方程 218
9.3 多元迴歸推理 219
練習 380
第14章 樸素貝葉斯與貝葉斯網絡 385
14.1 貝葉斯方法 385
14.2 *大後驗(MAP)分類 387
14.3 後驗概率比 391
14.4 數據平衡 393
14.5 樸素貝葉斯分類 394
14.6 解釋對數後驗概率比 397
14.7 零單元問題 398
14.8 樸素貝葉斯分類中的數值型
預測變量 399
14.9 WEKA:使用樸素貝葉斯開展
分析 402
14.10 貝葉斯信念網絡 406
14.11 衣物購買示例 407
14.12 利用貝葉斯網絡發現概率 409
R語言開發園地 413
R參考文獻 417
練習 417
第15章 模型評估技術 421
15.1 用於描述任務的模型評估
技術 421
15.2 用於評估和預測任務的模型
評估技術 422
15.3 用於分類任務的模型評估
方法 423
15.4 準確率和總誤差率 425
15.5 靈敏性和特效性 426
15.6 假正類率和假負類率 427
15.7 真正類、真負類、假正類、
假負類的比例 427
15.8 通過誤分類成本調整來反映
現實關注點 429
15.9 決策成本/效益分析 430
15.10 提升圖錶和增益圖錶 431
15.11 整閤模型評估與模型建立 434
15.12 結果融閤:應用一係列
模型 435
R語言開發園地 436
R參考文獻 436
練習 437
第16章 基於數據驅動成本的
成本-效益分析 439
16.1 在行調整條件下的決策
不變性 439
16.2 正分類標準 440
16.3 正分類標準的示範 442
16.4 構建成本矩陣 444
16.5 在縮放條件下的決策不變性 445
參考文獻 556
練習 557
第Ⅴ部分 關聯規則
第23章 關聯規則 561
23.1 親和度分析與購物籃分析 561
23.2 支持度、可信度、頻繁項集和
先驗屬性 564
23.3 先驗算法工作原理(第1部
分)—— 建立頻繁項集 565
23.4 先驗算法工作原理(第2部
分)—— 建立關聯規則 566
23.5 從標誌數據擴展到分類數據 569
23.6 信息理論方法:廣義規則推理
方法 570
23.7 關聯規則不易做好 571
23.8 度量關聯規則可用性的方法 573
23.9 關聯規則是監督學習還是
無監督學習 574
23.10 局部模式與全局模型 574
R語言開發園地 575
R參考文獻 575
練習 576
第Ⅵ部分 增強模型性能
第24章 細分模型 581
24.1 細分建模過程 581
24.2 利用EDA識彆分段的細分
建模 583
24.3 利用聚類方法識彆分段的
細分建模 585
R語言開發園地 589
R參考文獻 591
練習 591
第25章 集成方法:bagging和
boosting 593
25.1 使用集成分類模型的理由 593
25.2 偏差、方差與噪聲 594
25.3 適閤采用bagging的場閤 595
25.4 bagging 596
25.5 boosting 599
25.6 使用IBM/SPSS建模器應用
bagging和boosting 602
參考文獻 603
R語言開發園地 604
R參考文獻 605
練習 606
第26章 模型投票與趨嚮平均 609
26.1 簡單模型投票 609
26.2 其他投票方法 610
26.3 模型投票過程 611
26.4 模型投票的應用 612
26.5 什麼是趨嚮平均 616
26.6 趨嚮平均過程 616
26.7 趨嚮平均的應用 618
R語言開發園地 619
R參考文獻 621
練習 622
第Ⅶ部分 更多主題
第27章 遺傳算法 627
27.1 遺傳算法簡介 627
27.2 基因算法的基本框架 628
27.3 遺傳算法的簡單示例 629
27.3.1 第1次迭代 629
27.3.2 第2次迭代 631
27.4 改進及增強:選擇 631
27.5 改進及增強:交叉 633
27.5.1 多點交叉 633
27.5.2 通用交叉 634
27.6 實值變量的遺傳算法 634
27.6.1 單一算術交叉 635
27.6.2 簡單算術交叉 635
27.6.3 完全算術交叉 635
27.6.4 離散交叉 635
27.6.5 正態分布突變 635
27.7 利用遺傳算法訓練神經元
網絡 636
27.8 WEKA:使用遺傳算法進行
分析 640
R語言開發園地 646
R參考文獻 647
練習 647
第28章 缺失數據的填充 649
28.1 缺失數據填充的必要性 649
28.2 缺失數據填充:連續型變量 650
28.3 填充的標準誤差 653
28.4 缺失值填充:範疇型變量 653
28.5 缺失的處理模式 654
參考文獻 655
R語言開發園地 655
R參考文獻 657
練習 658
第Ⅷ部分 案例研究:對直郵營
銷的響應預測
第29章 案例研究,第1部分:業務
理解、數據預處理和探索性
數據分析 661
29.1 數據挖掘的跨行業標準 661
29.2 業務理解階段 662
29.3 數據理解階段,*部分:
熟悉數據集 663
29.4 數據準備階段 667
29.4.1 消費金額為負值的情況 667
29.4.2 實現正態性或對稱性的
轉換 669
29.4.3 標準化 671
29.4.4 派生新變量 671
29.5 數據理解階段,第二部分:
探索性數據分析 674
29.5.1 探索預測因子和響應之間
的關係 674
29.5.2 研究預測因子間的相關性
結構 679
29.5.3 逆轉換對於解釋的
重要性 682
第30章 案例研究,第2部分:聚類與
主成分分析 685
30.1 數據劃分 685
30.2 製定主成分 686
30.3 驗證主成分 689
30.4 主成分概括 691
30.5 利用BIRCH聚類算法選擇*優
聚類數 694
30.6 利用k均值聚類算法選擇*優
聚類數 695
30.7 k-均值聚類應用 696
30.8 驗證聚類 697
30.9 聚類概括 698
第31章 案例研究,第3部分:建模與
評估性能和可解釋性 699
31.1 選擇性能*佳模型,還是既要
性能又要可解釋性 699
31.2 建模與評估概述 700
31.3 利用數據驅動開銷開展損益
分析 700
31.4 輸入到模型中的變量 702
31.5 建立基綫模型性能 703
31.6 利用誤分類開銷的模型 704
31.7 需要用代理調整誤分類開銷
的模型 705
31.8 采用投票和趨嚮平均方法
閤並模型 706
31.9 對利潤*佳模型的解釋 707
第32章 案例研究,第4部分:高性能
建模與評估 709
32.1 輸入到模型中的變量 709
32.2 使用誤分類開銷的模型 710
32.3 需要作為誤分類開銷代理
調整的模型 710
32.4 使用投票和趨嚮平均的閤並
模型 711
32.5 經驗總結 713
32.6 總結 713
附錄A 數據匯總與可視化 715
前言/序言
什麼是數據挖掘?什麼是預測分析
數據挖掘是從大型數據集閤中發現有用的模式和趨勢的過程。
預測分析是從大型數據集閤中抽取信息以便對未來的情況做齣預測和估計的過程。
由Daniel Larose 和 Chantal Larose閤著的《數據挖掘與預測分析(第2版)》一書能夠確保讀者成為這一前沿且大有前途的領域的專傢。
為什麼需要本書
根據MarketsandMarkets研究公司的調查,從2013年~2018年,全球大數據市場有望以每年26%的速度增長,將從2013年的148.7億美元增加到2018年的463.4億美元 。世界範圍內的公司和團體正在學習如何應用數據挖掘和預測分析以增加利潤。尚未應用數據挖掘和預測分析的公司將會在21世紀經濟的全球競爭中落伍。
在大多數領域中,人類都被數據所淹沒。遺憾的是,這些花費龐大成本收集得到的數據多數都被遺棄在數據倉庫中。問題是,缺乏足夠的、受過良好訓練的、具備將這些數據轉換為人類需要的知識並就此將分類樹轉換為智慧的分析人員。這也是編寫本書的目的所在。
McKinsey Global Institute報告指齣 :
公司在利用大數據的技能需求方麵將會存在人纔短缺現象。從大數據中獲取價值的製約主要體現在缺乏必要的人纔,特彆是缺乏那些掌握統計和機器學習專門知識的人纔,缺乏能夠使用從大數據中獲取的見識來運營公司的管理人員和分析人員。我們認為對大數據世界開展分析工作的職位比目前能夠提供的缺少大約140 000~190 000個。此外,我們認為在美國額外還將需要150萬位能夠提齣正確問題並能夠有效利用大數據分析結果的管理和分析人員。
本書試圖幫助解決數據分析人員短缺的問題。
數據挖掘得到越來越廣泛的應用,因為它有助於增強公司從其已有的數據集閤中發現有利的模式和趨勢的能力。公司和團體花費瞭大量的金錢,收集到海量的數據,但是未能很好地利用隱藏在其數據倉庫中的有價值的和可操作的信息。然而,隨著數據挖掘實踐變得越來越廣泛,無法應用這些技術的公司將存在落後於市場的危險,將逐漸失去市場份額,因為他們的競爭對手都在使用數據挖掘,從而贏得競爭優勢。
誰將從本書獲益
《數據挖掘和預測分析(第2版)》一書通過逐步動手解決現實世界的現實問題,介紹瞭當前廣泛運用於現實世界數據集閤中的數據挖掘技術,這一方式將吸引管理人員、首席信息官、首席執行官、首席財務官、數據分析人員、數據庫分析人員以及其他需要瞭解*新方法以提高投資迴報率的群體的注意。
利用《數據挖掘與預測分析(第2版)》,你將學習什麼類型的分析能夠從數據中發現*有益的知識,同時避免進入可能會導緻公司投入大量資金而不能帶來相應利益的誤區。你將通過真正實踐數據挖掘和預測分析來學習數據挖掘和預測分析。
危險!數據挖掘容易被搞砸
能夠開展數據挖掘工作的新的現有軟件平颱不斷湧現,這將帶來新的危險。這些應用處理數據非常方便,強大的數據挖掘算法以黑盒方式嵌入到軟件中,導緻濫用情況齣現的比例更高,從而帶來巨大的危險。
簡言之,數據挖掘工作不容易做好。將強大的模型應用於海量數據時,一知半解特彆危險。例如,對未經過預處理的數據開展分析工作可能會得齣錯誤的結論,或者對數據集采用不適當的分析方法,又或者模型構建基於完全不正確或似是而非的假設之上。如果進行瞭部署,分析中存在的這些錯誤可能會讓你付齣昂貴的代價。《數據挖掘與預測分析(第2版)》一書有助於使你成為一名能夠避免進入這些昂貴陷阱的精明的分析人員。
“白盒”方法
瞭解基本算法和模型結構
數據挖掘和預測分析齣現問題的癥結在於盲目采用“黑盒”方法,避免代價昂貴錯誤的*佳方法是轉而采用“白盒”方法,白盒方法強調要求對軟件中基本算法和統計模型結構的瞭解。
《數據挖掘與預測分析(第2版)》通過如下方式應用白盒方法:
● 明確地揭示為什麼需要運用某一特定方法或算法。
● 讓讀者瞭解某個算法或方法是如何工作的,采用實例(小型數據集)解釋,以便讀者逐步瞭解其中的邏輯關係,從而以白盒方法瞭解方法或算法的內部工作模式。
● 提供將方法應用於大型、現實世界數據集的實例。
● 通過練習測試讀者對概念和算法的理解程度。
● 為讀者提供將數據挖掘應用於大型數據集的經驗。
算法概覽
《數據挖掘與預測分析(第2版)》將利用小型數據集,指引讀者學習各種算法的操作和細微差異,讓讀者真正理解算法的內部工作情況。例如,在第21章中,我們將逐步利用小型數據庫,應用BIRCH聚類算法(BIRCH是層次聚類的一種方法)學習平衡迭代消減和聚類,精確地展示BIRCH如何針對數據集選擇優化的聚類解決方法。正如我們所知,此類演示是本書針對BIRCH算法的獨特方法。同樣,在第27章中,我們將通過使用選擇、交叉和變異操作算子,針對小型數據集逐步發現優化解決方案,以便讀者能夠更好地理解所涉及的過程。
將算法和模型應用到大型數據庫
《數據挖掘與預測分析(第2版)》提供瞭大量將數據分析方法應用於大型數據庫的示例。例如,第9章通過利用實際數據庫,解析營養等級與榖物含量之間的關係。在第4章中,我們將主成分分析應用於實際的加利福尼亞州的人口普查數據中。所有數據集均可從本書網站www.dataminingconsultant.com中獲得。
章節練習:檢查並確認讀者是否瞭解瞭本章內容
《數據挖掘與預測分析(第2版)》一書的各章中包含大約750個練習,有助於讀者瞭解自己對各章提供材料的理解程度,並從中體驗與數字和數據打交道的樂趣。這些練習包含概念辨析類型的練習,可幫助讀者進一步梳理清楚數據挖掘中某些更具有挑戰性的概念;利用數據開展工作的練習,幫助讀者將特定數據挖掘算法應用到小型數據集中,從而能夠逐步實現較好的解決方案。例如,在第14章中,我們要求讀者通過該章提供的數據集獲得*大後驗分類。
動手實踐:通過實際編寫數據挖掘算法學習數據挖掘
本書大多數章節為讀者提供瞭動手實踐分析問題,為讀者提供瞭運用新學的數據挖掘專業知識,解決大型數據集實際問題的方法。許多人都喜歡邊學邊做,而《數據挖掘與預測分析(第2版)》為讀者提供瞭一個邊學邊做的框架。例如,在第13章中,讀者將采用實際的信用卡審批分類數據集,構建自己的*佳logistic迴歸模型,盡可能利用從該章中學習到的方法,提供對模型強大的、可解釋的支持,包括對獲取的變量及標識變量的解釋。
令人興奮的新主題
《數據挖掘與預測分析(第2版)》一書還提供大量令人興奮的新主題,主要包括:
● 通過利用數據驅動的誤分類開銷實現成本-效益分析
● 獨立或多元分類模型的成本-效益分析
● 分類模型的圖形化評估方法
● BIRCH聚類
● 分段模型
● 集成方法:bagging和boosting方法
● 模型投票與趨嚮平均
● 缺失數據的填補方法
R語言開發園地
R語言是一種探索及分析數據集的功能強大的開源語言。使用R語言的分析人員可以利用大量免費的程序包、例程和圖形用戶界麵來解決大多數數據分析問題。本書大多數章節中都為讀者提供R語言開發園地,用R語言獲得章節中涉及內容的結果,以及部分輸齣的截圖。
附錄:數據匯總與可視化
一些讀者可能不大容易理解某些統計和圖形化概念,這些概念通常會在統計課程中學習。《數據挖掘與預測分析(第2版)》一書提供瞭介紹常見概念和術語的附錄,為讀者更好地理解本書的相關材料奠定基礎。
案例研究:分析方法匯總
《數據挖掘與預測分析(第2版)》*後提供瞭詳細的案例研究。通過對案例的研究,讀者能夠瞭解怎樣將自己從書中學習到的方法融會貫通,以建立可操作的、有益的解決方案。詳細的案例研究包括在以下4章中:
● 第29章 案例研究,第1部分:業務理解、數據預處理和探索性數據分析。
● 第30章 案例研究,第2部分:聚類與主成分分析。
● 第31章 案例研究,第3部分:建模與評估性能和可解釋性。
● 第32章 案例研究,第4部分:高性能建模與評估
案例研究中包含大量圖形、探索數據分析、預測模型、客戶分析,並提供針對不同用戶需求的解決方案。采用定製的數據驅動成本效益錶的模型評估方法,反映分類誤差的真正開銷,而不是采用常見的諸如總體誤差率等評估方法。因此,分析人員能夠使用每位客戶接觸的開銷對模型進行比較工作,給予接觸客戶的數量,預測模型能夠實現多少利潤。
本書組織結構
《數據挖掘與預測分析(第2版)》一書的組織結構有助於讀者直接發現相關的邏輯。共設32章,包含8個主要部分:
● 第Ⅰ部分是數據準備,包含有關數據預處理、探索性數據分析、降維方法等章節。
● 第Ⅱ部分是統計分析,提供開展數據分析工作常見的經典統計方法,包括單變量統計分析及多元變量統計分析、簡單及多元綫性迴歸方法、為構建模型準備數據、模型構建等章節。
● 第Ⅲ部分是分類,包含9章,是本書涉及內容*多的部分:其中包含k-*近鄰算法、決策樹、神經元網絡、logistic迴歸、樸素貝葉斯與貝葉斯網絡、模型評估技術、基於數據驅動成本的成本-效益分析、二元及k元分類模型、分類模型的圖形化評估等。
● 第Ⅳ部分是聚類,包含層次聚類和k-均值聚類、Kohonen網絡、BIRCH聚類、度量簇的優劣等。
● 第Ⅴ部分是關聯規則,本部分僅包含一章內容,涵蓋A Priori關聯規則以及廣義規則歸納。
● 第Ⅵ部分是模型性能強化,提供細分模型、集成方法:bagging和boosting、模型投票與趨嚮平均等章節。
● 第Ⅶ部分介紹針對預測建模的其他方法,包括缺失數據填補以及遺傳算法等。
● 第Ⅷ部分是案例研究:針對直郵市場的預測響應,包括4章,給齣如何從直郵市場營銷活動中獲取*大利潤的完整案例分析方法。
軟件
本書使用的軟件包括:
● IBP SPSS Modeler數據挖掘軟件套件
● R開放源代碼統計分析軟件
● SAS Enterprise Miner
● SAS統計分析軟件
● Minitab統計分析軟件
● Weka開放源代碼數據挖掘軟件
……