內容簡介
本書麵嚮初學者,通過實踐案例講解如何用R進行數據挖掘。全書包括兩部分,第 一部分介紹R和數據挖掘的基礎知識,第二部分為案例研究,通過預測海藻數量、預測股票市場收益、偵測欺詐交易以及微陣列樣本分類四個案例培養構建解決方案的能力,掌握工具的使用技巧。本書適閤作為高校學生或業界新手瞭解R和數據挖掘的入門讀本,其中的代碼和數據均可免費下載。
作者簡介
路易斯·托爾戈(Luis Torgo) 加拿大達爾豪斯大學計算機科學係教授,葡萄牙波爾圖大學計算機科學係副教授,紐約大學斯特恩商學院特邀教授,人工智能和數據分析實驗室(LIAAD,隸屬於INESC Tec)研究員。他擁有近30年的機器學習和數據挖掘研究經驗,在基於樹的迴歸方法和基於效用的預測方法方麵貢獻卓著。
---譯者簡介---
李洪成 統計學博士,現為上海金融學院副教授,R語言和SPSS統計分析軟件專傢,研究方嚮為金融統計和數據挖掘。他的代錶著作有《SPSS數據分析教程》《時間序列預測實踐教程》等,譯著有《R並行編程實戰》《機器學習與R語言》等。
目錄
推薦序
中文版序
譯者序
前言
緻謝
第1章 簡介 1
1.1 如何閱讀本書 2
1.2 重現性 2
第一部分 R與數據挖掘簡介
第2章 R簡介 6
2.1 R起步 6
2.2 與R控製颱的簡單交互 8
2.3 R對象和變量 9
2.4 R函數 11
2.5 嚮量 14
2.6 嚮量化 15
2.7 因子 16
2.8 生成序列 18
2.9 數據子集 20
2.10 矩陣和數組 22
2.11 列錶 25
2.12 數據框 28
2.13 數據框的擴展 31
2.14 對象、類和方法 34
2.15 管理R會話 35
第3章 數據挖掘簡介 37
3.1 數據挖掘鳥瞰圖 37
3.2 數據收集和業務理解 38
3.2.1 數據和數據集 39
3.2.2 導入數據到R 40
3.3 數據預處理 45
3.3.1 數據清洗 45
3.3.2 變換變量 53
3.3.3 生成變量 55
3.3.4 降維 66
3.4 建模 74
3.4.1 探索性數據分析 75
3.4.2 使用關聯規則的依賴建模 94
3.4.3 聚類 101
3.4.4 異常檢測 112
3.4.5 預測分析 120
3.5 評估 147
3.5.1 Holdout和隨機子抽樣 148
3.5.2 交叉驗證 150
3.5.3 Bootstrap估計 153
3.5.4 推薦程序 154
3.6 報告和部署 155
3.6.1 通過動態文檔進行報告 155
3.6.2 通過Web應用程序進行部署 158
第二部分 數據挖掘案例研究
第4章 預測海藻數量 164
4.1 問題描述與目標 164
4.2 數據說明 164
4.3 加載數據到R 165
4.4 數據可視化和總結 167
4.5 數據缺失 173
4.5.1 將缺失部分剔除 173
4.5.2 嘗試找到缺失值最有可能的賦值 175
4.5.3 通過變量的相關關係填補缺失值 176
4.5.4 通過探索類似個案填補缺失值 179
4.6 獲取預測模型 180
4.6.1 多元綫性迴歸 181
4.6.2 迴歸樹 185
4.7 模型評價和選擇 189
4.8 預測7種海藻的頻率 200
4.9 小結 202
第5章 預測股票市場收益 203
5.1 問題描述與目標 203
5.2 可用的數據 204
5.2.1 從CSV文件讀取數據 205
5.2.2 從網站上獲取數據 205
5.3 定義預測任務 206
5.3.1 預測什麼 206
5.3.2 預測變量是什麼 208
5.3.3 預測任務 212
5.3.4 模型評價準則 213
5.4 預測模型 215
5.4.1 如何應用訓練集數據來建模 215
5.4.2 建模工具 216
5.5 從預測到實踐 222
5.5.1 如何應用預測模型 222
5.5.2 與交易相關的評價準則 223
5.5.3 模型集成:仿真交易 224
5.6 模型評價和選擇 230
5.6.1 濛特卡羅估計 230
5.6.2 實驗比較 231
5.6.3 結果分析 235
5.7 交易係統 243
5.7.1 評估最終測試數據 243
5.7.2 在綫交易係統 247
5.8 小結 248
第6章 偵測欺詐交易 249
6.1 問題描述與目標 249
6.2 可用的數據 249
6.2.1 加載數據到R 250
6.2.2 探索數據集 250
6.2.3 數據問題 256
6.3 定義數據挖掘任務 263
6.3.1 問題的不同解決方法 263
6.3.2 評價準則 265
6.3.3 實驗方法 270
6.4 計算離群值的排序 271
6.4.1 無監督方法 271
6.4.2 有監督方法 280
6.4.3 半監督方法 290
6.5 小結 295
第7章 微陣列樣本分類 296
7.1 問題描述與目標 296
7.1.1 微陣列實驗背景簡介 296
7.1.2 數據集ALL 297
7.2 可用的數據 297
7.3 基因(特徵)選擇 302
7.3.1 基於分布特徵的簡單過濾方法 302
7.3.2 ANOVA過濾 304
7.3.3 使用隨機森林進行過濾 306
7.3.4 使用特徵聚類的組閤進行過濾 308
7.4 遺傳學異常的預測 309
7.4.1 定義預測任務 309
7.4.2 模型評價標準 309
7.4.3 實驗過程 310
7.4.4 建模技術 311
7.4.5 模型比較 313
7.5 小結 320
參考文獻 321
主題索引 332
數據挖掘術語索引 337
R函數索引 339
前言/序言
前 言
本書的主要目的是嚮讀者介紹如何用R進行數據挖掘。R是一種可以自由下載的語言,它提供統計計算和繪圖環境,這些功能和大量的添加包使其成為一款優秀的軟件,取代瞭很多昂貴的數據挖掘工具。
本書的目的不是介紹數據挖掘的各個方麵。許多已有的書籍已經覆蓋瞭數據挖掘領域,而本書是用幾個案例來嚮讀者介紹R的數據挖掘能力。顯然,這幾個案例不能代錶我們在現實世界中碰到的所有數據挖掘問題。同時,我們給齣的解決方案也不是最完整的方案。本書通過這些實際案例嚮讀者介紹如何用R進行數據挖掘,因此案例分析目的是展示用R進行信息提取的例子,而不是提供數據挖掘案例的完整分析報告。它們可以作為任何數據挖掘項目的可能思路,或者作為開發數據挖掘項目解決方案的基礎。盡管如此,我們盡力嘗試覆蓋多方麵的問題,以展示由數據大小、數據類型、分析目標和分析工具所帶來的不同挑戰。然而,這裏的實踐方式也是有代價的。實際上,作為具體案例研究的一種形式,為瞭讓讀者在自己的計算機上執行我們所描述的步驟,我們也做瞭某些妥協。也就是說,我們不能處理太大的問題,這些問題要求的計算機資源不是每個人都具備的。盡管這樣,我們認為本書涵蓋的問題也不算小,並且我們還對由不同數據類型和維度帶來的問題給齣瞭解決方案。
第2版大幅修改瞭案例研究的R代碼,使其與R中齣現的最新添加包同步更新。此外,我們決定將本書分為兩部分:第一部分為材料介紹;第二部分為案例研究。第一部分用一個全新的章節來介紹數據挖掘,以補充已有的對R的介紹。這個想法是為讀者提供數據挖掘領域的一種鳥瞰圖,更深入地描述這個研究領域的主題。這些信息補充瞭案例分析中給齣的簡單描述。此外,它允許讀者更好地將數據挖掘任務及方法論的更大圖景與案例研究的解決方案區分開來。最後,如果需要更多關於案例研究中使用方法的細節,我們希望這個新章節可以作為讀者的參考。
本書並不要求讀者具有R的先驗知識,沒有學過R和數據挖掘的讀者也可以學習書中的案例。書中的各個案例相互獨立,讀者可以從書中任何一個案例開始。當然,在第一個簡單案例中,給齣瞭一些基本的R知識,這意味著,如果你沒有學過R,至少應該從第一個案例開始學習。而且,第1章給齣瞭R的簡介,它可以幫助你理解後麵的章節。我們沒有假設你熟悉數據挖掘和統計技術,在每個案例中必要的地方,都對不同的數據挖掘技術進行瞭介紹。不過,第一部分的新章節介紹瞭數據挖掘,包括我們在案例研究中應用的方法以及數據挖掘中常用的其他方法的進一步信息。另外,在某些節的末尾,我們提供瞭“進一步閱讀”資料,如果需要,可以參考它們。總之,本書的讀者應該是數據分析工具的用戶,而不是研究人員或者開發人員。同時,我們希望後者將閱讀本書作為進入R和數據挖掘世界的一種方式,從而發現本書的用途。
本書配有一個免費的R代碼集,可以從本書網站下載。其中含有案例研究中的所有代碼,這可以幫助你進行實踐學習。我們強烈建議讀者在閱讀本書時安裝R並試驗書中的代碼。而且,我們創建瞭一個名為DMwR2的R添加包,它包含本書用到的多個函數和以R格式保存的案例數據集。建議你按照本書的指示安裝並加載該添加包(第1章給齣瞭細節)。
緻 謝首先要感謝我的傢人,沒有他們的幫助和支持,我是無法完成本書的。他們的支持、關懷和愛給我足夠的安慰,使我可以剋服在寫作本書過程中遇到的睏難。同樣,也要感謝我的朋友,他們總是在我需要安慰的時候和我一起暢飲、交流,帶給我輕鬆愉悅的寫作心情。謝謝我的傢人和朋友!謝謝你們!現在,我希望有更多的時間陪在你們身邊。
我也要感謝我的所有同事和LIAAD/INESC Tec LA實驗室對我的支持。同時,也要感謝波爾圖大學對我的研究的支持,感謝科學院計算機科學係的同事為我提供的愉快的工作環境。寫作本書的部分資助來自於葡萄牙自然科學基金(資助號:SFRH/BSAB/113896/2015)。
最後,感謝所有針對反饋意見改進第1版以及校對當前版本草稿的學生和同事們。特彆要感謝在波爾圖大學科學院攻讀計算機科學碩士學位的數據挖掘專業的學生們,以及在紐約大學斯特恩商學院攻讀商業分析科學碩士學位的“數據挖掘與R語言”課程的學生們——他們對我的教學材料的參與和反饋在本書的新版本中有很好的體現。
Luís Torgo葡萄牙,波爾圖
數據挖掘與R語言(原書第2版) 下載 mobi epub pdf txt 電子書 格式