發表於2024-11-22
這本關於數據分析的優秀圖書廣受好評,榮獲2014年Ziegel奬,還被很多教師選為“數據科學”課程的教材。本書專注於預測建模的實際應用,介紹瞭從數據預處理到建模再到模型評估和選擇的整個過程,以及背後的統計思想,涉及各種迴歸技術和分類技術。從解決實際問題延伸到模型擬閤,以及隨之齣現的主題,如處理類不平衡、選擇預測因子等在實踐中經常齣現的問題,作者意在為讀者提供預測建模過程的指導,並結閤開源軟件R語言來求解實際問題,詳細給齣R代碼和處理的步驟。R包AppliedPredictiveModeling包含瞭書中例題和習題使用的數據,以及用於重復書中每一章分析的R代碼。
這是一本專注於預測建模的數據分析書,意在為實踐者提供預測建模過程的指導,比如如何進行數據預處理、模型調優、預測變量重要性度量、變量選擇等。讀者可以從中學到許多建模方法以及提高對許多常用的、現代的有效模型的認識,如綫性迴歸、非綫性迴歸和分類模型,涉及樹方法、支持嚮量機等。第10章和第17章分彆研究混凝土混閤物的抗壓強度和作業調度兩個案例。
作者重實際應用,輕數學理論,從實際數據齣發,結閤開源軟件R語言來求解實際問題,詳細給齣R代碼和處理的步驟。R包AppliedPredictiveModeling包含書中使用的數據,以及可以用於重復書中每一章分析的R代碼,讓讀者能在一定精度範圍內重復本書的結果,並自然地將書中的預測建模方法應用到自己的數據上。章後附有習題,方便讀者鞏固所學。
這本業界互相推薦的好書,適閤所有數據分析人員閱讀。
馬剋斯·庫恩(Max Kuhn)
康涅狄格州格羅頓市輝瑞全球研發非臨床統計部主任,在製藥和診斷行業已有近20年應用預測模型的經驗,他還是很多R包的作者。
謝爾·約翰遜(Kjell Johnson)
博士,在藥物研發和其他行業有近20年統計谘詢和預測建模經驗,曾任輝瑞全球研發統計部主任。
關於預測分析和數據建模,網絡上有各種各樣的圖書……根據關聯性、流行性、綫上排名以及為你的業務增值的能力,我們選齣瞭《應用預測建模》……
— Timothy King Business Intelligence Solutions Review, solutions-review.com
我曾用這本書作為數據科學課程的輔助教材,因為數據科學需要涵蓋處理數據、模型評估和機器學習方法等方麵的內容,所以我使用瞭一係列不同的資料。如果下次我還教授數據科學課程,我將隻用這本書,因為它包含瞭這個領域所有方麵的內容。
— Louis Luangkesorn lugerpitt.blogspot.com
關於迴歸和分類模型的預測技術,這部著作提供瞭非常有用的實踐課程……兩位作者不僅是建模和預測領域公認的專傢,也是R包開發者和統計方法領域公認的專傢……對於在應用復雜統計技術時需要直接幫助的學生和實踐者,這本書是非常有益的。
— Stan Lipovetsky Technometrics
譯者序
前言
第1章導論
1.1預測與解釋
1.2預測模型的關鍵部分
1.3專業術語
1.4實例數據集和典型數據場景
1.5概述
1.6符號
第一部分一般策略
第2章預測建模過程簡介
2.1案例分析:預測燃油效能
2.2主題
2.3總結
第3章數據預處理
3.1案例分析:高內涵篩選中的細胞分組
3.2單個預測變量數據變換
3.3多個預測變量數據變換
3.4處理缺失值
3.5移除預測變量
3.6增加預測變量
3.7區間化預測變量
3.8計算
習題
第4章過度擬閤與模型調優
4.1過度擬閤的問題
4.2模型調優
4.3數據分割
4.4重抽樣技術
4.5案例分析:信用評分
4.6選擇調優參數值
4.7數據劃分建議
4.8不同模型間的選擇
4.9計算
習題
第二部分迴歸模型
第5章衡量迴歸模型的效果
5.1模型效果的定量度量
5.2方差偏差的權衡
5.3計算
第6章綫性迴歸及其擴展
6.1案例分析:定量構效關係建模
6.2綫性迴歸
6.3偏最小二乘法
6.4懲罰模型
6.5計算
習題
第7章非綫性迴歸模型
7.1神經網絡
7.2多元自適應迴歸樣條
7.3支持嚮量機
7.4K近鄰
7.5計算
習題
第8章迴歸樹與基於規則的模型
8.1簡單迴歸樹
8.2迴歸模型樹
8.3基於規則的模型
8.4裝袋樹
8.5隨機森林
8.6助推法
8.7Cubist
8.8計算
習題
第9章溶解度模型總結
第10章案例研究:混凝土混閤物的抗壓強度
10.1模型構建策略
10.2模型性能
10.3優化抗壓強度
10.4計算
第三部分分類模型
第11章分類模型的效果度量
11.1類預測
11.2評估預測類
11.3評估類概率
11.4計算
第12章判彆分析和其他綫性分類模型
12.1案例分析:預測是否成功申請經費
12.2邏輯迴歸
12.3綫性判彆分析
12.4偏最小二乘判彆分析
12.5懲罰模型
12.6最近收縮質心
12.7計算
習題
第13章非綫性分類模型
13.1非綫性判彆分析
13.2神經網絡
13.3靈活判彆分析
13.4支持嚮量機
13.5K近鄰
13.6樸素貝葉斯
13.7計算
習題
第14章分類樹與基於規則的模型
14.1基本的分類樹
14.2基於規則的模型
14.3裝袋決策樹
14.4隨機森林
14.5助推法
14.6C5.0
14.7比較兩種分類預測變量編碼方式
14.8計算
習題
第15章經費申請模型的總結
第16章對嚴重類失衡的補救方法
16.1案例分析: 預測房車保險所有權
16.2類失衡的影響
16.3模型調優
16.4選擇截點
16.5調整先驗概率
16.6不等案例權重
16.7抽樣方法
16.8成本敏感度訓練
16.9計算
習題
第17章案例研究:作業調度
17.1數據切分和模型策略
17.2結果
17.3計算
第18章衡量預測變量重要性
18.1數值結果變量
18.2分類結果變量
18.3其他方法
18.4計算
習題
第19章特徵選擇介紹
19.1使用無信息預測變量的結果
19.2減少預測變量個數的方法
19.3繞封法
19.4過濾法
19.5選擇偏差
19.6案例分析:預測認知損傷
19.7計算
習題
第20章影響模型錶現的因素
20.1第Ⅲ類錯誤
20.2結果變量的測量誤差
20.3預測變量的測量誤差
20.4連續變量離散化
20.5模型預測何時是可信的
20.6大樣本的影響
20.7計算
習題
附錄
附錄A各種模型的總結
附錄BR語言介紹
附錄C值得關注的網站
參考文獻
這是一本關於數據分析的書,專注於預測建模的實際應用。“預測建模”一詞可能讓人聯想起諸如機器學習、模式識彆和數據挖掘。事實上,這樣的聯想是很自然的,這些專業名詞指代的方法是預測建模整體過程的一部分。但是預測建模所涵蓋的範圍遠大於發現數據模式的工具和技術。應用預測建模定義瞭這樣一個建立模型的過程,我們能理解和量化模型對未來即將看到的數據的預測準確度。本書的核心內容就是其中的整個過程。
本書意在為實踐者提供預測建模過程的指導,讀者可以從閱讀中學到許多(建模)方法以及提高對許多常用的、現代的有效模型的認識。我們會介紹許多統計和數學技術,但在任何情況下我們描述技術細節的動機都是幫助讀者理解模型的優缺點,而非(單純)數理統計知識。我們極力避免復雜的公式,但是有少數例外。關於預測模型的理論知識,推薦這兩本書,即Hastie等(2008)和Bishop (2006)。本書的讀者需要有一些基本的統計學知識,包括方差、相關性、簡單綫性迴歸以及基本的統計假設檢驗(如p值和檢驗統計量)。
預測建模的過程本質上具有很強的應用實踐性。但我們研究發現,很多文章、齣版物不能讓讀者再現(他們的)建模結果,因為數據不公開,或讀者無法使用相應軟件,又或軟件需付費。Buckheit和Donoho(1995)對傳統學術界提齣瞭相似的批評:
一篇發錶於科學刊物上關於計算機科學的文章本身不是學術,僅是關於學術的廣告。真正的學術是完整的軟件開發環境和能夠生成那些圖的所有指令集。
因此,我們的目標是盡可能地具有實踐應用性,讓讀者能在一定精度範圍內重復本書的結果,且可以自然地將書中的預測建模方法應用到他們自己的數據上。再者,對於整個建模過程,我們使用R語言(Ihaka和Gentleman 1996; R Development Core Team 2010),這是一個用於數學和統計計算的免費軟件。幾乎所有例子中的數據集都可以在相應R包中找到。R包AppliedPredictiveModeling包含瞭書中使用的很多數據,以及可以用於再現書中每一章分析結果的R代碼。
我們選擇R作為計算引擎有如下幾個原因。首先R是免費的(雖然也有商業版的R),可以在不同的操作係統上使用。其次,它在通用公共許可(General Public License)下發行(免費軟件基金2007年6月),該許可闡明程序再次發布的規則。在此構架下,任何人可以任意檢查、修改源程序。由於開源特性,很多預測模型已經由R包可以實現。再者R有進行預測建模的大量強大的功能。不熟悉R的讀者可以在網上找到大量的入門教程(見附錄)。
由於篇幅所限,本書沒有涵蓋廣義加性模型、模型集成、網絡模型、時間序列等內容。
本書還有一個配套網站:
http://appliedpredictivemodeling.com/其中含有一些相關內容。
沒有如下這些人的指導和幫助不會有本書的問世:Walter H Carter, Jim Garrett,Chris Gennings, Paul Harms, Chris Keefer, William Klinger, Daijin Ko, Rich Moore, David Neuhouser, David Potter, David Pyne, William Rayens, Arnold Stromberg和Thomas Vidmar。我們還要感謝Ross Quinlan對Cubist和 C5��0部分的幫助,他們幫我們修正瞭這兩部分的一些描述。我們還要感謝Springer齣版社的Marc Strauss和Hannah Bracken以及審閱者Vini Bonato、Thomas Miller、Ross Quinlan、Eric Siegel、Stan Young和一位匿名審閱者。最後我們要感謝傢人的支持:Miranda Kuhn, Stefan Kuhn, Bobby Kuhn, Robert Kuhn, Karen Kuhn 和Mary Ann Kuhn; Warren和Kay Johnson,Valerie和Truman Johnson。
Max KuhnKjell Johnson
應用預測建模 下載 mobi pdf epub txt 電子書 格式 2024
應用預測建模 下載 mobi epub pdf 電子書內容可讀性好
評分很好的書,還需要慢慢琢磨
評分實用!
評分斯普林格的書,收藏瞭
評分書質量不錯,內容也挺好,值得學習
評分很好很不錯
評分很不錯? 講解的很清楚 適閤數據挖掘入門的朋友看
評分囤貨用的,還沒有開始看
評分物流給力,速度真快,慢慢欣賞
應用預測建模 mobi epub pdf txt 電子書 格式下載 2024