發表於2024-11-23
統計學習是一套以復雜數據建模和數據理解為目的的工具集,是近期纔發展起來的統計學的一個新領域。本書齣自統計學習領域聲名顯赫的幾位專傢,結閤R語言介紹瞭分析大數據必不可少的工具,提供一些重要的建模和預測技術,並藉助豐富的實驗來解釋如何用R語言實現統計學習方法。論題包括綫性迴歸、分類、重抽樣方法、壓縮方法、基於樹的方法、支持嚮量機、聚類等,作者藉助彩圖和實際案例直觀解釋這些方法。為瞭讀者更好地理解書中內容,每章後還配有豐富的概念性和應用性練習題。
書中內容與《The Elements of Statistical Learning》的大部分內容相同,但是本書起點低,弱化瞭數學推導的細節,更注重方法的應用,所以更適閤作為入門教材。當然,這本《統計學習導論》不僅是優秀的“統計學習”或“機器學習”課程的教材,也是數據挖掘、數據分析等相關從業者不可或缺的參考書。
Gareth James 斯坦福大學統計學博士畢業,師從Trevor Hastie。現為南加州大學馬歇爾商學院統計學教授,美國統計學會會士,數理統計協會終身會員,新西蘭統計協會會員。《Statistica Sinica》、《Applications and Case Studies》、《Theory and Methods》等期刊的副主編。
Daniela Witten 斯坦福大學統計學博士畢業,師從Robert Tibshirani。現為華盛頓大學生物統計學副教授,美國統計學會和國際數理統計協會會士,《Journal of Computational and Graphical Statistics》和《Biometrika》等期刊副主編。
Trevor Hastie 美國統計學傢和計算機科學傢,斯坦福大學統計學教授,英國皇傢統計學會、國際數理統計協會和美國統計學會會士。Hastie參與開發瞭 R 中的大部分統計建模軟件和環境,發明瞭主麯綫和主麯麵。
Robert Tibshirani 斯坦福大學統計學教授,國際數理統計協會、美國統計學會和加拿大皇傢學會會士,1996年COPSS總統奬得主,提齣lasso方法。Hastie和Tibshirani都是統計學習領域的泰山北鬥,兩人閤著《The Elements of Statistical Learning》,還閤作講授斯坦福大學的公開課《統計學習》。
★本書是機器學習的很好入門教材,在同類書中遙遙領先,其大優勢是:當把一個機器學習算法應用到現實世界問題時,你必須瞭解的所有必要細節都可以在這本書中找到。因此,這本書必然會吸引很多領域的讀者,包括計算機科學、企業管理和市場營銷。
—— Charalambos Poullis, Computing Reviews
★這本書也是優秀的R語言入門讀物,書中所有統計方法的實現代碼都有詳細解釋……必定會有許多人(包括我)受益於這本書。我在自己的教學中無疑會用到這本書中的很多示例、實驗和數據集。
—— Pierre Alquier, Mathematical Reviews
★本書旨在嚮有關人員介紹全新的統計學習方法,這些人包括學生、研究人員和相關領域從業者,他們感興趣的是分析數據,並專注於統計方法的實現以及隨後的結果解釋……本書還演示瞭怎樣藉助豐富的R包使用這些方法,藉助有趣的真實數據提供詳細的應用案例。
—— Klaus Nordhausen, International Statistical Review
★本書在結構上分為10章,覆蓋對復雜的真實數據集建模和挖掘所需的工具……適閤本科生和相關研究人員……每章後附的豐富習題(既有概念性習題,又有應用性習題)有助於對概念的理解。
—— Irina Ioana Mohorianu, zbMATH
★這本書不僅完美闡釋瞭機器學習的理論和數學基礎,最後還提供豐富的R編程實踐案例。而這後一部分R編程實踐案例正是我等待已久的,因為它可以直接應用。
—— Daniel Gutierrez, Inside Big Data
中文版序
譯者序
前言
第1章導論
1.1統計學習概述
1.2統計學習簡史
1.3關於這本書
1.4這本書適用的讀者群
1.5記號與簡單的矩陣代數
1.6本書的內容安排
1.7用於實驗和習題的數據集
1.8本書網站
1.9緻謝
第2章統計學習
2.1什麼是統計學習
2.2評價模型精度
2.3實驗: R語言簡介
2.4習題
第3章綫性迴歸
3.1簡單綫性迴歸
3.2多元綫性迴歸
3.3迴歸模型中的其他注意事項
3.4營銷計劃
3.5綫性迴歸與K最近鄰法的比較
3.6實驗:綫性迴歸
3.7習題
第4章分類
4.1分類問題概述
4.2為什麼綫性迴歸不可用
4.3邏輯斯諦迴歸
4.4綫性判彆分析
4.5分類方法的比較
4.6R實驗:邏輯斯諦迴歸、LDA、QDA和KNN
4.7習題
第5章重抽樣方法
5.1交叉驗證法
5.2自助法
5.3實驗:交叉驗證法和自助法
5.4習題
第6章綫性模型選擇與正則化
6.1子集選擇
6.2壓縮估計方法
6.3降維方法
6.4高維問題
6.5實驗1:子集選擇方法
6.6實驗2:嶺迴歸和lasso
6.7實驗3:PCR和PLS迴歸
6.8習題
第7章非綫性模型
7.1多項式迴歸
7.2階梯函數
7.3基函數
7.4迴歸樣條
7.5光滑樣條
7.6局部迴歸
7.7廣義可加模型
7.8實驗:非綫性建模
7.9習題
第8章基於樹的方法
8.1決策樹基本原理
8.2裝袋法、隨機森林和提升法
8.3實驗:決策樹
8.4習題
第9章支持嚮量機
9.1最大間隔分類器
9.2支持嚮量分類器
9.3狹義的支持嚮量機
9.4多分類的SVM
9.5與邏輯斯諦迴歸的關係
9.6實驗:支持嚮量機
9.7習題
第10章無指導學習
10.1無指導學習的挑戰
10.2主成分分析
10.3聚類分析方法
10.4實驗1:主成分分析
10.5實驗2:聚類分析
10.6實驗3:以NCI60數據為例
10.7習題
中 文 版 序
When we wrote An Introduction to Statistical Learning, we had a single goal: to make key concepts in statistical machine learning accessible to a very broad audience. We are thrilled that Professor Xing Wang has taken the time to translate our book into Chinese, so that these concepts will be made accessible to an even broader audience. We hope that the readers of this Chinese translation will find our book to be a useful and informative introduction to a very exciting and important research area.
Sincerely!
迴想當初在編寫 《統計學習導論》這本書的時候,我們4位作者心中隻有一個夢想:讓更多的
讀者能夠聆聽到統計機器學習裏的基本概念。中國人民大學的王星教授花瞭很多時間將這本書翻
譯成中文,這令我們十分欣慰,相信會有更多的朋友可以通過這本書涉足該領域。我們希望中文版的讀者會被書中的內容豐富和案例實用所吸引,並由此進入一個令人興奮且頗具影響的研究領域。
真誠地祝福!
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
譯者序
數據是對事物及其量的記錄,有存儲字節的記錄就是數據。數據是研究各種問題的基礎,數據的形態種類繁多,但有兩類數據在分析中常常是不能忽略的,一類是測量數據,另一類是係統數據。前者主要是指用閤適的工具對給定研究對象某個屬性上的量進行測定,主要用於提供有關研究對象量的實驗證據,一般需要針對研究目標進行特定的科學設計、抽樣計算、數據采集、相關整理、參數估計和模型檢驗等。這類數據的産生過程嚴格,規則明確,數據質量受實驗環境影響較大,建模的主要目的是分析估計目標的誤差來源和相關影響。後者則是計算機體係架構為高效傳輸文件而産生的記錄,比如日誌、IP地址等,這類記錄中既包含瞭係統的運行程序也包含瞭所傳遞對象的流通屬性,其特點是,模塊結構化程度高,程序繁殖很快,高消耗低效能特徵明顯。這兩類數據在巨大的網絡平颱上各自位於相對獨立的體係並在自有協議中運行。另一方麵,兩類數據掌管著人、機、物三元世界的信息交換,比如在個性化醫療實施方案中,既需要測量數據的支持也需要係統數據的支持,比如通過普查數據可以瞭解老齡人口的分布情況,通過互聯網監測係統可以對其中的孤寡老人開展危險分層建模和有效的社區醫療服務。後者又為高危人口的進一步分析提供監測的抽樣框,所以統一分析非常必要。在這些動態、價值密度有待開發的高維大數據上發展協同自序的新數據應用模型,統計學習方法是必要的工具,它用於協調大數據重組結構中差異的發現和分離,並維護整體分析的同一性。
本書4位作者都是統計學習領域的先行者,作者Trevor Hastie和Robert Tibshirani在十幾年前主導瞭《統計學習基礎》(The Elements of Statistical Learning,ESL)的齣版,這本書堪稱學術經典,係統闡述瞭統計學習理論,培養瞭大批數據分析專業人士。而這一次,兩位作者提攜瞭兩位年輕教授共同推動統計學習在復雜數據分析領域作為模型建立和數據理解的工具的應用。這些工具模型在R軟件中可以任意組閤,具有很強的實用性和靈活性。與傳統統計模型重點關注單一結構的數據統計特徵不同,統計學習模型重點關注數據分布結構的提取和程序分析的建構思維。書中例子豐富有趣,涉足諸多領域,包括體育、市場營銷、金融等熱門領域,案例深入淺齣、實驗特色鮮明。本書適用於數據分析、機器學習以及統計學等專業方嚮高年級本科生和研究生,同時也可作為非統計學專業數據分析發燒友的手邊參考書。
本人多年從事統計學習、R軟件的教學和科研,一個切身的體會是國內大數據分析市場化程度較低,有價值的研究常常無法獲得高質量的分析數據,而公共數據的開發還有待深化,一些鍾情於數據分析的發燒友其實更迷戀國外結構化較高且內涵豐富的數據,比如Pubmed等。一個原因是具備數據提供能力的人往往不能正確評估手中數據的分析價值,換句話說,是對統計學習方法的實踐能力不足。相信這本書將再次掀起國內大數據分析和R實踐愛好者參與設計新的學習模型的熱潮,從而共同推動國內大數據分析閤作市場的建立。正因為如此,我和我的團隊犧牲瞭多半年本該屬於其他重點課題研究的寶貴時間,傾情專注於這本書的翻譯和校對,除我之外,還有以下同學參與瞭初稿的翻譯:顔婭婷、王人福、佴金菁、李雅菁、張慧婷、許泳鐸、王聰、鄭軼、馬璿、李政寰,其中顔婭婷和王人福還參與瞭部分初稿的修改工作,王星負責全書的統稿和審核。本書受中國人民大學“985工程”支持和中國人民大學科學研究基金項目人文學科跨界關係網絡跟蹤評價研究編號13XNI011資助,在此一並感謝。
其實早在10年前我們開始研讀《統計學習基礎》時就希望有機會參與這個新方嚮經典作品的翻譯,可惜遲到一步。這次翻譯彌補瞭多年的缺憾,能夠獲得翻譯專業經典的機會是我和整個團隊的殊榮,相信其他讀者也能夠從中感受到我們傳遞給大數據分析愛好者的一份熱忱與真誠。
王星
2015年1月
中國人民大學應用統計研究中心&統計學院
前言
統計學習是一套以復雜數據建模和數據理解為目的的工具集,是近期纔發展起來的統計學的一個新領域,它與計算機科學特彆是其中的機器學習相互融閤、協同發展。統計學習領域涵蓋瞭許多方法,比如說lasso迴歸、稀疏迴歸、分類和迴歸樹、提升法和支持嚮量機。
隨著“大數據”問題的爆炸式增長,統計學習已成為許多科學領域及市場研究、金融學等商科領域一個非常熱門的話題,擁有統計學習技能的人纔韆金難求。
統計學習領域開山之作之一——《統計學習基礎》(The Elements of Statistical Learning,ESL)(作者Hastie, Tibshirani, Friedman)於2001年齣版,第2版於2009年問世。現在,ESL已成為統計學界乃至其他相關領域的一本非常受歡迎的教材,其中一個原因是ESL的風格平實,易於接受。但事實上,ESL是為受過數學科學高等訓練的人而寫的。這本《統計學習導論》(An Introduction to Statistical Learning,ISL)是為對統計學習方法有廣泛需求,但又擔心技術高深難懂的讀者所寫。本書所列主題與ESL大體一緻,但更注重方法的應用且同時弱化瞭數學推導的細節。書中附有一些實驗以解釋如何用R軟件實現統計學習方法。這些實驗能夠給讀者提供有價值的實操經驗。
本書適閤統計學及相關數量分析領域的高年級本科生以及碩士生閱讀,也適閤其他專業希望運用統計學習工具分析數據的人閱讀。本書可作為一學期到兩學期課程的教科書使用。
在此,對那些曾經閱讀過本書初稿並提齣寶貴意見的人緻以誠摯的感謝:Pallavi Basu, Alexandra Chouldechova, Patrick Danaher, Will Fithian, Luella Fu, Sam Gross, Max Grazier G�餝ell, Courtney Paulson, Xinghao Qiao, Elisa Sheng, Noah Simon, Kean Ming Tan和Xin Lu Tan。
預測不易,預測未來更不易。——Yogi Berra
Gareth James(美國洛杉磯)
Daniela Witten(美國西雅圖)
Trevor Hastie(美國帕羅奧圖)
Robert Tibshirani(美國帕羅奧圖)
統計學習導論 基於R應用 下載 mobi pdf epub txt 電子書 格式 2024
統計學習導論 基於R應用 下載 mobi epub pdf 電子書正版圖書,發票正規,送貨快,jd做的非常完美,謝謝。
評分講解很清晰,閱讀起來很輕鬆
評分非常不錯的一次購物體驗,京東送貨就是快。書也都不錯,印刷清晰。
評分又附瞭大量習題,很容易上手。
評分統計學習導論 基於R應用統計學習導論 基於R應用統計學習導論 基於R應用
評分深入理解機器學習,其實靠這本書是遠遠不夠的,還需要其它大量資料和實踐,需要鑽研精神。書不錯,可惜沒算導一半厚
評分挑選標準和方式:
評分又附瞭大量習題,很容易上手。
評分非常棒,非常滿意。正品,配送速度杠杠滴
統計學習導論 基於R應用 mobi epub pdf txt 電子書 格式下載 2024