在任何國傢及任何製度下都能夠生存和發展的知識和能力,就是科學,是人們在生命的曆程中應該獲得的。
吳喜之
1 糾正瞭傳統教材隻重視迴歸而忽視分類的偏見
2 實際工作中,分類的需求並不比迴歸少,在分類領域, 機器學習方法在應用範圍及預測精度上都普遍超過傳統的諸如判彆分析和二元時的logistic迴歸等參數方法。
3 本書以數據為導嚮,對應不同的數據介紹盡可能多的方法, 並且說明各種方法的優點、缺點及適用範圍. 對於不同模型的比較, 本書將主要采用客觀的交叉驗證的方法.
本書包括的內容有: 經典綫性迴歸、廣義綫性模型、縱嚮數據(分層模型), 機器學習迴歸方法(決策樹、bagging、隨機森林、mboost、人工神經網絡、支持嚮量機、k最近鄰方法)、生存分析及Cox模型、經典判彆分析與logistic迴歸分類、機器學習分類方法(決策樹、bagging、隨機森林、adaboost、人工神經網絡、支持嚮量機、k最近鄰方法). 其中, 縱嚮數據(分層模型)及生存分析及Cox模型的內容可根據需要選用, 所有其他的內容都應該在教學中涉及, 可以簡化甚至忽略的內容為一些數學推導和某些不那麼優秀的模型, 不可以忽略的是各種方法的直觀意義及理念.
吳喜之,北京大學數學力學係本科,美國北卡羅來納大學統計博士。中國人民大學統計學院教授,博士生導師。曾在美國加利福尼亞大學、北卡羅來納大學以及南開大學、北京大學等多所著名學府執教。
第一章 引言
第二章 經典綫性迴歸
第三章 廣義綫性模型
第四章 縱嚮數據及分層模型
第五章 機器學習迴歸方法
第六章 生存分析及Cox模型
第七章 經典分類:判彆分析
第八章 機器學習分類方法
附錄 練習:熟練使用R軟件
參考文獻
本書不像很多教科書那樣隻講80年之前的以數學假定和推導為主的內容, 而要強調最近20年最新和最有效的統計方法. 本書還冠以``分類''二字, 是為瞭糾正由於隻有``迴歸''而鮮有(如果不是沒有)``分類''教科書而造成的人們以為迴歸比分類更重要的偏見. 實際上, ``分類''一詞很少齣現在教科書的書名中的主要原因恐怕是長期以來數學主導的統計界缺乏除瞭判彆分析之外的數學式的分類方法, 而引入近年來新發展的機器學習方法似乎又不閤那些隻認數學公式的一些統計學傢的胃口.
迴歸和分類的問題是相同的, 僅區彆於因變量的形式. 在統計應用中, 最常見的是根據數據建立從自變量來預測因變量的模型, 也就是說, 用包含自變量和因變量的數據來訓練一個模型, 然後用這個模型擬閤新的自變量的數據來預測新的因變量的值.
目前有很多關於迴歸教科書和課程, 但鮮有關於分類的教科書和課程. 而在迴歸中又以通常稱為綫性模型的綫性最小二乘迴歸為主, 其原因是在前計算機時代, 綫性模型是數學上最方便也最容易研究的模型, 關於綫性模型的大量數學結果使其成為碩果纍纍的一大領域. 從綫性模型又引申齣非綫性模型、廣義綫性模型、隨機效應混閤模型等新的建模方嚮, 使得迴歸領域不斷擴大. 而在分類方麵, 僅有在多元分析名下的``判彆分析''可以做分類. 分類方麵的研究在計算機齣現前的很長一段時間遠遠不如迴歸那麼普遍.
然而在實際工作中, 分類的需求並不比迴歸少, 但是, 由數學傢所發明的經典方法無力解決如此多種多樣的分類問題, 而又沒有多少人願意在文獻中介紹他們不能解決的問題. 除此之外, 傳統的迴歸方法也由於其對數據所限定的種種無法驗證的假定而受到極大限製和挑戰. 計算機時代的到來徹底改變瞭這種局麵. 各種機器學習方法的齣現全麵更新瞭傳統迴歸領域的麵貌和格局. 機器學習方法充分顯示齣迴歸預測上的優越性能. 在分類領域, 機器學習方法在應用範圍及預測精度上都普遍超過傳統的諸如判彆分析和二元時的logistic迴歸等參數方法.
本書的宗旨就是既要介紹傳統的迴歸和分類方法, 又要引入機器學習的方法, 並且通過實際例子, 運用R軟件來讓讀者能夠理解各種方法的意義和實踐, 能夠自主做數據分析並得到結論.
傳統的迴歸分析教科書, 通常隻講所述方法能夠做什麼, 不講其缺點和局限性, 並很少涉及其他可用的方法, 而本書以數據為導嚮, 對應不同的數據介紹盡可能多的方法, 並且說明各種方法的優點、缺點及適用範圍. 對於不同模型的比較, 本書將主要采用客觀的交叉驗證的方法. 對於每一個數據以及通過數據所要達到的目的, 都有許多不同的方法可用, 但具體哪種方法或模型最適閤, 則依數據及目標而定, 絕不事先決定.
本書所有的分析都通過免費的自由軟件R來實現.讀者可以毫不睏難地重復本書所有的計算. R網站擁有世界各地統計學傢貢獻的大量最新軟件包(package), 這些程序包以飛快的速度增加和更新, 已從2009年底的不到1000個增加到2015年8月中旬的7000多個. 它們代錶瞭統計學傢創造的針對各個統計方嚮及不同應用領域的嶄新統計方法. 這些程序包的代碼大多是公開的. 與此相對比, 所有商業軟件遠沒有如此多的資源, 也不會更新得如此之快, 而且商業軟件的代碼都是保密的昂貴``黑匣子''.
在發達國傢, 不能想象一個統計研究生不會使用R軟件. 那裏很多學校都開設瞭R軟件的課程. 今天, 任何一個統計學傢想要介紹和推廣其創造的統計方法, 都必須提供相應的計算程序, 而發錶該程序的最佳地點就是R網站. 由於方法和代碼是公開的, 這些方法很容易引起有關學者的關注, 這些關注對研究相應方法形成群體效應, 推動其發展. 不會編程的統計學傢在今天是很難生存的.
在學校中講授任何一種商業軟件都是為該公司做義務廣告, 如果沒有相關軟件公司的資助, 就沒有學校願意花錢講授商業軟件. 在教學中使用盜版軟件是違法行為, 絕對不應該或明或暗地鼓勵師生使用盜版商業軟件, 使得師生通過盜版軟件對其産生依賴性, 並抑製人們自由編程能力的發展.
對R軟件編程的熟悉還有助於學習其他快速計算的語言, 比如C++, FORTRAN, Python, Java, Hadoop, Spark, NoSQL, SQL等, 這是因為編程理念的相似性, 這對於應對因快速處理龐大的數據集而麵臨的巨大的計算量有所裨益. 而熟悉一些傻瓜式商業軟件, 對學習這些語言沒有任何好處.
本書試圖讓讀者理解世界是復雜的, 數據形式是多種多樣的, 必須有超越書本、超越所謂權威的智慧和勇氣, 纔能充滿自信地麵對世界上齣現的各種挑戰.
由於統計正以前所未有的速度發展, R網站及其各個程序包也在不斷更新, 因此, 筆者希望讀者通過對本書的學習, 學會如何通過R不斷學習新的知識和方法. ``授人以魚, 不如授之以漁'', 成功的教師不是像百科全書那樣告訴學生一些現成的知識, 而是讓學生産生疑問和興趣, 以促進其做進一步的探索.
本書所有的數據例子都可以從網上找到並且下載. 這些例子背後都有一些理論和應用的故事. 筆者並沒有刻意挑選例子所在的領域, 統計方法對於各個實際領域是相通的. 我們想要得到的是到任何領域都能施展的能力, 而不是有限的行業培訓. 如果你能夠處理具有挑戰性的數據, 那麼無論該數據來自何領域, 你的感覺都會很好.
本書包括的內容有: 經典綫性迴歸、廣義綫性模型、縱嚮數據(分層模型), 機器學習迴歸方法(決策樹、bagging、隨機森林、mboost、人工神經網絡、支持嚮量機、k最近鄰方法)、生存分析及Cox模型、經典判彆分析與logistic迴歸分類、機器學習分類方法(決策樹、bagging、隨機森林、adaboost、人工神經網絡、支持嚮量機、k最近鄰方法). 其中, 縱嚮數據(分層模型)及生存分析及Cox模型的內容可根據需要選用, 所有其他的內容都應該在教學中涉及, 可以簡化甚至忽略的內容為一些數學推導和某些不那麼優秀的模型, 不可以忽略的是各種方法的直觀意義及理念.
本書的適用範圍很廣, 其內容曾經在中國人民大學、首都經貿大學、中央財經大學、西南財經大學、雲南財經大學, 四川大學、哈爾濱理工大學、新疆財經大學、中山大學、內濛古科技大學、雲南師範大學及大理大學講授過, 對象包括數學、應用數學、金融數學、統計、精算、經濟、旅遊、環境等專業的本科生以及數學、應用數學、統計、計量經濟學、生物醫學、應用統計、經濟學等專業的碩士和博士研究生. 作為成績評定, 給每個學生分配若乾網站上的實際數據, 並且要求他們在學期末將分析處理這些數據的結果形成報告. 這些數據如何處理, 沒有標準答案, 甚至有些必要的方法還超齣瞭授課的範圍, 需要學生做進一步的探索和學習.
筆者認為, 這本書可以作為本科生的迴歸分析及分類課程的教科書, 應用統計碩士的知識應該包括本書的全部內容. 希望本書對於各個領域的教師以及實際工作者都有參考價值.
本書的排版是筆者通過LaTeX軟件實現的.
在任何國傢及任何製度下都能夠生存和發展的知識和能力, 就是科學, 是人們在生命的曆程中應該獲得的.
當我翻到分類模型的章節時,我感受到瞭另一種層次的驚喜。邏輯迴歸作為分類模型的基礎,書中對其的講解既全麵又透徹。從幾率比的解釋,到模型評估中的準確率、精確率、召迴率、F1分數以及ROC麯綫和AUC值,作者都給予瞭詳盡的說明。我過去在理解這些評估指標時常常感到睏惑,但通過書中大量的圖例和R代碼演示,我終於能夠清晰地分辨它們各自的含義和應用場景,並知道如何根據不同的業務需求選擇最閤適的評估指標。 隨後,書中對決策樹和隨機森林的介紹更是讓我眼前一亮。作者並沒有止步於基本的決策樹構建,而是深入探討瞭剪枝技術、多重決策樹集成等高級概念。特彆是隨機森林算法,它如何通過構建多棵決策樹並進行投票來提高預測的魯棒性和準確性,這一機製在書中得到瞭非常清晰的闡釋。我特彆喜歡作者通過實際數據集演示如何使用R中的`rpart`和`randomForest`包來構建和評估這些模型,這讓我能夠立即將理論知識轉化為實踐操作。 支持嚮量機(SVM)是書中另一個讓我印象深刻的部分。作者以生動的比喻解釋瞭核函數的概念,以及它如何將低維數據映射到高維空間以實現綫性可分。書中對於不同核函數(綫性、多項式、徑嚮基函數)的優缺點和適用場景的對比分析,讓我對SVM的理解上升到瞭一個新的高度。而且,書中對SVM參數(如C和gamma)的調優也進行瞭詳細的講解,這對於獲得最佳模型性能至關重要。
評分《應用迴歸及分類:基於R》在處理時間序列數據進行迴歸和分類的應用方麵,給我留下瞭深刻的印象。書中對ARIMA模型、SARIMA模型等經典時間序列模型的講解,結閤R語言的實現,讓我在理解時間序列的自相關性和季節性方麵有瞭新的認識。特彆是在分析股票價格、銷售預測等數據時,這些模型的應用顯得尤為重要。 作者還引入瞭更現代的時間序列預測方法,例如使用機器學習模型(如LSTMs)來處理時間序列數據。書中對這些方法的理論基礎和R語言的實現進行瞭詳細介紹,這讓我能夠接觸到最新的研究成果,並將其應用到實際問題中。 在分類模型方麵,本書對多項邏輯迴歸和有序邏輯迴歸的講解也讓我大開眼界。這兩種模型對於處理具有多個類彆響應變量的數據非常有用,作者通過實際案例展示瞭如何構建和解釋這些模型,這對於我在進行市場細分、用戶行為預測等任務時提供瞭寶貴的指導。
評分初次翻開《應用迴歸及分類:基於R》,我就被它厚重的篇幅和嚴謹的排版所吸引。作為一名初涉數據科學領域的學習者,我常常在麵對海量數據和紛繁復雜的模型時感到力不從心。這本書的齣現,恰如一位經驗豐富的引路人,為我撥開瞭迷霧。我特彆欣賞作者在開篇部分對迴歸和分類概念的循序漸進的闡述,沒有急於拋齣晦澀的公式,而是從現實生活中的具體場景切入,例如預測房價、識彆垃圾郵件等,這些生動形象的案例讓抽象的統計學原理瞬間變得鮮活起來。 緊接著,書中對綫性迴歸的深入剖析更是讓我受益匪淺。作者不僅詳細介紹瞭普通最小二乘法(OLS)的原理,還列舉瞭如何在R語言中高效實現OLS迴歸,並對迴歸係數的解釋、假設檢驗、置信區間等關鍵概念進行瞭詳盡的講解。我尤其喜歡書中關於模型診斷的章節,作者通過圖示和實例,清晰地展示瞭如何識彆異方差、多重共綫性、自相關等問題,並提供瞭相應的解決方案。這一點對於我理解模型的局限性、避免“過擬閤”或“欠擬閤”至關重要。 在迴歸部分,本書還觸及瞭嶺迴歸和Lasso迴歸等正則化方法。雖然我之前對這些概念有所耳聞,但總是覺得它們有些神秘。然而,通過書中對這些方法的原理、適用場景以及在R中實現的代碼示例,我茅塞頓開。特彆是作者對Lasso迴歸在特徵選擇方麵的獨特優勢的闡述,讓我看到瞭如何構建更簡潔、更具解釋性的模型。這對於處理高維數據,特彆是醫學影像、基因組學等領域的數據,具有極高的實踐價值。
評分本書在處理文本數據進行分類時,所提供的思路和方法讓我受益匪淺。作者介紹瞭如何對文本數據進行預處理,包括分詞、去除停用詞、詞乾提取等,以及如何將文本轉換為數值型特徵,例如TF-IDF(Term Frequency-Inverse Document Frequency)和詞嚮量(Word Embeddings)。 我過去在處理文本分類任務時,常常在特徵提取階段遇到瓶頸。然而,本書通過對TF-IDF的詳細解釋和R語言的實現,讓我能夠有效地量化文本的詞語重要性。而且,作者還簡要介紹瞭詞嚮量的概念,為我打開瞭探索更先進文本錶示方法的大門。 在分類模型方麵,本書也結閤文本數據,演示瞭如何使用邏輯迴歸、樸素貝葉斯、支持嚮量機等模型進行文本分類。特彆是在使用樸素貝葉斯模型進行垃圾郵件分類的案例,讓我對該算法有瞭更直觀的理解。
評分《應用迴歸及分類:基於R》在涉及貝葉斯迴歸和分類方法時,提供瞭非常清晰的入門指導。作者並非一味地拋齣復雜的數學公式,而是從貝葉斯定理的基本原理齣發,逐步引入馬爾可夫鏈濛特卡洛(MCMC)等抽樣方法。 我過去對貝葉斯方法的理解較為模糊,總覺得它比頻率派方法更為抽象。然而,通過書中對貝葉斯迴歸模型(如貝葉斯綫性迴歸)的講解,我開始理解其如何通過後驗分布來錶達參數的不確定性,以及如何進行模型推斷。 本書還介紹瞭貝葉斯分類模型,例如貝葉斯邏輯迴歸。作者通過R語言的代碼示例,演示瞭如何使用`rjags`或`rstan`等包來實現貝葉斯模型。這讓我看到瞭如何利用貝葉斯方法來構建具有概率解釋的模型,這在一些需要量化不確定性的領域(如風險評估)具有重要意義。
評分我對本書關於異常檢測的章節感到非常滿意。作者清晰地闡述瞭異常檢測的目標和挑戰,並介紹瞭多種常用的異常檢測算法,例如基於統計的方法(如Z-score、IQR)、基於密度的方法(如LOF)以及基於模型的方法(如Isolation Forest)。我過去在處理數據時,常常會忽略掉一些潛在的異常點,而本書讓我認識到異常檢測在金融欺詐識彆、網絡安全監控等領域的關鍵作用。 書中對這些算法的R語言實現進行瞭詳細的演示,並提供瞭如何選擇和調整參數的建議。特彆是在使用Isolation Forest進行異常檢測時,作者通過直觀的圖示解釋瞭該算法的原理,這讓我能夠更好地理解其工作機製。 此外,本書還觸及瞭半監督學習在異常檢測中的應用,這讓我看到瞭如何在有限的標注數據情況下,依然能夠有效地進行異常檢測。這一點對於一些數據標注成本高昂的場景非常有價值。
評分《應用迴歸及分類:基於R》在介紹不同類型的迴歸模型時,非常注重模型之間的比較和選擇。作者不僅詳細講解瞭綫性迴歸、多項式迴歸、嶺迴歸、Lasso迴歸等,還深入探討瞭非綫性迴歸模型,例如支持嚮量迴歸(SVR)和決策樹迴歸。 我特彆喜歡書中對不同迴歸模型適用場景的分析。例如,當數據呈現非綫性關係時,作者會推薦使用多項式迴歸或SVR;當特徵維度很高且存在共綫性時,則會考慮使用嶺迴歸或Lasso迴歸。這種“因地製宜”的模型選擇建議,對我這樣的初學者來說非常有指導意義,避免瞭盲目套用模型的錯誤。 此外,作者在講解模型評估指標時,也非常細緻。除瞭R-squared、Adjusted R-squared等,還介紹瞭MAE(Mean Absolute Error)、MSE(Mean Squared Error)和RMSE(Root Mean Squared Error)等,並分析瞭它們在不同情況下的優缺點。這讓我能夠更全麵地理解模型的擬閤程度和預測誤差。
評分在閱讀《應用迴歸及分類:基於R》的過程中,我發現作者在講解模型的同時,非常注重實際操作的細節。例如,在介紹數據預處理時,書中詳細講解瞭如何處理缺失值、異常值,如何進行特徵縮放和編碼,以及如何進行特徵工程。這些看似基礎但至關重要的步驟,在實際建模過程中往往是決定成敗的關鍵。本書通過大量R語言的代碼示例,讓我能夠輕鬆地將這些概念應用到自己的數據集中。 我尤其欣賞本書對交叉驗證的詳細講解。作者不僅解釋瞭k摺交叉驗證的原理,還展示瞭如何在R中實現它,並強調瞭其在防止模型過擬閤、評估模型泛化能力方麵的重要性。這對於我在構建可靠的預測模型時,能夠更準確地評估模型的性能,避免過度自信非常重要。 本書在模型性能評估方麵也做得非常齣色。除瞭常見的準確率、精確率、召迴率等指標外,作者還深入介紹瞭PR麯綫(Precision-Recall Curve)及其在類彆不平衡數據集上的優勢,以及卡方檢驗、t檢驗等用於比較模型性能的統計方法。這讓我能夠從更全麵的角度去評價和選擇最適閤特定任務的模型。
評分本書在模型部署和生産化方麵的討論,雖然篇幅不長,但卻非常實用。作者簡要地介紹瞭如何將訓練好的模型導齣,並與其他係統進行集成,例如通過API的方式。雖然本書的重點在於模型的理論和實現,但這種對實際應用落地性的考量,讓我看到瞭作者的周全。 我對書中關於模型監控和再訓練的初步探討也印象深刻。作者提及瞭在模型部署後,需要定期監控其性能,並根據數據分布的變化進行再訓練。這一點對於確保模型的長期有效性至關重要,尤其是在數據動態變化的業務場景中。 雖然本書並非一本關於軟件工程的書籍,但其包含的這些關於模型部署的初步內容,為我打開瞭另一扇窗,讓我認識到構建一個完整的機器學習解決方案,不僅僅是模型訓練那麼簡單,還需要考慮模型如何投入實際使用。
評分從本書對廣義綫性模型(GLM)的詳盡闡述中,我獲得瞭前所未有的啓發。作者不僅清晰地解釋瞭GLM如何將響應變量的分布與綫性預測器聯係起來,還重點介紹瞭泊鬆迴歸和負二項迴歸等模型,這對於分析計數型數據(如疾病發病率、網站點擊次數)至關重要。我過去在處理這類數據時常常感到無從下手,而本書提供的R代碼示例和模型解釋,讓我能夠信心滿滿地應對這些挑戰。 書中對混淆矩陣和多類分類問題的處理方式也讓我受益匪淺。作者通過構建詳細的混淆矩陣,幫助我理解不同類彆的預測錯誤情況,並進一步探討瞭如何使用宏平均和微平均來綜閤評估多類分類模型的性能。這對於構建能夠準確識彆多種不同類彆(如商品推薦、圖像識彆)的係統非常有幫助。 另外,本書在模型解釋性和可解釋性方麵的關注也讓我非常贊賞。在介紹復雜的模型的同時,作者也強調瞭理解模型決策過程的重要性。例如,在討論決策樹時,作者通過可視化輸齣來展示特徵的重要性,這使得我們能夠理解模型是如何做齣預測的。這種對模型“黑箱”問題的深入探討,對於在實際應用中建立信任和進行決策至關重要。
評分圖書正版!很不錯,還有塑封,繼續支持京東哦~加油!
評分朋友推薦的書籍
評分很好的很好很好的一本書
評分比較實用的書。
評分基礎細緻的入門書
評分拿到的書皺皺巴巴的,差評
評分很棒的書,買給老爸看的,爸爸很喜歡。高興哈哈哈
評分挺好
評分比較實用,對 R 學習者來說。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有