套路!機器學習:北美數據科學傢的私房課

套路!機器學習:北美數據科學傢的私房課 pdf epub mobi txt 電子書 下載 2025

林薈 著
圖書標籤:
  • 機器學習
  • 數據科學
  • 算法
  • Python
  • 實戰
  • 入門
  • 技巧
  • 北美
  • 乾貨
  • 套路
想要找書就要到 新城書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 電子工業齣版社
ISBN:9787121326585
版次:1
商品編碼:12245200
品牌:Broadview
包裝:平裝
開本:16開
齣版時間:2017-10-01
用紙:膠版紙
頁數:332
正文語種:中文

具體描述

産品特色

編輯推薦

  

亞馬孫資深數據科學傢裏麵博士、統計之都創始人謝益輝博士搶先品讀

當前關於大數據、人工智能的炒作著實令人眼花繚亂,如大數據平颱(如Hadoop、Spark),以及一些黑箱模型,如神經網絡,深度學習(實際上就是多層神經網絡)。各路媒體和“磚傢”深諳吃瓜群眾不明覺厲的心態,所以就像個“妓院頭牌“似的越發擺譜。作者並沒有打算寫一本數據科學的聖經,告訴你所有關於數據科學的一切;隻想盡可能地給大傢還原一個真實的數據科學和數據科學傢。希望能為後來者提供一些信息,使得讀者們能夠少走彎路。


  

內容簡介

  

數據科學傢目前是北美十分熱門的職業之一,平均年薪突破10萬美元。但數據科學並不是一個低門檻的行業,除瞭對數學、統計、計算機等相關領域的技術要求以外,還要相關應用領域的知識。《套路!機器學習:北美數據科學傢的私房課》的寫作對象是那些現在從事數據分析相關行業,或者之後想從事數據分析行業的人,意在為實踐者提供數據科學傢這門職業的相關信息。讀者可以從閱讀中瞭解到數據科學能解決的問題,數據科學傢需要的技能,及背後的“分析哲學”。對於新手而言,一開始就直奔艱深的理論,很容易因為睏難而失去興趣然後放棄。因此《套路!機器學習:北美數據科學傢的私房課》倡導的是一種循序漸進的啓發教學路徑,著重在於數據科學的實際應用,讓讀者能夠重復書中的結果,學習數據分析技能實際的方式是實踐!為瞭平衡理論和應用,書中包括瞭一些選學小節,用來介紹更多的模型數理背景或給齣必要的參考資料來源。抽絲剝繭介紹技術內核,幫助大傢知其然,同時知其所以然。希望筆者在北美從事數據科學工作多年踏遍大大小小不計其數的坑換來的經驗,能夠幫助讀者更加順利地成為數據科學傢!

作者簡介

2013年至今任美國杜邦公司商業數據科學傢。北京師範大學數學科學學院本科,愛荷華州立大學統計學院碩士和博士。曾任愛荷華州立大學獸醫學院統計谘詢師(2009-2013)及商學院分析谘詢師(2012-2013)。當選2017-2018美國統計協會市場營銷統計項目主席。翻譯齣版瞭《應用預測建模》和《R語言市場研究分析》。

目錄

第1章 白話數據科學 1
1.1 什麼是數據科學 3
1.2 什麼是數據科學傢 5
1.2.1 數據科學傢需要的技能 6
1.2.2 數據科學算法總結 10
1.3 數據科學可以解決什麼問題 20
1.3.1 前提要求 20
1.3.2 問題種類 22
1.4 小結 25
第2章 數據集 26
2.1 服裝消費者數據 26
2.2 航空公司滿意度調查 33
2.3 生豬疫情風險預測數據 37
第3章 數據分析流程 41
3.1 從問題到數據 42
3.2 從數據到信息 44
3.3 從信息到行動 46
第4章 數據預處理 47
4.1 介紹 47
4.2 數據清理 50
4.3 缺失值填補 52
4.3.1 中位數或眾數填補 53
4.3.2 K-近鄰填補 54
4.3.3 裝袋樹填補 56
4.4 中心化和標量化 56
4.5 有偏分布 59
4.6 處理離群點 63
4.7 共綫性 66
4.8 稀疏變量 70
4.9 編碼名義變量 71
4.10 小結 73
第5章 數據操作 75
5.1 數據讀寫 76
5.1.1 取代傳統數據框的tibble對象 76
5.1.2 高效數據讀寫:readr包 80
5.1.3 數據錶對象讀取 83
5.2 數據整閤 91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函數 93
5.2.3 dplyr包 96
5.3 數據整形 102
5.3.1 reshape2包 102
5.3.2 tidyr包 105
5.4 小結 107
第6章 基礎建模技術 109
6.1 有監督和無監督 109
6.2 誤差及其來源 111
6.2.1 係統誤差和隨機誤差 111
6.2.2 因變量誤差 117
6.2.3 自變量誤差 121
6.3 數據劃分和再抽樣 122
6.3.1 劃分訓練集和測試集 123
6.3.2 重抽樣 131
6.4 小結 135
第7章 模型評估度量 136
7.1 迴歸模型評估度量 136
7.2 分類模型評估度量 139
7.2.1 Kappa統計量 141
7.2.2 ROC麯綫 143
7.2.3 提升圖 145
7.3 小結 146
第8章 特徵工程 148
8.1 特徵構建 149
8.2 特徵提取 152
8.2.1 初步探索特徵 153
8.2.2 主成分分析 158
8.2.3 探索性因子分析 163
8.2.4 高維標度化 167
8.2.5 知識擴展:3種降維特徵提取方法的理論 171
8.3 特徵選擇 177
8.3.1 過濾法 178
8.3.2 繞封法 188
8.4 小結 195
第9章 綫性迴歸及其衍生 196
9.1 普通綫性迴歸 197
9.1.1 最小二乘綫性模型 197
9.1.2 迴歸診斷 201
9.1.3 離群點、高杠杆點和強影響點 204
9.2 收縮方法 205
9.2.1 嶺迴歸 205
9.2.2 Lasso 209
9.2.3 彈性網絡 212
9.3 知識擴展:LASSO的變量選擇功能 213
9.4 主成分和偏最小二乘迴歸 215
9.5 小結 221
第10章 廣義綫性模型壓縮方法 222
10.1 初識GLMNET 223
10.2 收縮綫性迴歸 227
10.3 邏輯迴歸 235
10.3.1 普通邏輯迴歸 235
10.3.2 收縮邏輯迴歸 236
10.3.3 知識擴展:群組lasso邏輯迴歸 239
10.4 收縮多項迴歸 243
10.5 泊鬆收縮迴歸 246
10.6 小結 249
第11章 樹模型 250
11.1 分裂準則 252
11.2 樹的修剪 256
11.3 迴歸樹和決策樹 260
11.4 裝袋樹 268
11.5 隨機森林 273
11.6 助推法 277
11.7 知識擴展:助推法的可加模型框架 283
11.8 知識擴展:助推樹的數學框架 286
11.8.1 數學錶達 286
11.8.2 梯度助推數值優化 289
11.9 小結 290
第12章 神經網絡 292
12.1 投影尋蹤迴歸(PROJECTION PURSUIT REGRESSION) 293
12.2 神經網絡(NEURAL NETWORKS) 296
12.3 神經網絡擬閤 299
12.4 訓練神經網絡 300
12.5 用CARET包訓練神經網絡 302
12.6 小結 311
參考文獻 312

精彩書摘

第1章 白話數據科學

目前數據科學和數據科學傢成為瞭流行詞匯。當有人問你乾什麼,你迴答說數據科學傢,對方會恍然大悟,覺得特彆高大上,噢,數據科學傢啊,聽說過。是啊,沒聽說過數據科學傢那就out瞭。如果接著問,數據科學傢具體乾什麼的?然後就沒有然後瞭。不知道你們有沒有聽說過這樣一則軼事,美國最高法院法官Potter Stewart被問到什麼是淫穢時,他迴答:“看下纔知道。”這和數據科學很類似,很多概念,在大而化之的時候都可以存在,大傢口耳相傳,聊的不亦樂乎,但一追究細節,立即土崩瓦解。那麼什麼是數據科學傢呢?我從榖歌查詢瞭數據科學傢的定義,下麵是其中的一些:

1. 住在加州的數據分析師;

2. 數據科學傢是商業(數據)分析師的進化版;

3. 比軟件學傢更懂統計,比統計學傢更懂軟件科學的人;

4. 擁有齣眾數據分析能力的BI谘詢師,尤其是能用大量數據增加商業競爭力的人;

5. 會編程,懂統計,能通過多種方式從數據中掘金的人。

此外,很多其他職位其職責都和“從數據中獲取信息”有關,比如:數據分析師,BI谘詢師,統計學傢,金融分析師,商業分析師,預測分析師……這些不同職業有什麼區彆?即便都是數據科學傢,教育背景等也是韆差萬彆的。由於媒體的炒作以及對“數據科學傢”這個名稱的濫用,盡管總的分析行業正在飛速發展,但大傢對這個行業從業人員的認識卻越來越混亂。現在大部分商業領域所謂的分析都達不到“科學”的程度,而僅僅是加減乘除的遊戲,數據科學工作職位比較如圖1-1所示。

圖1-1

這些不同的職位要求有何不同?在北美總體說來:

l 金融分析師一般有金融方嚮的MBA學位。他會用電子錶格,知道會計軟件,分析各部門的預算數據,分析實際經營結果和預測之間的差彆,做一些預測,但這裏的預測不會涉及復雜的機器學習和統計模型。

l 數據分析師一般有MBA學位,有一些計算機背景,很擅長使用電子錶格,會用高階的電子錶格編程功能如VBA、自定義函數、宏。根據情況,會使用一些BI的軟件,如Tableau,主要都是用鼠標點拖的方式。會用SQL從數據庫中讀取數據。我所見的商業分析師擁有很少(或沒有)統計知識。所以這部分人有處理數據的知識,但是沒有統計學的知識,能做的分析非常有限。

l 統計學傢一般多在藥廠、生物技術公司,做一些非常傳統的混閤效應模型、方差分析等生物統計分析。由於行業要求,多用SAS而非開源軟件R。

l BI谘詢師,一般也是工商管理專業,有MBA學位,受傳統的商學院教育(熟悉4Ps或6Ps,4Cs,使用SWOT法分析市場),熟練使用電子錶格,很少或沒有其他技術背景。

l 數據科學傢,多是數學/統計、計算機、工程學專業齣身,會使用R, Python等多種編程語言,熟悉數據可視化。大多數在入職前沒有太多市場營銷知識。掌握高等概率統計,熟悉如下概念:抽樣,概率分布,假設檢驗,方差分析,擬閤優度檢驗,迴歸,時間序列預測模型,非參數估計,實驗設計,決策樹,馬爾可夫鏈,貝葉斯統計(很快就能在白闆上寫下貝葉斯定理)。

數據科學傢都分布在哪些行業呢?根據Burtch Works Executive Recruiting在2015年4月發布的“數據科學傢薪資調查報告”,科技(包括互聯網)公司是數據科學傢最大的雇主。其次是一些為其他公司提供如廣告、市場調查、市場分析等商業服務的公司。這兩者之和超過瞭50%。2014年創業公司雇傭瞭29.4%的數據科學傢,2015年這個比例降至14.3%,原因不是創業公司招的數據科學傢職位少瞭,而是大公司招入的數據科學傢增長迅速,整體基數變大。總體來說,數據科學傢就業前景在北美是非常好的。調查還顯示,在北美,大部分(70%)數據科學傢工作經驗還不到10年,因此數據科學還是個很年輕的行業。現在,大傢對數據科學領域應該有個大緻的感覺瞭。下麵我們對其進一步探討。

1.1 什麼是數據科學

50年前,John Tukey他老人傢就預言有個類似今天的數據科學的東西會齣現。早在1962年,他在“數據分析的未來(The Future of Data Analysis)”[1] 中就嚷著要對學術統計進行改革。這篇文章當時發錶在“數理統計年鑒(The Annals of Mathematical Statistics)”上,他的觀點震驚瞭許多統計界的同事,這都是一群根正苗紅的數理統計齣身的大神們,那時數理統計年鑒中的文章都是滿滿的數學公式推導,從定義、定理到證明,邏輯縝密,理論精確。當然牛人最大的特點就是可以隨時任性。John推導瞭大半輩子公式,突然有一天發現統計不是這麼玩的,於是他跳齣來說:

“很長一段時間我覺得自己是統計學傢,對統計推斷情有獨鍾,將從小樣本上研究得到的結論推廣到更大的群體。但隨著數理統計的發展,我越發覺得這個路數不大對……總的來說,我覺得自己感興趣的是數據分析,它包括:分析數據的過程,解釋該過程得到結果的技術,閤理計劃收集數據的方案,使得之後的分析過程更方便準確,以及所有的分析中需要用到的儀器和數學理論。”

用簡短的一句話概括就是:僅僅研究數學理論不是數據科學,數據科學的內容涵蓋更廣。

美國密歇根大學在2015年9月宣布瞭一個1億美金的“數據科學項目(Data Science Initiative)”,計劃在未來4年聘請35名新教授,支持與數據相關的跨學科研究。大學媒體大膽地宣稱:

“數據科學已經成為第4大科學發現手段,前3個為:實驗、模型和計算。”

這裏的數據科學指的是什麼?該項目的網站上有如下對數據科學的描述:

“數據科學是科學發現和實踐的結閤,其包括對大量類型各異的數據進行收集、管理、清理、分析、可視化和結果解釋。其應用遍及各種科學、平移和交叉領域。”

如前所述,數據科學是一個新興領域。在美國,對數據分析類專業人纔的需求不斷上升。研究估計[2],從2015到2018年,美國預計有400~500萬個工作崗位要求數據分析技能,大部分這些崗位的人纔需要經過特殊訓練。前麵已經介紹過各種和數據分析相關的行業,這些行業對專業訓練的要求參差不齊。其中數據科學傢的門檻是最高的。成為一個數據科學傢不是件容易的事。不可否認,即使是數據科學傢這個職業名稱,當前也被濫用瞭。這些工作的本質都是從數據中獲取信息。

我是這樣定義數據科學的:

數據科學=數據+科學=從數據中獲取信息的科學

這是一門新的科學,有各種因素推動瞭這門科學的産生。John提到瞭如下的4個驅動因素:

1. 正統統計學理論;

2. 計算機和電子顯示設備的高速發展;

3. 很多領域內更多更大的數據提齣的挑戰;

4. 定量分析在更廣的領域受到重視。

很難想象這些觀點是在1962年提齣的,現在看來一點也不過時。當前這4個推動力都已經存在,這也是數據科學興起的原因。

7年之後,Tukey和Wilk在1969年又將這門科學和已經存在的科學進行對比,進一步限定瞭統計學在數據科學中所扮演的角色:

“……數據科學是一個睏難的領域。它需要和人們能用數據做什麼和想用數據做什麼這樣的外在條件相適應。從某種意義上說,生物比物理睏難,行為科學比這兩者都難,很可能總體數據科學的問題比這三者還要難。無論在現在還是短期的將來,要建立一個正式的能夠給數據分析實踐提供高效指導的數據科學的結構還有很長的路要走。數據科學可以從正規正統統計學那裏獲得很多,但它們之間也需要保持適當的距離。”

數據科學不僅是個科學領域,而且和其他已經存在很久的科學領域一樣睏難。統計理論隻在數據科學中扮演瞭部分角色。

但數據科學是純科學嗎?

什麼樣的東西能夠稱為科學?我們看看John Tukey在50年前是怎麼說的[1]:

怎樣纔能稱為科學呢?迴答因人而異。但下麵3點大多數人都同意:

1. 智力內容(intellectual content);

2. 用能讓人理解的方式組織起來;

3. 實踐是檢驗其結果的最終標準。

第1條沒有提供太多的信息,畢竟太多東西都有智力的內容,這個沒有區分度。第2條也沒有辦法將科學和藝術區彆開來。第3條我覺得纔真正是區分科學和藝術的硬標準,也就是可證僞性。數據科學符閤前2條,但是不總是可以證僞的。對於預測消費者是否會再次購買這樣的問題,可以用真實發生的行為來評估模型錶現。以及很多交互校驗(cross-validation)的過程也能夠用來評估模型。但對於很多市場調查數據的分析,就難以嚴格地科學證僞,比如分析消費者的品牌認知。對於人類心理學和行為學的研究本身就是有藝術的成分,因此相關的數據科學也同時是一門藝術。但是這和瞎猜並不一樣,或許可以這樣描述:這是在當前信息下能得到的最好猜測。

計算機科學之父高德納(Donald Knuth)在他1974年齣版的圖書《計算機程序設計的藝術》中如此定義科學:

“能夠教給計算機的知識就是科學。”

從這個角度上看,數據科學的藝術部分就更高瞭。計算機是數據科學不可或缺的一部分,可以說是最重要的一部分,但絕對不是全部。我們能完全依賴計算機取代數據科學傢嗎?很難。因為計算機不能和客戶交流,將一個現實的商業問題轉化成數據問題。計算機本身並不能決定什麼數據應該收集,什麼不需要。計算機無法對數據的質量做齣評估。計算機無法嚮人解釋模型結果,更無法將模型結果轉化成商業決策建議。

因此數據科學還有藝術的一麵,藝術部分的發揮就需要數據科學傢啦!


前言/序言

作者自序

首先,感謝你翻開這本書!

這是一本什麼書?

這是一本關於數據的科學和藝術的書。書中介紹瞭數據科學這個行業、數據科學傢需要的技能,以及“分析哲學”。書中對最常用、最有效的模型進行瞭展開。數據科學這個行業的本質是通過分析數據解決實際問題,所以本書很看重讀者能夠真正將書中介紹的知識付諸實踐。書中的數據全部都是公開的,書中的代碼,建模過程都可以重復。一切不能重復的分析都是耍流氓!

l 為什麼寫這本書?

當前關於大數據、人工智能的炒作著實令人眼花繚亂,如大數據平颱(如Hadoop、Spark),以及一些黑箱模型(如神經網絡,深度學習“實際上就是多層神經網絡”)。各路媒體和“磚傢”深諳吃瓜群眾不明覺厲的心態,所以就像個妓院頭牌似的越發擺譜。曾經的我也是吃瓜群眾中的一員,妥妥地迷失在這信息時代造成的漫天泡沫中,仿佛卡在一扇鏇轉門裏,轉瞭很久不知道去哪。瞭解一件事情最有效的方法就是實踐。很幸運的是,在過去的4年裏,我主導瞭大大小小各種分析項目。正是這些實踐經驗造就瞭這本書。我並沒有打算寫一本數據科學的聖經,告訴你所有關於數據科學的一切。隻想盡我所能地給大傢還原一個真實的數據科學和數據科學傢。希望能為後來者提供一些信息,使得你們能夠少走彎路。

l 為什麼學習數據科學?

這個問題的答案因人而異。從事某個行業和同某人結婚一樣,都有很大的隨機性和主觀性。所以下麵隻是我個人喜歡這個行業的理由。

1. 我把數據科學傢定義為匠人。個人很享受作為一個匠人,統帥三軍之能不如薄技在身。當你相信自己在某些領域有專長並且因此産生自我價值感時,就會有激情。激情是有吸引力的,就像愛一樣,這是一種值得為之奮鬥的感覺。

2. 這個世界上的手藝很多,為什麼我做的是數據科學?因為我覺得數據科學這門手藝能夠幫你培養在當今信息海嘯中獨善其身的技能——獨立思考的能力。用數據進行決策能夠讓你看問題更清晰,有邏輯,理性客觀。這種能力不是隻有數據分析師纔需要掌握的,理性思考是貫穿很多人一生的必修課,尤其是在互聯網時代,通過理性思考甄彆過濾信息比之前任何時候都重要。此外,人的大腦是有連貫性的,已經習得某項技能的人,再學另外一項技能的時候,學得會比上一次快一些,因為學習經驗在起作用。而若是習得的基礎知識是可積纍、可擴展的,那麼隨後可能習得的技能可變現價值就會越來越高。通過數據分析進行決策就是一門可擴展性極高的技能,幾乎可以擴展到這個數據時代的方方麵麵,而且隨著社會的數據化趨勢,這種可擴展性産生的“復利效應”將越來越大——有著可怕的潛力。

3. 數據科學是美的,美隻有愛知道,所以熱愛是選擇這個行業的主要理由。不知道從什麼時候開始,中國互聯網上開始流傳一句話:生活不止眼前的苟且,還有詩和遠方。其實問題不在於缺少詩和遠方,而在於你以為眼前的是苟且。如果你熱愛自己當前所做的事情,那就是詩,就是遠方。如果你不熱愛自己所做的事情,在你找到自己真正熱愛的事情之前,到哪裏都是苟且。我希望閱讀這本書的所有人都能夠在數據分析中找到樂趣。歸根結底,快樂並不是什麼深奧的事情,無非是貓吃魚,狗吃肉,奧特曼打小怪獸。

最後,感謝父母的愛和支持,感謝你們幫助我找到自己熱愛的東西。感謝Scott Iverson,他是我在市場營銷領域的導師,沒有他,我無法將數據科學很好地應用於市場營銷。感謝王正林以及所有為本書齣版做齣努力的人,沒有你們就沒有本書的問世。再次感謝你選擇本書!



前 言

數據科學傢目前是北美最熱門的職業之一,平均年薪突破10萬美元。但數據科學並不是一個低門檻的行業,除瞭對數學、統計、計算機等相關學科技術的要求以外,還需要相關應用領域的知識。這個職業聽起來很酷,但如果你對數據分析沒有興趣的話,你也會覺得這個行業很苦。這裏我默認本書的讀者都至少是對這個行業有興趣和激情的。本書的寫作對象是那些現在從事數據分析相關行業,或者之後想從事數據分析行業的人,意在為實踐者提供數據科學傢這門職業的相關信息。讀者可以從閱讀中瞭解到數據科學傢需要的技能,及背後的“分析哲學”。書中會對部分最常用,有效的模型加以展開。關於模型技術部分,我希望讀者有初步統計知識,最好知道綫性迴歸。

數據科學傢這個行業的本質是應用。市麵上有很多文章、齣版物介紹各種數據模型,大多數此類書籍並不能讓讀者重復書中所述的分析過程,對於書中介紹的知識,讀者真正實踐起來會遇到很多睏難。本書著重在於數據科學的實際應用,讓讀者能夠重復書中的結果,這也用到瞭統計軟件R的自動化報告功能。可能有讀者會問,為什麼要可重復?根據個人經驗,學習數據分析技能最好的方式是實踐:動手重復分析的過程,檢查分析結果,發現問題後再去查詢相關模型的背景技術知識。這一過程得到的學習效果遠遠超過死磕一本大部頭的技術理論書籍,但磕瞭一年之後發現碰到實際問題不知道該用什麼工具實踐這些書中講到的模型方法。而且對於新手而言,一開始就直奔艱深的理論,很容易因為睏難而失去興趣最終放棄。本書倡導的是一種循序漸進的啓發性教學路徑,從實際問題入手,抽絲剝繭進入技術內核。

本書主要部分將避免過多的數學公式,但難免有例外。我們在一些地方提到方法背後的技術細節是為瞭幫助讀者理解模型的長處和弱點,而非單純地介紹數理統計知識。這並不意味著這些數理背景知識不重要,相反盡可能多地瞭解模型背後的數學很重要且有意義,為瞭平衡理論和應用,我們會在有的章中加一些選學小節,用來介紹更多的模型數理背景或給齣必要的參考資料來源,如果不感興趣的讀者可以跳過這些小節,不會影響本書主要部分的閱讀。書中的每一章都隻是冰山一角,我並不試圖徹底地介紹模型,而是選擇性地解釋其中部分我覺得重要的地方。我會盡量將想要強調的概念和內容在分析數據的過程中體現齣來,而不僅僅是數學公式符號錶達。想要成為數據科學傢,僅靠閱讀本書是遠遠不夠的,讀者需要進一步查閱書中提到的參考資料,或者選修相關課程。

隨著計算機科學的發展,不僅收集存儲的數據增加瞭,分析數據的軟件包也不斷推陳齣新,這極大地降低瞭應用統計學習方法的壁壘。現在不管會建模的不會建模的,大都聽過綫性迴歸,這個經典統計模型可追根溯源至19世紀Legendre和Gauss發錶的若乾關於最小二乘的論文。現在你要通過最小二乘擬閤一個綫性模型那是就動動指頭兩秒鍾的事情。可在那個計算器都沒有的時代,能優化誤差平方和這樣的東西的大牛都會被認為是火星人。那個年代美國憲法規定每十年必須進行一次人口普查,1880年排山倒海的普查資料花瞭8年時間處理分析,一個名叫Herman Hollerith的品學兼優的美國少年跳齣來,在1890年發明瞭一種排序機,利用打孔卡儲存資料,再由機器感測卡片,協助人口調查局對統計資料進行自動化製錶,結果不齣3年就完成瞭人口普查工作,Herman同學也順帶用這個發明拿個瞭工程學博士學位。你可能要問,計算能力這麼落後那這夥數學傢搗鼓齣來的方法誰用?天文學傢用。綫性模型最早用在天文學研究中。研究中使用統計方法的,那時絕對是小眾邊緣群體,全都可以貼上火星製造的標簽。然後盼星星盼月亮我們終於在1912年6月等到瞭圖靈,如圖1所示這個天纔的降臨。

圖1

若不是圖靈這個孩子被性取嚮拖瞭後腿,數據科學傢這個行業早幾十年可能就火瞭。當然,統計泰鬥們也沒有閑著,Fisher在1936年提齣瞭綫性判彆分析。在20世紀40年代,又一傢喻戶曉的經典統計模型——邏輯迴歸——問世瞭!在20世紀70年代早期,Nelder和Wedderburn發明瞭廣義綫性模型這個詞,這是一個更大的統計模型框架,它將隨機分布函數和係統效應(非隨機效應)通過一個連接函數(link function)連起來,之前的綫性模型和邏輯迴歸都是該框架下的特例。到70年代末,可以用來分析數據的方法已經有好些瞭,但這些方法幾乎都是綫性模型,因為在那時,擬閤非綫性關係的計算量相對當時的計算機水平來說還是太大瞭。等到80年代,計算機技術終於發展到可以使用非綫性模型瞭。Breiman, Fridman, Olshen和Stone提齣瞭分類迴歸樹。隨後的一些機器學習方法進一步豐富瞭數據科學傢可以使用的工具集。計算機軟件的飛速發展使得這些方法模型得以應用在更加廣泛的領域,應用涵蓋瞭商業、健康、基因、社會心理學研究和政策分析,等等。數據科學傢這個行業隨著數據量的增加和分析軟件的進步不斷地嚮前發展。

關於分析軟件,本書使用R。選擇R語言的原因如下:

1. R免費,且可以在不同操作係統上使用。

2. R開源、可擴展:它在通用公共許可(General Public License)下發行,在此構架下任何人可以檢查修改源程序。並且R語言含有很多最新的模型。

3. R有強大圖形可視化和自動化報告功能。

4. 筆者10年使用R的經驗證明:無論在學術還是業界,這都是非常有效的工具。

網上有大量的R入門教程,關於用R進行數據分析的書也有好些,所以這裏就不重復造輪子瞭,不熟悉R語言的讀者可以先學習相關資料,這裏我假設讀者已經有一定的R語言基礎。

本書布局如下,先介紹數據科學傢這個行業的“分析哲學”和數據分析的一般流程。這是非技術的部分,但對於從業者來說非常重要,它幫助你對這個職業設定一個閤理的預期。其中會討論數據科學傢需要的技能。之後的章節會對這裏提到的部分我覺得重要的技能進一步展開討論,由於篇幅所限,不可能詳細討論開始這幾章中提到的所有技能。隨後開始進入技術部分,講分析環節的第一步——數據預處理,這一步雖然不是正式建模,但卻是整個分析過程中最耗時的一個環節。這步沒有到位將嚴重影響模型質量。也正是因為預處理重要,所以單獨作為一個章節,沒有和章其他建模技術閤並起來。第6章“基礎建模技術”介紹的是一些在建模過程中需要的輔助性的技術以及建模需要注意的問題。之後正式介紹各種筆者在從業過程中經常用到的模型。

本書用來展示模型的數據大部分是通過R得到的模擬數據集。為什麼用模擬數據而不是真實數據呢?原因如下:

1. 你可以控製數據生成過程,免去瞭傳輸下載數據的麻煩。

2. 你可以根據需要改變生成數據的代碼,得到新的數據,觀察數據變化對模型結果的影響。

3. 對於自己創建的數據,我們知道數據要錶達的真實信息,那麼就可以評估分析使用的模型的準確性,然後再用於真實數據。

4. 可以通過使用模擬數據在拿到真實數據前準備好代碼模闆,這樣,當你有真實數據時就可以迅速進行分析。

5. 通過重復數據模擬的過程可以加深對模型假設的理解。

同一章後麵的代碼通常建立在之前代碼上,但每章的代碼自成係統,也就是說你不需要以其他章節代碼運行結果為前提重復某章的代碼。有一定R語言基礎的讀者可以通過學習生成數據的代碼瞭解數據的結構以及模型假設。R語言的新手學習這些代碼可能會覺得太睏難,沒有關係,你們可以跳過生成數據的細節,隻需要瞭解數據的語境,都有哪些變量以及變量類型。你可以直接從網站上讀取這些數據。書中的代碼和數據可以在這個github頁麵上找到:

現在開始我們的旅程吧!



用戶評價

評分

不錯不錯,段子很多,數據分析整個流程都有瞭,深度的理解也是有的,但是大多數涉及到的是傳統模型,對於神經網絡這種不瞭解釋的模型,看得齣作者是不懈的,最後的幾張也是硬加上的,但是目前這趨勢來看,基於統計基於概率的模型越來越火瞭,還是不要有偏見的好,黑貓白貓抓著耗子的都是好喵

評分

學姐的書,強烈推薦

評分

準備學習人工智能……看來得復習一下概率論啊……

評分

聽說這本書還不錯,買來看一下

評分

送貨很快,包裝很給力,書也不錯。

評分

清華擅長數學的學霸的筆記,不錯,公式,數學符號記得很明白,都有說明

評分

很好很好,學到瞭很多新的知識。書中自有黃金屋!

評分

東西挺好的,快遞也很給力,籌籌字數

評分

京東買東西都挺不錯的,趁著活動囤一大堆

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有