內容簡介
《數據科學導引》是博雅大數據學院針對新開設的“數據科學與大數據技術”專業編寫的數據科學導論課程教材。
《數據科學導引》內容共分十五章,包括緒論、數據預處理、迴歸模型、分類模型、集成模型、聚類模型、關聯規則挖掘、降維、特徵選擇、EM算法、概率圖模型、文本分析、圖與網絡分析、深度學習、分布式計算。附錄部分對相關的基礎知識做瞭簡要介紹。
《數據科學導引》還提供瞭大量的數據分析實踐案例,有助於加深讀者對理論知識的理解,及培養其實際應用能力。
《數據科學導引》可作為全國高等學校數據科學相關專業的本科生和研究生教材,也可供從事相關工作的技術人員參考使用。
作者簡介
鄂維南,中國科學院院士,北京大數據研究院院長,北京大學、普林斯頓大學教授,大數據教育聯盟理事長。主要從事計算數學、應用數學及其在力學、物理、化學和工程等領域中的應用等方麵的研究。1996年獲首屆美國青年科學傢與工程師總統奬。2003年獲國際工業與應用數學大會科拉茲奬。2009年獲美國工業與應用數學學會剋萊曼奬。2014年獲美國工業與應用數學學會卡門奬。
歐高炎,北京大學北京國際數學研究中心博士後,博雅大數據學院院長,大數據教育聯盟秘書長。中國計算機學會數據庫專委會委員。大數據教育、服務和競賽平颱“數據嗨客”創始人。
硃占星,北京大學大數據科學研究中心、北京大數據研究院研究員。主要研究方嚮為機器學習。長期從事人工智能、機器學習、深度學習以及大數據分析方麵的研究與應用。
董彬,北京大學北京國際數學研究中心研究員,北京大數據研究院生物醫學影像分析實驗室副主任,求是傑齣青年學者,中組部青年韆人。主要研究領域是應用數學、計算數學及其在圖像和數據科學中的應用。
內頁插圖
目錄
第一章 緒論
1.1 數據科學的基本內容
1.2 對學科發展的影響
1.3 對科學研究的影響
1.4 數據科學的課程體係
1.5 本書內容介紹
第二章 數據預處理
2.1 特徵編碼
2.2 缺失值處理
2.3 數據標準化
2.4 特徵離散化
2.5 離群值檢測
2.6 其他預處理方法
案例與實戰
第三章 迴歸模型
3.1 綫性迴歸
3.2 綫性迴歸正則化
3.3 非綫性迴歸
案例與實戰
第四章 分類模型
4.1 邏輯迴歸
4.2 K近鄰
4.3 決策樹
4.4 樸素貝葉斯
4.5 支持嚮量機
案例與實戰
第五章 集成模型
5.1 集成方法綜述
5.2 隨機森林
5.3 AdaBoost
5.4 應用實例:個人信用風險評估
案例與實戰
第六章 聚類模型
6.1 K-means聚類
6.2 層次聚類
6.3 譜聚類
6.4 基於密度的聚類
6.5 小結
案例與實戰
第七章 關聯規則挖掘
7.1 關聯規則概述
7.2 Apriori算法
7.3 FP-Growth算法
案例與實戰
第八章 降維
8.1 主成分分析
8.2 綫性判彆分析
8.3 多維尺度變換
8.4 局部綫性嵌入
8.5 其他降維方法
案例與實戰
第九章 特徵選擇
9.1 特徵選擇的一般過程
9.2 特徵選擇常用的方法
9.3 無監督特徵選擇
9.4 小結
案例與實戰
第十章 EM算法
10.1 EM算法
10.2 EM的應用:高斯混閤模型
10.3 小結
案例與實戰
第十一章 概率圖模型
11.1 概率圖模型概述
11.2 隱馬爾可夫模型
11.3 條件隨機場
11.4 小結
案例與實戰
第十二章 文本分析
12.1 文本錶示模型
12.2 主題模型
12.3 情感分析
案例與實戰
第十三章 圖與網絡分析
13.1 基本概念
13.2 幾何特徵
13.3 鏈接分析
13.4 社區發現
13.5 知識圖譜
案例與實戰
第十四章 深度學習
14.1 多層感知機
14.2 深度學習模型的優化
14.3 捲積神經網絡
14.4 循環神經網絡
14.5 小結
案例與實戰
第十五章 分布式計算
15.1 Hadoop:分布式存儲與處理
15.2 常見模型的Map Reduce實現
15.3 Spark:分布式數據分析
15.4 其他分布式係統
附錄
A.矩陣運算
B.概率論基礎
C.優化算法
D.距離
E.模型評估
參考文獻
精彩書摘
《數據科學導引》:
另一種方法是計算每個特徵對模型準確率的影響。通過打亂樣本中某一特徵的特徵值順序,産生新樣本。將新樣本放入建立好的隨機森林模型中計算準確率。對於不重要的特徵來說,打亂特徵值的順序對模型的準確率不會産生較大影響。但是對於重要的特徵來說,打亂順序就會極大降低模型的準確率。
這兩種特徵重要性的計算方法各有利弊,第一種方法對具有更多特徵值的特徵會更有利。在不同特徵的特徵值種類有較大區彆時會失效,不能用於解釋特徵的重要性。同時,在特徵集閤存在的相關性較多的情況下(即其中任何一個特徵都可以作為優秀的特徵,並且當某個特徵被選擇之後,其他特徵的重要性就會迅速下降),那麼第一個被選中的特徵重要性會較高,其他的關聯特徵重要性就會較低。這使在解讀特徵重要性結果時,錯誤認為先被選中的特徵是很重要的。隨機的特徵選擇方法雖然緩解瞭但尚未完全解決這一問題,樣本的數量對第二種方法的結果有很大影響。
……
前言/序言
數據科學是一門新興學科,它強調培養具有多學科交叉能力的大數據人纔。這樣的人纔應該具有以下三方麵素質:一是理論性的,主要是對算法及模型理解和運用的能力;二是實踐性的,主要是處理實際數據的能力;三是應用性的,主要是利用大數據的方法解決具體行業實際問題的能力。培養這樣的人纔,需要數學、統計學和計算機科學等學科之間的密切閤作,同時也需要和産業界或其他擁有數據的部門之間的閤作。數據科學課程的開設,也需要采用新的模式,即理論課和實踐課相結閤的模式,就像物理、化學和生物課一樣,需要提供相應的實驗平颱。這樣的實驗平颱應該提供實際問題、實際數據和基本的處理工具。
為瞭應對在師資能力、課程體係建設、教材的研發,以及教學形式的變革等多方麵的挑戰,北京大數據研究院牽頭成立瞭博雅大數據學院。其目的是整閤相關高校的集體力量,用高質量和最有效的方法建立起數據科學和大數據技術人纔培養所需要的基礎設施。這些基礎設施包括課程體係和教材的建設和研發、實驗平颱的建設、師資培訓、專業課程的建設和共享等。幾年來,博雅大數據學院已經逐步建立起瞭一個完整的大數據課程體係。這些課程分成專業基礎課、專業核心課和專業選修課三個模塊。專業基礎課包括大數據分析的數學基礎、大數據分析的Python基礎和數據存儲等。專業核心課包括數據采集與網絡爬蟲、數據清洗技術與工具、數據可視化、大數據應用導論、數據科學導引、機器學習和分布式概論等。專業選修課包括深度學習、知識圖譜、文本分析、健康醫療大數據、交通大數據和金融大數據等。同時,博雅大數據學院也初步建成瞭“數據嗨客”(www.hackdata.cn)這個大數據實驗和教學輔助平颱,受到瞭廣泛的好評。
數據科學導引 下載 mobi epub pdf txt 電子書 格式
評分
☆☆☆☆☆
數據科學與大數據技術專業的入門導引書,好書,紙質也好。
評分
☆☆☆☆☆
書不錯,京東快遞包裝太差瞭,就一個塑料袋,書封麵都磨損瞭。
評分
☆☆☆☆☆
封麵印刷有點歪 裁剪也有點歪 但是書頁印刷很好 不知道為什麼寄來的時候書本沒有包裝
評分
☆☆☆☆☆
包裝精美,內容豐富,值得一讀
評分
☆☆☆☆☆
好書,一堆大牛,必須要看。
評分
☆☆☆☆☆
數據科學入門書籍,推薦
評分
☆☆☆☆☆
不錯不錯很不錯,買吧買吧可勁買
評分
☆☆☆☆☆
不錯不錯很不錯,買吧買吧可勁買
評分
☆☆☆☆☆
專業內容較新、組織和梳理較為清晰;排版和紙張精良。