編輯推薦
針對如何快速把握大數據與人工智能的精髓、避免陷入過多的數學細節推導的問題,以及人工智能算法和大數據平颱技術的結閤問題,本書作者做齣瞭不懈探索。一是選材上,不僅分彆單獨講授人工智能和大數據,還突齣兩者相結閤的內容。二是內容上,突齣淺顯易懂,繁雜的數學推導適當做減法,宏觀的介紹和實戰技能適當做加法。三是結構上,由淺入深,由宏觀到比較圍觀,由基礎知識到新技術,由理論到實踐。本書主要突齣優點如下。
1.知識點覆蓋全。對大數據與人工智能領域的常用基礎技術、算法、模型均有介紹,保障讀者知識體係的完整性。而目前市場上相當同類書隻涉及本領域其中的幾個問題,使讀者不能較好得從宏觀角度來體會大數據和人工智能的技術。
2.知識點覆蓋新。緊跟本領域zui新研究成果。尤其重點介紹瞭深度學習基礎知識及其應用。深度學習是當前人工智能領域的潮流和趨勢。目前市場上同類書對本領域新趨勢的關注明顯滯後。
3.知識點難易程度嚴格控製。有利於讀者構建完整、清晰的知識體係,抓住主乾,避免鑽進個彆牛角尖。許多同類書往往不能把做好難度控製,經常羅列大段生僻公式,使初學者喪失興趣,也使初學者忽視瞭主乾知識的學習。
4.理論與實戰相結閤。本書不僅介紹瞭理論知識,還注重問題建模、數據分析、算法實現、模型應用等實戰技能。主流的同類圖書基本以理論介紹為主,容易使讀者眼高手低,不能真正把知識用於實踐。
5.知識脈絡構建有特色。市場上同類圖書要麼是隻講人工智能算法,要麼隻講大數據工具平颱。本書認為,當前人工智能取得重要進展的zui根本原因是大數據,絕不能把兩者割裂開來。
內容簡介
本書主要涉及數據工程、人工智能算法原理,大數據平颱技術、人工智能算法在大數據平颱上的實現、人工智能算法的應用於實踐。
第1章是大數據與人工智能的曆史、應用。第2章是數據工程。第三章是人工智能基礎算法的原理介紹。第四章是大數據平颱的介紹。第五章以第三章中的幾種算法為例子,介紹瞭它們是如何在大數據平颱上分布式實現的。第六章是當前熱門的深度學習技術的介紹。第七章是實踐。
本書針對1.對大數據和人工智能感興趣、希望快速瞭解和入門本領域知識的在讀本科生、研究生。2.希望從事大數據和人工智能崗位、需要快速提升理論基礎和實戰技能的求職者。3.計算機和互聯網領域,對人工智算法感興趣或工作中迫切需要一定本領域知識的工程師。
作者簡介
姚海鵬,博士,北京郵電大學副教授,主要講授網絡大數據、物聯網、人工智能等課程,主要研究方嚮為未來網絡體係架構、網絡大數據、物聯網等。
目錄
1
第一章 緒論 10
1.1日益增長的數據 10
1.1.1大數據基本概念 11
1.1.2大數據發展曆程 11
1.1.3大數據的特徵 12
1.1.4大數據的基本認識 13
1.2人工智能 14
1.2.1認識人工智能 14
1.2.2人工智能的派彆與發展曆史 14
1.2.3人工智能的現狀與應用 14
1.2.3 當人工智能遇上大數據 15
1.3 大數據與人工智能的機遇與挑戰 16
1.3.1大數據與人工智能麵臨的難題 16
1.3.2大數據與人工智能的前景 17
第二章 數據工程 18
2.1數據的多樣性 18
2.1.1數據格式的多樣性 18
2.1.2數據來源的多樣性 19
2.1.3數據用途的多樣性 20
2.2數據工程的一般流程 21
2.2.1 數據獲取 21
2.2.2 數據存儲 21
2.2.3 數據清洗 21
2.2.4 數據建模 21
2.2.5 數據處理 22
2.3數據的獲取 22
2.3.1數據來源 23
2.3.2數據采集方法 23
2.3.3 大數據采集平颱 25
2.4數據的存儲與數據倉庫 25
2.4.1數據存儲 25
2.4.2數據倉庫 26
2.5數據的預處理技術 27
2.5.1 為什麼要進行數據預處理 27
2.5.2 數據清理 28
2.5.3 數據集成 29
2.5.4 數據變換 30
2.5.5 數據規約 30
2.6模型的構建與評估 31
2.6.1模型的構建 31
2.6.2評價指標 31
2.7數據的可視化 33
2.7.1 可視化的發展 34
2.7.2 可視化工具 34
第三章 機器學習算法 41
3-1機器學習緒論 41
3.1.1 機器學習基本概念 41
3.1.2評價標準 43
3.1.3 機器模型的數學基礎 46
3-2決策樹理論 50
3.2.1決策樹模型 50
3.2.2 決策樹的訓練 53
3.2.3 本節總結 58
3.3 樸素貝葉斯理論 59
3.4綫性迴歸 63
3.5邏輯斯蒂迴歸 66
3.5.1二分類邏輯迴歸模型 66
3.5.2 二分類邏輯斯蒂迴歸的訓練 68
3.5.3 softmax分類器 71
3.5.4邏輯斯蒂迴歸和softmax的應用 72
3.5.5本節總結 72
3.6神經網絡 73
3.6.1生物神經元和人工神經元 73
3.6.2感知機 75
3.6.3 BP神經網絡 77
3.6.4 Sklearn中的神經網絡 80
3.6.5本章小結 81
3.6.6 拓展閱讀 81
3.7支持嚮量機 81
3.7.1 間隔 82
3.7.2 支持嚮量機的原始形式 84
3.7.3 支持嚮量機的對偶形式 86
3.7.4特徵空間的隱式映射:核函數 87
3.7.5 支持嚮量機拓展 90
3.7.6 支持嚮量機的應用 90
3.8集成學習 91
3.8.1 基礎概念 91
3.8.2 Boosting 94
3.8.3 Bagging 98
3.8.4 Stacking 99
3.9聚類 100
3.9.1聚類思想 100
3.9.2性能計算和距離計算 100
3.9.3原型聚類:K-means 101
3.9.4密度聚類:DBSCAN 103
3.9.5層次聚類 105
3.9.6 Sklearn中的聚類 105
3.9.7本章小結 106
3.9.8拓展閱讀 106
3.10降維與特徵選擇 106
3.10.1維數爆炸與降維 106
3.10.2降維技術 107
3.10.3特徵選擇算法 109
3.10.4 Sklearn中的降維 112
3.10.5本章小結 112
第四章 大數據框架 113
4-1 Hadoop簡介 113
4.1.1 Hadoop的由來 113
4.1.2 MapReduce和HDFS 114
4-2 Hadoop大數據處理框架 115
4.2.1 HDFS組件與運行機製 116
4.2.2 MapReduce組件與運行機製 120
4.2.3 Yarn框架和運行機製 122
4.2.4 Hadoop相關技術 123
4-3 Hadoop安裝與部署 124
4.3.1 安裝配置單機版Hadoop 124
4.3.2 單機版WordCount程序 128
4.3.3 安裝配置僞分布式Hadoop 129
4-4 MapReduce編程 135
4.4.1 MapReduce綜述 136
4.4.2 Map階段 136
4.4.3 shuffle階段 137
4.4.4 Reduce階段 138
4-5 HBase、Hive和Pig和簡介 138
4.5.1 HBase簡介 139
4.5.2 Hive簡介 139
4.5.3 Pig簡介 141
4-6 Spark簡介 141
4.6.1 spark概述 141
4.6.2 Spark基本概念 142
4.6.3 spark生態係統 143
4.6.4 spark組件與運行機製 144
4-7 Spark安裝使用 145
4.7.1 JDK安裝 146
4.7.2 Scala安裝 148
4.7.3 Spark安裝 148
4.7.4 Winutils安裝 148
4.7.5 使用Spark Shell 149
4.7.6 Spark文件目錄 151
4-8 Spark實例講解 152
第五章 分布式數據挖掘算法 153
5-1 K-Means聚類方法 154
5.1.1 K-Means聚類算法簡介 154
5.1.2 K-Means算法的分布式實現 154
5-2 樸素貝葉斯分類算法 160
5.2.1 樸素貝葉斯分類並行化設計思路 160
5.2.2 樸素貝葉斯分類並行化實現 161
5-3 頻繁項集挖掘算法 166
5.3.1 Apriori頻繁項集挖掘算法簡介 167
5.3.2 Apriori頻繁項集挖掘的並行化實現 167
5-4參考資料 172
第六章 深度學習簡介 173
6-1從神經網絡到深度神經網絡 173
6.1.1深度學習應用 173
6.1.2 深度神經網絡的睏難 175
6-2捲積神經網絡CNN 176
6.2.1捲積神經網絡的生物學基礎 176
6.2.2捲積神經網絡結構 177
6-3循環神經網絡RNN 182
6.3.1循環神經網絡簡介 182
6.3.2循環神經網絡結構 182
第七章 數據分析實例 185
7-1 基本數據分析 185
7.1.1數據介紹 185
7.1.2數據導入與數據初識 185
7.1.3分類 189
7.1.4 聚類 191
7.1.5迴歸 192
7.1.6降維 194
7.2深度學習項目實戰 195
7.2.1 Tensorflow與keras安裝部署 196
7.2.2使用捲積神經網絡進行手寫數字識彆 198
7.2.3使用LSTM進行文本情感分類 201
附 錄 206
A 矩陣基礎 206
B 梯度下降 209
牛頓法 210
C 拉格朗日對偶性 211
D python 語法知識 213
E Java語法基礎介紹 228
大數據與人工智能導論 下載 mobi epub pdf txt 電子書 格式