發表於2025-01-19
全麵論述從實際應用中提取齣的數據挖掘和Hadoop相關概念和技術
使用實際案例為用戶全麵介紹Hadoop,而不隻是停留在理論層麵上
詳細解讀Hadoop相關領域全新的技術和商業大數據應用的動態變化
本書全麵地講述瞭Hadoop相關領域的重要知識和*的技術及應用。書中首先介紹瞭數據挖掘的基礎知識、Hadoop的基本框架和相關信息,然後係統地描述瞭如何在各類行業中用好Hadoop來做數據挖掘。
本書麵嚮的主要讀者人群是想瞭解Hadoop與大數據的技術人員,無論他們是在互聯網企業,還是在傳統企業;無論他們從事的是技術或者運維工作,專業做數據分析,還是企業的策略官、市場官和運營官,都能從本書中找到各自所需要的內容。
本書可以幫助讀者開闊眼界和找到方法,讓他們知道如何分析實際商業場景和業務問題,構建基於Hadoop的大數據係統,通過使用數據運營,對公司業務運營帶來直接的效益。當然對於學生、教師和有誌於從業大數據運營的人員來說,也是一本實用的教材。
譚磊,復旦大學計算機學士,美國杜剋大學計算機碩士,《NewInternet:大數據挖掘》和《區塊鏈2.0》等8本專業書籍的作者和譯者,NABA北美區塊鏈協會聯閤創始人,中國工業設計協會CIO,復旦大學軟件學院碩士導師,杭州數字化産業綜閤服務中心主任。
在美國微軟服務時間超過13年,曾經擔任多傢公司多個層級技術管理崗位,在搜索、互聯網廣告、數據挖掘、電子商務等方麵有豐富的經驗,是互聯網技術領域ZI深專傢。
範磊,前英特爾亞太區大數據總監,知名大數據專傢,星環科技聯閤創始人兼CEO。
第1 章 大數據概念的老調重彈 ........ 1
1.1 互聯網和物聯網上的數據 2
1.1.1 互聯網上越來越多的數據被存儲 . 2
1.1.2 物聯網帶來更多的數據 ................. 4
1.2 數據能為我們做的事 ........ 5
1.2.1 用戶畫像和任何企業都需要關注的數據 ........................ 6
1.2.2 大數據的3V、4V 和N 個V ........ 7
1.2.3 從數據分析到數據挖掘 ................. 8
1.2.4 大數據處理的三個維度 ................. 9
1.3 數據挖掘中的一些基本概念 ................... 11
1.3.1 分類算法 .... 11
1.3.2 聚類算法 .... 12
1.3.3 關聯算法 .... 13
1.3.4 序列算法 .... 14
1.3.5 估測和預測 14
1.3.6 A/B Test ..... 15
1.4 數據倉庫 ................ 16
1.4.1 數據倉庫是解決大數據存儲的基礎設施 ...................... 17
1.4.2 4 種不同類型的數據倉庫 ............ 18
1.4.3 國內外數據倉庫的不同使用方式 ......... 19
1.5 不包含在本書中的內容 .. 21
1.6 這本書都講些啥 .... 22
第2 章 Hadoop 的前世今生 ........... 25
2.1 Google 的計算框架 ......... 26
2.1.1 Google 公司的三篇論文 .............. 26
2.1.2 GFS 文件係統 ..... 27
2.1.3 MapReduce 的模型和框架 .......... 28
2.1.4 BigTable 數據庫 .. 29
2.2 Hadoop 的誕生 ...... 30
2.2.1 從GFS 到HDFS . 30
2.2.2 Hadoop 的基礎計算框架MapReduce ... 31
2.2.3 從BigTable 到HBase .................. 33
2.3 Hadoop 的今天 ...... 33
2.4 Hadoop 大事記 ...... 35
第3 章 等同於大數據的Hadoop ... 37
3.1 Hadoop 理念 .......... 38
3.2 Hadoop 核心基礎架構 .... 39
3.2.1 Namenode 和Datanode ................ 39
3.2.2 Hadoop 底層的文件係統HDFS .. 40
3.2.3 Hadoop 上的數據庫HBase ......... 42
3.3 Hadoop 上的各種其他組件 ..................... 44
3.3.1 資源分配係統YARN .................. 44
3.3.2 靈活的編程語言pig..................... 46
3.3.3 數據挖掘工具Mahout ................. 48
3.3.4 專注於數據挖掘的R 語言 .......... 48
3.3.5 數據倉庫工具Hive ...................... 49
3.3.6 數據采集係統Flume ................... 51
3.4 Spark 和Hadoop .... 51
3.4.1 閃電俠齣現瞭 ...... 51
3.4.2 大數據領域的Taylor Swift ......... 52
3.4.3 Spark 的架構 ....... 53
3.4.4 Spark 和流處理 ... 54
第4 章 Hadoop 的價值 .................. 57
4.1 大數據時代需要新的架構 ....................... 58
4.1.1 企業IT 麵臨的挑戰 ..................... 58
4.1.2 數據分析要考慮的問題 ............... 59
4.1.3 新的IT 架構的需求 ..................... 60
4.2 Hadoop 能解決的問題 .... 61
4.2.1 Hadoop 適閤做的事情 ................. 61
4.2.2 Hadoop 對係統數據安全性的保障 ....... 62
4.2.3 數據流與數據流處理 ................... 62
4.3 去IOE .................... 65
4.4 7 種最常見的Hadoop 和Spark 項目 ...... 71
第5 章 Hadoop 係統速成 .............. 75
5.1 Hadoop 係統搭建速成 .... 76
5.1.1 Hadoop 係統的三種運行模式 ..... 76
5.1.2 單點搭建Hadoop 係統 ................ 76
5.1.3 全分布式(多節點)搭建Hadoop 係統 ... 80
5.1.4 在Hadoop 上編程 ........................ 83
5.1.5 Hadoop 係統的典型配置 ............. 83
5.2 在雲上運行Hadoop ........ 85
5.2.1 在金山雲上運行Hadoop ............. 86
5.2.2 微軟的HDInsight 89
5.3 Hadoop 信息大全 .. 90
第6 章 數據倉庫和Hadoop........... 93
6.1 大數據時代的數據係統設計 ................... 94
6.1.1 分布式係統上的CAP 原理 ......... 94
6.1.2 ACID 和BASE 概念的區彆 ........ 95
6.1.3 NoSQL ....... 96
6.1.4 各種數據源的整閤 ..................... 100
6.2 傳統數據倉庫的瓶頸 .... 101
6.2.1 傳統數據倉庫的瓶頸之一:數據量的問題 ................ 101
6.2.2 傳統數據倉庫的瓶頸之二:數據類型的問題 ............ 102
6.2.3 傳統數據倉庫的瓶頸之三:數據處理的延時問題 .... 102
6.2.4 傳統數據倉庫的瓶頸之四:數據模型的變化問題 .... 103
6.3 Hadoop 是解決數據倉庫瓶頸的方法 .. 104
6.3.1 解決數據量的問題 ..................... 104
6.3.2 解決數據類型的問題 ................. 105
6.3.3 數據處理的速度問題 ................. 106
6.3.4 數據模型的變化問題 ................. 107
6.4 基於Hadoop 和Spark 的數據倉庫解決方案 . 108
6.4.1 基於Hadoop/Spark 結構的數據倉庫係統架構........... 108
6.4.2 分布式計算引擎 109
6.4.3 標準化的編程模型 ..................... 110
6.4.4 數據操作方式的多樣性 ............. 110
6.4.5 OLAP 交互式統計分析能力 ..... 110
6.4.6 多類型數據的處理能力 ............. 111
6.4.7 實時計算與企業數據總綫 ......... 111
6.4.8 數據探索與挖掘能力 ................. 111
6.4.9 安全性和權限管理 ..................... 112
6.4.10 混閤負載管理 .. 112
第7 章 在不同應用環境下的Hadoop .... 115
7.1 在存儲密集型環境中的Hadoop ........... 116
7.2 在網絡密集型環境中的Hadoop ........... 118
7.3 在運算密集型環境中的Hadoop ........... 121
7.4 Hadoop 平颱的對比和選擇 ................... 127
7.4.1 為什麼會選擇商用的Hadoop 係統 .... 127
7.4.2 商用Hadoop 係統之間的選擇 .. 130
第8 章 Hadoop 在互聯網公司的應用 .... 133
8.1 Hadoop 在騰訊 .... 134
8.2 Hadoop 在Facebook 的應用 ................. 138
8.3 金山的Hadoop .... 140
8.4 迅雷公司對Hadoop 的應用 .................. 144
第9 章 Hadoop 和行業應用之一 . 147
9.1 Hadoop 和運營商 148
9.2 Hadoop 和公用事業 ...... 163
9.3 Hadoop 和“智慧工商” ....................... 175
9.4 Hadoop 和政務雲 183
第10 章 Hadoop 與“衣食住行”中的“食”和“行” .... 191
10.1 Hadoop 和“食” ........ 192
10.2 Hadoop 和“行” ........ 201
第11 章 Hadoop 和行業應用之三 ......... 209
11.1 Hadoop 和金融 .. 210
11.1.1 金融的大數據屬性 ................... 210
11.1.2 金融企業的風險控製 ............... 211
11.2 Hadoop 和醫療 .. 221
11.3 Hadoop 和物流 .. 226
11.4 Hadoop 和媒體 .. 229
第12 章 特殊場景下的Hadoop 係統 ..... 237
12.1 Hadoop 和實時係統 .... 238
12.2 Hadoop 平颱的一些特殊場景實現 ..... 243
第13 章 Hadoop 係統的挑戰和應對 ...... 247
13.1 Hadoop 係統使用須知 248
13.2 Hadoop 平颱風險點預估 ..................... 250
13.2.1 Namenode 的單點故障和係統的可用性 ................... 250
13.2.2 集群硬件故障導緻平颱可靠性與可用性大幅降低 251
13.2.3 Hadoop 集群大數據安全和隱私問題 ........................ 252
13.3 Hadoop 平颱硬件故障的應對機製 ..... 252
13.3.1 監控軟硬件故障的應對機製 ... 253
13.3.2 斷電處理 255
13.4 Hadoop 平颱如何真正做到高可用性 . 255
13.4.1 Hadoop 係統的高可用性冗餘性保障 ........................ 256
13.4.2 Facebook 的Namenode HA 的方案 .. 256
13.4.3 TDH 的Namenode 高可用性冗餘解決方案 ............. 257
13.5 Hadoop 平颱安全性和隱私性的應對機製 ... 259
13.5.1 關於安全和隱私問題的7 個事項 ..... 259
13.5.2 星環的4A 級統一安全管理解決方案 ....................... 259
13.5.3 Hadoop 係統安全Checklist ..... 262
第14 章 Hadoop 的未來 .............. 263
14.1 Hadoop 未來的發展趨勢 ..................... 264
14.1.1 對數據係統的不斷升級 ........... 264
14.1.2 機器學習 264
14.2 Hadoop 和區塊鏈 ........ 265
附錄A 專業詞匯錶 ....................... 267
附錄B 引用文獻 . 271
附錄C 參考網站一覽 ................... 273
附錄D HDFS 命令行列錶 ............ 275
附錄E 本書引用案例索引 ............ 278
第3 章 等同於大數據的Hadoop
在本章中,我們為讀者們介紹:
? Hadoop 的核心理念是什麼?
? Hadoop 的核心基礎框架上包含哪些組件?
? Hadoop 的生態係統中還有哪些有用的組件?
? Spark 有什麼用?
? Spark 和Hadoop 係統有什麼關聯?
Hadoop 可以處理結構化數據,同時也可以很好地處理非結構化或者半結構化數據。在今天,Hadoop 已經成為存儲、處理和分析大數據的標準平颱。 當人們說要搭建大數據平颱時,很多時候默認的就是搭建Hadoop 平颱。
本章介紹的是Hadoop 核心係統上的各個組件,以及係統上相關的其他各種組件。由於本書的重點在於Hadoop 技術的實際應用,而不是講解Hadoop 技術,所以因篇幅關係,我們並不會在本章中描述所有的Hadoop 組件。
在本章的最後,我們會為讀者介紹Spark 係統。
3.1 Hadoop 理念
標準的Hadoop 係統存儲的數據是NoSQL 模式的。關於NoSQL 模式,我們會在第6章專門講述。用一句話來說,其實Hadoop 可以存儲以下任何類型的內容。
(1) 結構化數據;
(2) 半結構化數據,比如日誌文檔;
(3) 完全沒有結構的內容,比如文本文件;
(4) 二進製內容,比如音頻、視頻等。
Hadoop 係統有以下特點,如圖3-1 所示。
(1) 可靠性高。
(2) 可擴展性好。
(3) 性價比高。
(4) 靈活。
圖3-1 Hadoop 係統的特性
3.2 Hadoop 核心基礎架構
Hadoop 係統上有很多不同的組件,在本節中我們討論的是對Hadoop 起到重要作用的核心組件。
3.2.1 Namenode 和Datanode
Namenode 又稱為MasterNode,主節點; Datanode 又稱為SlaveNode,從屬節點。閤在一起,Namenode 和Datanode 之間有Master 和Slave 的關係,或者說從屬關係①。對於Namenode 和Datanode 節點還有各種不同的說法,比如“管理節點”和“工作節點”等,都說明數據節點是不可以脫離主節點單獨存在的。
在Datanode 上,有一個後颱的同名進程(Datanode),用以管理數據節點上所有的數據塊。通過這個進程,數據節點會定期和主節點通信,匯報本地數據的狀況。
在Hadoop 係統進行設計的時候,對數據節點作瞭以下的假設。
(1) 數據節點主要用來作存儲,額外的開銷越小越好;
(2) 對於普通的硬盤來說,任何硬盤都可能會失敗;
(3) 文件和數據塊的任何一個副本都是完全一緻的。
因為數據節點上采用的一般是普通硬盤,那麼每塊硬盤失效的概率大概是每年4%~5%。如果我們的係統上有100 個數據節點,而每一個數據節點都有12 塊硬盤,那麼平均每周都會需要更換至少一塊硬盤。
正是因為這些假設,默認Hadoop 係統上每個文件和數據塊都有三個副本,而當中間任何的一個副本齣現問題的時候,係統都會把對文件和數據塊的訪問切換到其他的副本上,並會重新設置使得文件和數據塊都保持有三個副本。
對於Hadoop 的用戶來說,他們並不需要瞭解數據存儲的細節,也不需要知道文件的各個數據塊是存儲在哪些數據節點上的,他們隻需要對文件進行操作,對應的拆分和多個副本的存儲是由係統自動完成的。
和Datanode 一樣,Namenode 節點上也有一個同名的後颱進程(Namenode),而所有的文件匹配信息則保存在一個名為fsimage 的文件中,所有新的操作修改保存在一個名為edits的文件中。edits 文件中的內容會定期寫入fsimage 文件中。
把fsimage 和edits 文件中的信息綜閤起來,我們就可以知道所有的數據文件和對應的數據塊的具體位置,而這些信息都會保存在Namenode 節點的內存中。
主節點和數據節點之間的通信協議如下。
Hadoop應用實戰 下載 mobi epub pdf txt 電子書 格式
Hadoop應用實戰 下載 mobi pdf epub txt 電子書 格式 2025
Hadoop應用實戰 下載 mobi epub pdf 電子書質量不錯,跟小時候的書香一摸一樣,沁人心脾!
評分618活動購買,滿200-80.100-50
評分不錯的書,備在那裏慢慢消化
評分買迴來還沒翻,不過聽朋友說挺不錯的
評分還沒看,或者叫還沒看懂,哈哈哈哈,單位買的,提升同事業務能力!
評分清華大學齣版社,由國外原書翻譯。權威!
評分非常不錯的産品,一直都買,信賴京東
評分入門用的,學習人工智能大數據,追趕時代大潮
評分東西不錯,快遞送貨上門,很滿意的一次購物。
Hadoop應用實戰 mobi epub pdf txt 電子書 格式下載 2025