版 次:頁 數:字 數:印刷時間:2016年03月01日開 本:16開紙 張:輕型紙包 裝:平裝是否套裝:否國際標準書號ISBN:9787121280702
所屬分類:
圖書>計算機/網絡>網絡與數據通信>網絡配置與管理
快速直達
內容簡介
作者簡介
目 錄
前 言
下載免費當當讀書
內容簡介
如何能牢牢地黏住老用戶、吸引新用戶、讀懂用戶的偏好興趣和喜怒哀樂,這都是對企業發展至關重要甚至關乎生死存亡的問題,解決這個問題的方法就是推薦係統。本書分為上中下三篇,共13章,上篇為用戶畫像知識工程基礎,包括錶徵建模、畫像計算、存儲及各種更新維護等管理操作;中篇為推薦係統與用戶畫像,包括傳統協同過濾等經典推薦算法的介紹,以及涉及用戶畫像的推薦方法;下篇為應用案例分析,包括Netflix、阿裏等數據競賽的經典數據案例,以及在具體工程開發過程的具體案例,分彆從係統需求、總體結構、算法設計、運行流程及測試結果等五個方麵提供詳細案例指導。
作者簡介
牛溫佳,男,博士,中國科學院信息工程研究所副研究員。主持國傢自然科學基金青年基金項目和廣西可信軟件重點實驗室開放課題各一項,作為骨乾先後參與瞭多個重要項目,包括工信部重大專項、973、863和中科院戰略先導專項等。
目 錄
目 錄上 篇第1章 用戶畫像概述 31.1 用戶畫像數據來源 31.1.1 用戶屬性 51.1.2 用戶觀影行為 51.2 用戶畫像特性 51.2.1 動態性 51.2.2 時空局部性 61.3 用戶畫像應用領域 61.3.1 搜索引擎 61.3.2 推薦係統 71.3.3 其他業務定製與優化 71.4 大數據給用戶畫像帶來的機遇與挑戰 8第2章 用戶畫像建模 92.1 用戶定量畫像 92.2 用戶定性畫像 102.2.1 標簽與用戶定性畫像 102.2.2 基於知識的用戶定性畫像分析 122.2.3 用戶定性畫像的構建 162.2.4 定性畫像知識的存儲 222.2.5 定性畫像知識的推理 262.3 本章參考文獻 29第3章 群體用戶畫像分析 313.1 用戶畫像相似度 323.1.1 定量相似度計算 323.1.2 定性相似度計算 343.1.3 綜閤相似度計算 353.2 用戶畫像聚類 36第4章 用戶畫像管理 414.1 存儲機製 414.1.1 關係型數據庫 424.1.2 NoSQL數據庫 434.1.3 數據倉庫 454.2 查詢機製 464.3 定時更新機製 474.3.1 獲取實時用戶信息 474.3.2 更新觸發條件 484.3.3 更新機製 49中 篇第5章 視頻推薦概述 555.1 主流推薦方法的分類 565.1.1 協同過濾的推薦方法 565.1.2 基於內容的推薦方法 575.1.3 基於知識的推薦方法 595.1.4 混閤推薦方法 605.2 推薦係統的評測方法 615.3 視頻推薦與用戶畫像的邏輯關係 61第6章 協同過濾推薦方法 656.1 概述 656.2 關係矩陣及矩陣計算 676.2.1 U-U矩陣 676.2.2 V-V矩陣 706.2.3 U-V矩陣 726.3 基於記憶的協同過濾算法 746.3.1 基於用戶的協同過濾算法 756.3.2 基於物品的協同過濾算法 786.4 基於模型的協同過濾算法 816.4.1 基於隱因子模型的推薦算法 826.4.2 基於樸素貝葉斯分類的推薦算法 856.5 小結 886.6 本章參考文獻 88第7章 基於內容的推薦方法 917.1 概述 917.2 CB推薦中的特徵嚮量 947.2.1 視頻推薦中的物品畫像 947.2.2 視頻推薦中的用戶畫像 967.3 基礎CB推薦算法 977.4 基於TF-IDF的CB推薦算法 997.5 基於KNN的CB推薦算法 1027.6 基於Rocchio的CB推薦算法 1047.7 基於決策樹的CB推薦算法 1067.8 基於綫性分類的CB推薦算法 1077.9 基於樸素貝葉斯的CB推薦算法 1097.10 小結 1117.11 本章參考文獻 111第8章 基於知識的推薦方法 1138.1 概述 1138.2 約束知識與約束推薦算法 1148.2.1 約束知識示例 1148.2.2 約束滿足問題 1158.2.3 約束推薦算法流程 1178.3 關聯知識與關聯推薦算法 1188.3.1 關聯規則描述 1188.3.2 關聯規則挖掘 1218.3.3 關聯推薦算法流程 1238.4 小結 1248.5 本章參考文獻 124第9章 混閤推薦方法 1259.1 概述 1259.2 算法設計層麵的混閤方法 1269.2.1 並行式混閤 1269.2.2 整體式混閤 1299.2.3 流水綫式混閤 1319.2.4 典型混閤應用係統 1339.3 混閤式視頻推薦實例 1369.3.1 MoRe係統概覽 1369.3.2 MoRe算法介紹 1379.3.3 MoRe算法混閤 1399.3.4 MoRe實驗分析 1409.4 小結 1429.5 本章參考文獻 142第10章 視頻推薦評測 14510.1 概述 14510.2 視頻推薦試驗方法 14610.2.1 在綫評測 14710.2.2 離綫評測 14910.2.3 用戶調查 15010.3 視頻離綫推薦評測指標 15110.3.1 準確度指標 15110.3.2 多樣性指標 15910.4 小結 16110.5 本章參考文獻 162下 篇第11章 係統層麵的快速推薦構建 16511.1 概述 16511.2 本章主要內容 16611.3 係統部署 16611.3.1 Hadoop2.2.0係統部署 16611.3.2 Hadoop運行時環境設置 16911.3.3 Spark與Mahout部署 17511.4 Mahout推薦引擎介紹 18111.4.1 Item-based算法 18111.4.2 矩陣分解 18511.4.3 ALS算法 18711.4.4 Mahout的Spark實現 19011.5 快速實戰 19311.5.1 概述 19311.5.2 日誌數據 19411.5.3 運行環境 19611.5.4 基於Mahout Item-based算法實踐 20111.5.5 基於Mahout ALS算法實踐 20511.6 小結 20811.7 本章參考文獻 208第12章 數據層麵的分析與推薦案例 21112.1 概述 21112.2 本章主要內容 21212.3 競賽內容和意義 21212.3.1 競賽簡介 21212.3.2 競賽任務和意義 21312.4 客戶-商戶數據 21512.4.1 數據描述 21512.4.2 數據理解與分析 21712.5 算法流程設計 21912.5.1 特徵提取 21912.5.2 分類器設計 22012.5.3 算法流程總結 22212.6 小結 22212.7 本章參考文獻 223
版 次:1頁 數:字 數:印刷時間:2016年10月01日開 本:16開紙 張:膠版紙包 裝:平裝-膠訂是否套裝:否國際標準書號ISBN:9787121300004
所屬分類:
圖書>計算機/網絡>數據庫>數據倉庫與數據挖掘
快速直達
編輯推薦
內容簡介
作者簡介
目 錄
前 言
書摘插畫
免費下載讀書APP
編輯推薦
這是一個數據信息時代,每分每秒都在産生數不盡的數據。這些數據如何獲取,有什麼用途,如何與前沿的深度學習、機器學習等相結閤,如何為我們所用,盡在本書中。
更多計算機好書請關注:電子工業齣版社當當自營店
內容簡介
本書從架構、業務、技術三個維度深入淺齣地介紹瞭大數據處理領域端到端的知識。主要內容包括三部分:*部分從數據的産生、采集、計算、存儲、消費端到端的角度介紹大數據技術的起源、發展、關鍵技術點和未來趨勢,結閤生動的業界*産品,以及學術界*的研究方嚮和成果,讓深奧的技術淺顯易懂;第二部分從業務和技術角度介紹實際案例,讓讀者理解大數據的用途及技術的本質;第三部分介紹大數據技術不是孤立的,講解如何與前沿的雲技術、深度學習、機器學習等相結閤。
作者簡介
硃潔,2008年加入華為,具有8年大數據研發管理經驗,現任華為大數據服務首席規劃師。專注於大數據服務平颱建設、規劃和實踐應用,同時參與多項企業級大數據項目解決方案的規劃、設計和實施工作,在深化大數據行業落地方麵有諸多實踐經驗,對解讀大數據垂直行業的技術創新與開發有諸多獨到的見解和心得。
羅華霖,2002年加入華為,華為大數據首席規劃師,主導完成華為大數據平颱DataSight和華為電信大數據解決方案SmartCare技術規劃和架構設計,支持電信運營商數字化戰略轉型,完成浙江移動、上海聯通、沙特STC等200 電信大數據解決方案項目落地。曾任華為軟交換首席設計師,華為大型電信大數據解決方案SmartCare首席架構師。
目 錄
目 錄
第一部分 大數據的本質
第1章 大數據是什麼 2
1.1 大數據導論 2
1.1.1 大數據簡史 2
1.1.2 大數據現狀 3
1.1.3 大數據與BI 3
1.2 企業數據資産 4
1.3 大數據挑戰 5
1.3.1 成本挑戰 6
1.3.2 實時性挑戰 6
1.3.3 安全挑戰 6
1.4 小結 6
第2章 運營商大數據架構 7
2.1 架構驅動的因素 7
2.2 大數據平颱架構 7
2.3 平颱發展趨勢 8
2.4 小結 8
第3章 運營商大數據業務 9
3.1 運營商常見的大數據業務 9
3.1.1 SQM(運維質量管理) 9
3.1.2 CSE(客戶體驗提升) 9
3.1.3 MSS(市場運維支撐) 10
3.1.4 DMP(數據管理平颱) 10
3.2 小結 11
第二部分 大數據技術
第4章 數據獲取 14
4.1 數據分類 14
4.2 數據獲取組件 14
4.3 探針 15
4.3.1 探針原理 15
4.3.2 探針的關鍵能力 16
4.4 網頁采集 26
4.4.1 網絡爬蟲 26
4.4.2 簡單爬蟲Python代碼示例 32
4.5 日誌收集 33
4.5.1 Flume 33
4.5.2 其他日誌收集組件 47
4.6 數據分發中間件 47
4.6.1 數據分發中間件的作用 47
4.6.2 Kafka架構和原理 47
4.7 小結 82
第5章 流處理 83
5.1 算子 83
5.2 流的概念 83
5.3 流的應用場景 84
5.3.1 金融領域 84
5.3.2 電信領域 85
5.4 業界兩種典型的流引擎 85
5.4.1 Storm 85
5.4.2 Spark Streaming 89
5.4.3 融閤框架 102
5.5 CEP 108
5.5.1 CEP是什麼 108
5.5.2 CEP的架構 109
5.5.3 Esper 110
5.6 實時結閤機器學習 110
5.6.1 Eagle的特點 111
5.6.2 Eagle概覽 111
5.7 小結 116
第6章 交互式分析 117
6.1 交互式分析的概念 117
6.2 MPP DB技術 118
6.2.1 MPP的概念 118
6.2.2 典型的MPP數據庫 121
6.2.3 MPP DB調優實戰 131
6.2.4 MPP DB適用場景 162
6.3 SQL on Hadoop 163
6.3.1 Hive 163
6.3.2 Phoenix 165
6.3.3 Impala 166
6.4 大數據倉庫 167
6.4.1 數據倉庫的概念 167
6.4.2 OLTP/OLAP對比 168
6.4.3 大數據場景下的同與不同 168
6.4.4 查詢引擎 169
6.4.5 存儲引擎 170
6.5 小結 171
第7章 批處理技術 172
7.1 批處理技術的概念 172
7.2 MPP DB技術 172
7.3 MapReduce編程框架 173
7.3.1 MapReduce起源 173
7.3.2 MapReduce原理 173
7.3.3 Shuffle 174
7.3.4 性能差的主要原因 177
7.4 Spark架構和原理 177
7.4.1 Spark的起源和特點 177
7.4.2 Spark的核心概念 178
7.5 BSP框架 217
7.5.1 什麼是BSP模型 217
7.5.2 並行模型介紹 218
7.5.3 BSP模型基本原理 220
7.5.4 BSP模型的特點 222
7.5.5 BSP模型的評價 222
7.5.6 BSP與MapReduce對比 222
7.5.7 BSP模型的實現 223
7.5.8 Apache Hama簡介 223
7.6 批處理關鍵技術 227
7.6.1 CodeGen 227
7.6.2 CPU親和技術 228
7.7 小結 229
第8章 機器學習和數據挖掘 230
8.1 機器學習和數據挖掘的聯係與區彆 230
8.2 典型的數據挖掘和機器學習過程 231
8.3 機器學習概覽 232
8.3.1 學習方式 232
8.3.2 算法類似性 233
8.4 機器學習&數據挖掘應用案例 235
8.4.1 尿布和啤酒的故事 235
8.4.2 決策樹用於電信領域故障快速定位 236
8.4.3 圖像識彆領域 236
8.4.4 自然語言識彆 238
8.5 交互式分析 239
8.6 深度學習 240
8.6.1 深度學習概述 240
8.6.2 機器學習的背景 241
8.6.3 人腦視覺機理 242
8.6.4 關於特徵 244
8.6.5 需要有多少個特徵 245
8.6.6 深度學習的基本思想 246
8.6.7 淺層學習和深度學習 246
8.6.8 深度學習與神經網絡 247
8.6.9 深度學習的訓練過程 248
8.6.10 深度學習的框架 248
8.6.11 深度學習與GPU 255
8.6.12 深度學習小結與展望 256
8.7 小結 257
第9章 資源管理 258
9.1 資源管理的基本概念 258
9.1.1 資源調度的目標和價值 258
9.1.2 資源調度的使用限製及難點 258
9.2 Hadoop領域的資源調度框架 259
9.2.1 YARN 259
9.2.2 Borg 260
9.2.3 Omega 262
9.2.4 本節小結 263
9.3 資源分配算法 263
9.3.1 算法的作用 263
9.3.2 幾種調度算法分析 263
9.4 數據中心統一資源調度 271
9.4.1 Mesos Marathon架構和原理 271
9.4.2 Mesos Marathon小結 283
9.5 多租戶技術 284
9.5.1 多租戶概念 284
9.5.2 多租戶方案 284
9.6 基於應用描述的智能調度 287
9.7 Apache Mesos架構和原理 288
9.7.1 Apache Mesos背景 288
9.7.2 Apache Mesos總體架構 288
9.7.3 Apache Mesos工作原理 290
9.7.4 Apache Mesos關鍵技術 295
9.7.5 Mesos與YARN比較 304
9.8 小結 305
第10章 存儲是基礎 306
10.1 分久必閤,閤久必分 306
10.2 存儲硬件的發展 306
10.2.1 機械硬盤的工作原理 306
10.2.2 SSD的原理 307
10.2.3 3DXPoint 309
10.2.4 硬件發展小結 309
10.3 存儲關鍵指標 309
10.4 RAID技術 309
10.5 存儲接口 310
10.5.1 文件接口 311
10.5.2 裸設備 311
10.5.3 對象接口 312
10.5.4 塊接口 316
10.5.5 融閤是趨勢 328
10.6 存儲加速技術 328
10.6.1 數據組織技術 328
10.6.2 緩存技術 335
10.7 小結 336
第11章 大數據雲化 337
11.1 雲計算定義 337
11.2 應用上雲 337
11.2.1 Cloud Native概念 338
11.2.2 微服務架構 338
11.2.3 Docker配閤微服務架構 342
11.2.4 應用上雲小結 348
11.3 大數據上雲 348
11.3.1 大數據雲服務的兩種模式 348
11.3.2 集群模式AWSEMR 349
11.3.3 服務模式Azure Data Lake Analytics 352
11.4 小結 354
第三部分 大數據文化
第12章 大數據技術開發文化 356
12.1 開源文化 356
12.2 DevOps理念 356
12.2.1 Development和Operations的組閤 357
12.2.2 對應用程序發布的影響 357
12.2.3 遇到的問題 358
12.2.4 協調人 358
12.2.5 成功的關鍵 359
12.3 速度遠比你想的重要 359
12.4 小結 361
顯示部分信息
前 言
前 言
大數據這幾年真的很火,於是有越來越多的人開始學習大數據技術。很多人會誤以為大數據是一門技術,其實不然,大數據更多的是一門市場宣傳語言,也可以理解為一種思考方式。從技術角度來看,大數據是一係列技術的組閤,所以真正全麵掌握大數據技術也是一件很睏難的事情。編寫這本書的初衷就是總結這些年的工作和學習經驗,希望可以分享給更多人,同時對自己而言也是一個提高、總結和升華的過程。
總的來說,本書圍繞一個通用技術棧來組織章節,主要聚焦大數據平颱的一些知識。主要分為三部分。
第一部分:第1~3章,主要講述大數據的本質、運營商大數據的架構和一些基本的業務知識。
? 第1章:闡述大數據的本質和麵臨的挑戰。
? 第2章:概述大數據架構及背後的驅動因素,以及未來發展的趨勢。
? 第3章:介紹運營商領域的業務,讓讀者對大數據能做什麼有一個直觀的感受
評分
評分
評分
評分
評分
評分
評分
評分
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有