Spark高級數據分析+spark快速大數據分析+機器學習+Spark實踐

Spark高級數據分析+spark快速大數據分析+機器學習+Spark實踐 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁

下載链接在页面底部


點擊這裡下載
    

想要找書就要到 新城書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-11-27


圖書介紹


店鋪: 藍墨水圖書專營店
齣版社: 人民郵電齣版社
ISBN:9787115404749
商品編碼:10586613144
頁數:1
字數:1


類似圖書 點擊查看全場最低價

相關圖書





圖書描述

內容簡介

bm266255  9787115404749  9787115422286  9787115399830  9787115403094

Spark數據分析 

Cloudera公司數據科學傢團隊攜手打造,教你用Spark進行大規模數據分析

基本信息

  • 作者:            
  • 譯者: 
  • 齣版社:
  • ISBN:9787115404749
  • 上架時間:2015-10-23
  • 齣版日期:2015 年8月
  • 開本:16開
  • 頁碼:244
  • 版次:1-1
  • 所屬分類:
     

內容簡介



本書是使用Spark進行大規模數據分析的實戰寶典,由大數據公司Cloudera的數據科學傢撰寫。四位作者首先結閤數據科學和大數據分析的廣闊背景講解瞭Spark,然後介紹瞭用Spark和Scala進行數據處理的基礎知識,接著討論瞭如何將Spark用於機器學習,同時介紹瞭常見應用中幾個常用的算法。此外還收集瞭一些更加新穎的應用,比如通過文本隱含語義關係來查詢Wikipedia或分析基因數據。
本書適閤從事大數據分析的各類專業人員閱讀。 

目錄

推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1章 大數據分析 1
1.1 數據科學麵臨的挑戰 2
1.2 認識Apache Spark 4
1.3 關於本書 5
第2章 用Scala和Spark進行數據分析 7
2.1 數據科學傢的Scala 8
2.2 Spark 編程模型 9
2.3 記錄關聯問題 9
2.4 小試牛刀:Spark shell和SparkContext 10
2.5 把數據從集群上獲取到客戶端 15
2.6 把代碼從客戶端發送到集群 18
2.7 用元組和case class對數據進行結構化 19
2.8 聚閤 23
2.9 創建直方圖 24
2.10 連續變量的概要統計 25
2.11 為計算概要信息創建可重用的代碼 26
2.12 變量的選擇和評分簡介 30
2.13 小結 31
第3章 音樂推薦和Audioscrobbler數據集 33
3.1 數據集 34
3.2 交替小二乘推薦算法 35
3.3 準備數據 37
3.4 構建一個模型 39
3.5 逐個檢查推薦結果 42
3.6 評價推薦質量 43
3.7 計算AUC 44
3.8 選擇超參數 46
3.9 産生推薦 48
3.10 小結 49
第4章 用決策樹算法預測森林植被 51
4.1 迴歸簡介 52
4.2 嚮量和特徵 52
4.3 樣本訓練 53
4.4 決策樹和決策森林 54
4.5 Covtype數據集 56
4.6 準備數據 57
4.7 第決策樹 58
4.8 決策樹的超參數 62
4.9 決策樹調優 63
4.10 重談類彆型特徵 65
4.11 隨機決策森林 67
4.12 進行預測 69
4.13 小結 69
第5章 基於K均值聚類的網絡流量異常檢測 71
5.1 異常檢測 72
5.2 K均值聚類 72
5.3 網絡入侵 73
5.4 KDD Cup 1999數據集 73
5.5 初步嘗試聚類 74
5.6 K 的選擇 76
5.7 基於R的可視化 79
5.8 特徵的規範化 81
5.9 類彆型變量 83
5.10 利用標號的熵信息 84
5.11 聚類實戰 85
5.12 小結 86
第6章 基於潛在語義分析算法分析維基百科 89
6.1 詞項-文檔矩陣 90
6.2 獲取數據 91
6.3 分析和準備數據 92
6.4 詞形歸並 93
6.5 計算TF-IDF 94
6.6 奇異值分解 97
6.7 找齣重要的概念 98
6.8 基於低維近似的查詢和評分 101
6.9 詞項-詞項相關度 102
6.10 文檔-文檔相關度 103
6.11 詞項-文檔相關度 105
6.12 多詞項查詢 106
6.13 小結 107
第7章 用GraphX分析伴生網絡 109
7.1 對MEDLINE文獻引用索引的網絡分析 110
7.2 獲取數據 111
7.3 用Scala XML工具解析XML文檔 113
7.4 分析MeSH主要主題及其伴生關係 114
7.5 用GraphX來建立一個伴生網絡 116
7.6 理解網絡結構 119
7.6.1 連通組件 119
7.6.2 度的分布 122
7.7 過濾噪聲邊 124
7.7.1 處理EdgeTriplet 125
7.7.2 分析去掉噪聲邊的子圖 126
7.8 小世界網絡 127
7.8.1 係和聚類係數 128
7.8.2 用Pregel計算平均路徑長度 129
7.9 小結 133
第8章 紐約齣租車軌跡的空間和時間數據分析 135
8.1 數據的獲取 136
8.2 基於Spark的時間和空間數據分析 136
8.3 基於JodaTime和NScalaTime的時間數據處理 137
8.4 基於Esri Geometry API和Spray的地理空間數據處理 138
8.4.1 認識Esri Geometry API 139
8.4.2 GeoJSON簡介 140
Spark高級數據分析+spark快速大數據分析+機器學習+Spark實踐 下載 mobi epub pdf txt 電子書 格式

Spark高級數據分析+spark快速大數據分析+機器學習+Spark實踐 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

Spark高級數據分析+spark快速大數據分析+機器學習+Spark實踐 下載 mobi pdf epub txt 電子書 格式 2024

Spark高級數據分析+spark快速大數據分析+機器學習+Spark實踐 下載 mobi epub pdf 電子書
想要找書就要到 新城書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

評分

評分

評分

評分

評分

評分

評分

評分

類似圖書 點擊查看全場最低價

Spark高級數據分析+spark快速大數據分析+機器學習+Spark實踐 mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.cndgn.com All Rights Reserved. 新城書站 版权所有