| 機工 spark快數數據處理 | ||
| 定價 | 29.00 | |
| 齣版社 | 機械工業齣版社 | |
| 版次 | 1版1次印刷 | |
| 齣版時間 | 2014年05月 | |
| 開本 | 大32開 | |
| 作者 | (美)凱洛 著,餘璜 張磊 譯 | |
| 裝幀 | 平裝 | |
| 頁數 | 114 | |
| 字數 | --- | |
| ISBN編碼 | 9787111463115 | |
Spark是個開源的通用並行分布式計算框架,由加州大學伯剋利分校的AMP實驗室開發,支持內存計算、多迭代批量處理、即席查詢、流處理和圖計算等多種範式。Spark內存計算框架適閤各種迭代算法和交互式數據分析,能夠提升大數據處理的實時性和準確性,現已逐漸獲得很多企業的支持,如阿裏巴巴、百度、網易、英特爾等公司。
本書係統講解Spark的使用方法,包括如何在多種機器上安裝Spark,如何配置個Spark集群,如何在交互模式下運行個Spark作業,如何在Spark集群上構建個生産級的脫機/獨立作業,如何與Spark集群建立連接和使用SparkContext,如何創建和保存RDD(彈性分布式數據集),如何用Spark分布式處理數據,如何設置Shark,將Hive查詢集成到你的Spark作業中來,如何測試Spark作業,以及如何提升Spark任務的性能。
譯者序
作者簡介
前言
1章 安裝Spark以及構建Spark集群
1.1 單機運行Spark
1.2 在EC2上運行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通過SSH部署集群
1.8 鏈接和參考
1.9 小結
2章 Sparkshell的使用
2.1 加載個簡單的text文件
2.2 用Sparkshell運行邏輯迴歸
2.3 交互式地從S3加載數據
2.4 小結
3章 構建並運行Spark應用
3.1 用sbt構建Spark作業
3.2 用Maven構建Spark作業
3.3 用其他工具構建Spark作業
3.4 小結
4章 創建SparkContext
4.1 Scala
4.2 Java
4.3 Java和Scala共享的API
4.4 Python
4.5 鏈接和參考
4.6 小結
5章 加載與保存數據
5.1 RDD
5.2 加載數據到RDD中
5.3 保存數據
5.4 連接和參考
5.5 小結
6章 操作RDD
6.1 用Scala和Java操作RDD
6.2 用Python操作RDD
6.3 鏈接和參考
6.4 小結
7章 Shark-Hive和Spark的綜閤運用
7.1 為什麼用HiveShark
7.2 安裝Shark
7.3 運行Shark
7.4 加載數據
7.5 在Spark程序中運行HiveQL查詢
7.6 鏈接和參考
7.7 小結
8章 測試
8.1 用Java和Scala測試
8.2 用Python測試
8.3 鏈接和參考
8.4 小結
9章 技巧和竅門
9.1 日誌位置
9.2 並發限製
9.3 內存使用與垃圾迴收
9.4 序列化
9.5 IDE集成環境
9.6 Spark與其他語言
9.7 安全提示
9.8 郵件列錶
9.9 鏈接和參考
9.10 小結
Holden Karau 資深軟件開發工程師,現就職於Databricks公司,之前曾就職於榖歌、、微軟和Foursquare等著名公司。他對開源情有獨鍾,參與瞭許多開源項目,如Linux內核無綫驅動、Android程序監控、搜索引擎等,對存儲係統、推薦係統、搜索分類等都有深入研究。
譯者簡介
餘璜 阿裏巴巴核心係統研發工程師,OceanBase核心開發人員,對分布式係統理論和工程實踐有深刻理解,專注於分布式係統設計、大規模數據處理,樂於分享,在CSDN上分享瞭大量技術文章。
張磊 Spark愛好者,曾參與分布式OLAP數據庫係統核心開發,熱衷於大數據處理、分布式計算。
從實用角度係統講解Spark的數據處理工具及使用方法
手把手教你充分利用Spark提供的各種功能,快速編寫高效分布式程序
1章 安裝Spark以及構建
Spark集群
1.1 單機運行Spark
1.2 在EC2上運行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通過SSH部署集群
1.8 鏈接和參考
1.9 小結
本章將詳細介紹搭建Spark的常用方法。Spark的單機版便於測試,同時本章也會提到通過SSH用Spark的內置部署腳本搭建Spark集群,使用Mesos、Yarn或者Chef來部署Spark。對於Spark在雲環境中的部署,本章將介紹在EC2(基本環境和EC2MR)上的部署。如果你的機器或者集群中已經部署瞭Spark,可以跳過本章直接開始使用Spark編程。
不管如何部署Spark,首先得獲得Spark的個版本,截止到寫本書時,Spark的新版本為0.7版。對於熟悉github的程序員,則可以從git://github.com/mesos/spark.git直接復製Spark項目。Spark提供基本源碼壓縮包,同時也提供已經編譯好的壓縮包。為瞭和Hadoop分布式文件係統(HDFS)交互,需要在編譯源碼前設定相應的集群中所使用的Hadoop版本。對於0.7版本的Spark,已經編譯好的壓縮包依賴的是1.0.4版本的Hadoop。如果想更深入地學習Spark,推薦自己編譯基本源碼,因為這樣可以靈活地選擇HDFS的版本,如果想對Spark源碼有所貢獻,比如提交補丁,自己編譯源碼是必須的。你需要安裝閤適版本的Scala和與之對應的JDK版本。對於Spark的0.7.1版本,需要Scala 2.9.2或者更高的Scala 2.9版本(如2.9.3版)。在寫本書時,Linux發行版Ubuntu的LTS版本已經有Scala 2.9.1版,除此之外,近的穩定版本已經有2.9.2版。Fedora 18已經有2.9.2版。Scala官網上的新版在選擇Spark支持的Scala版本十分重要,Spark對Scala的版本很敏感。.........
我對Spark技術的學習一直以來都感覺有些碎片化,缺乏一個係統性的指導。這本書的名字,【正版】Spark快速數據處理,係統講解Spark的數據處理工具及使用方法,給我一種非常直觀的感受,它承諾的是一個完整、深入的學習路徑。我迫切希望能夠通過這本書,建立起對Spark完整的知識體係。這意味著,我需要瞭解Spark的底層原理,比如它的分布式計算模型,以及它是如何實現內存計算的。同時,我也需要掌握Spark提供的各種數據處理工具,比如RDD API、DataFrame API、Dataset API,並理解它們之間的區彆和聯係。更重要的是,我希望書中能夠提供大量的實戰案例,這些案例應該覆蓋Spark在批處理、流處理、圖計算、機器學習等各個領域的應用。通過學習這些案例,我能夠更好地理解Spark的強大之處,並將其應用到我的實際工作中。我希望這本書能夠真正幫助我成為一名閤格的Spark開發者,能夠獨立解決復雜的數據處理問題。
評分近期,我對大數據處理技術産生瞭濃厚的興趣,而Spark無疑是其中最耀眼的明星之一。市麵上關於Spark的書籍不少,但很多要麼過於理論化,要麼過於零散,難以形成係統性的認知。這本書的齣現,讓我眼前一亮。它強調“快速數據處理”,這直接點齣瞭Spark的核心優勢,也暗示瞭本書的實用性和時效性。我希望書中能夠詳細解釋Spark的架構設計,比如Driver、Executor、Cluster Manager等關鍵角色的作用,以及它們之間是如何協同工作的。對於Spark中的RDD、DataFrame、Dataset這三種核心抽象,我期望書中能夠提供清晰的演進脈絡和各自的適用場景,並輔以豐富的實例來展示如何進行數據轉換和操作。此外,Spark在批處理、流處理、機器學習等方麵的應用,也是我非常感興趣的內容。如果書中能提供這方麵的實戰指南,並講解一些常用的優化策略,那這本書的價值將大大提升。
評分作為一個長期從事數據分析工作的技術人員,我深切體會到在大數據時代,擁有一款高效、靈活的數據處理框架是多麼重要。Spark以其內存計算的優勢,早已在業界聲名鵲起,但我一直苦於沒有一本真正能夠係統化、條理清晰地講解其核心原理和應用技巧的書籍。當我看到這本書的名字時,我的第一反應就是“終於有救瞭”。它明確指齣瞭“快速數據處理”和“係統講解”這兩個關鍵點,這正是我迫切需要的。我尤其關注書中對Spark生態係統的介紹,包括其與其他大數據組件(如Hadoop、Kafka等)的集成方式,以及如何在不同的部署環境中配置和使用Spark。此外,對於Spark的各種API,例如Scala API、Python API,書中是否能夠做到深入淺齣的講解,並且提供貼閤實際應用場景的代碼片段,將是我衡量其價值的重要標準。我希望這本書能夠幫助我從零開始,逐步掌握Spark的各項功能,最終能夠獨立設計和實現復雜的數據處理任務。
評分一直以來,我都在尋找一本能夠真正帶領我掌握Spark核心技術的書籍。在信息爆炸的時代,能夠快速有效地處理數據是核心競爭力。這本書的標題“Spark快速數據處理”以及副標題“係統講解Spark的數據處理工具及使用方法”讓我看到瞭希望。我希望這本書能夠做到內容全麵且結構清晰,從Spark的基礎概念講起,逐步深入到其核心組件,如RDD、DataFrame和Dataset,並提供清晰的代碼示例。我特彆關注書中關於Spark SQL的講解,因為SQL是許多數據分析師和工程師熟悉的語言,如果能通過Spark SQL高效地進行數據查詢和分析,將極大地提高工作效率。同時,對於Spark Streaming在實時數據處理方麵的應用,我也充滿期待。我希望書中能夠提供實際的案例,展示如何構建實時數據管道,以及如何處理各種實時數據場景。
評分這本書的齣版,對於那些渴望在數據處理領域快速掌握一項強大工具的讀者來說,簡直是一場及時雨。我一直在尋找一本能夠真正帶領我進入Spark世界的指南,而不是僅僅停留在概念層麵。這本書的副標題“係統講解Spark的數據處理工具及使用方法”讓我看到瞭希望,因為它承諾的不僅僅是理論,更是實操。從目錄來看,它涵蓋瞭Spark的核心組件,比如RDD、DataFrame和Dataset,並且深入到Spark SQL、Spark Streaming以及MLlib等高級功能。這對於我這樣需要處理海量數據並且希望構建實時分析係統的開發者來說,至關重要。我特彆期待書中關於如何優化Spark作業的章節,因為在實際工作中,性能往往是決定項目成敗的關鍵。能夠理解Spark的執行計劃,學會如何進行有效的資源調優,避免常見的性能陷阱,這纔是真正能提升效率的價值所在。我希望這本書能夠提供足夠詳實的案例和代碼示例,讓我能夠邊學邊練,快速將學到的知識應用到我的項目中。總而言之,我對這本書的期待非常高,希望它能成為我Spark學習道路上的可靠夥伴。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有