| 机工 spark快数数据处理 | ||
| 定价 | 29.00 | |
| 出版社 | 机械工业出版社 | |
| 版次 | 第1版第1次印刷 | |
| 出版时间 | 2014年05月 | |
| 开本 | 大32开 | |
| 作者 | (美)凯洛 著,余璜 张磊 译 | |
| 装帧 | 平装 | |
| 页数 | 114 | |
| 字数 | --- | |
| ISBN编码 | 9787111463115 | |
Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。
本书系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。
译者序
作者简介
前言
第1章 安装Spark以及构建Spark集群
1.1 单机运行Spark
1.2 在EC2上运行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通过SSH部署集群
1.8 链接和参考
1.9 小结
第2章 Sparkshell的使用
2.1 加载一个简单的text文件
2.2 用Sparkshell运行逻辑回归
2.3 交互式地从S3加载数据
2.4 小结
第3章 构建并运行Spark应用
3.1 用sbt构建Spark作业
3.2 用Maven构建Spark作业
3.3 用其他工具构建Spark作业
3.4 小结
第4章 创建SparkContext
4.1 Scala
4.2 Java
4.3 Java和Scala共享的API
4.4 Python
4.5 链接和参考
4.6 小结
第5章 加载与保存数据
5.1 RDD
5.2 加载数据到RDD中
5.3 保存数据
5.4 连接和参考
5.5 小结
第6章 操作RDD
6.1 用Scala和Java操作RDD
6.2 用Python操作RDD
6.3 链接和参考
6.4 小结
第7章 Shark-Hive和Spark的综合运用
7.1 为什么用HiveShark
7.2 安装Shark
7.3 运行Shark
7.4 加载数据
7.5 在Spark程序中运行HiveQL查询
7.6 链接和参考
7.7 小结
第8章 测试
8.1 用Java和Scala测试
8.2 用Python测试
8.3 链接和参考
8.4 小结
第9章 技巧和窍门
9.1 日志位置
9.2 并发限制
9.3 内存使用与垃圾回收
9.4 序列化
9.5 IDE集成环境
9.6 Spark与其他语言
9.7 安全提示
9.8 邮件列表
9.9 链接和参考
9.10 小结
Holden Karau 资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、亚马逊、微软和Foursquare等著名公司。他对开源情有独钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。
译者简介
余璜 阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。
张磊 Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。
从实用角度系统讲解Spark的数据处理工具及使用方法
手把手教你充分利用Spark提供的各种功能,快速编写高效分布式程序
第1章 安装Spark以及构建
Spark集群
1.1 单机运行Spark
1.2 在EC2上运行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通过SSH部署集群
1.8 链接和参考
1.9 小结
本章将详细介绍搭建Spark的常用方法。Spark的单机版便于测试,同时本章也会提到通过SSH用Spark的内置部署脚本搭建Spark集群,使用Mesos、Yarn或者Chef来部署Spark。对于Spark在云环境中的部署,本章将介绍在EC2(基本环境和EC2MR)上的部署。如果你的机器或者集群中已经部署了Spark,可以跳过本章直接开始使用Spark编程。
不管如何部署Spark,首先得获得Spark的一个版本,截止到写本书时,Spark的最新版本为0.7版。对于熟悉github的程序员,则可以从git://github.com/mesos/spark.git直接复制Spark项目。Spark提供基本源码压缩包,同时也提供已经编译好的压缩包。为了和Hadoop分布式文件系统(HDFS)交互,需要在编译源码前设定相应的集群中所使用的Hadoop版本。对于0.7版本的Spark,已经编译好的压缩包依赖的是1.0.4版本的Hadoop。如果想更深入地学习Spark,推荐自己编译基本源码,因为这样可以灵活地选择HDFS的版本,如果想对Spark源码有所贡献,比如提交补丁,自己编译源码是必须的。你需要安装合适版本的Scala和与之对应的JDK版本。对于Spark的0.7.1版本,需要Scala 2.9.2或者更高的Scala 2.9版本(如2.9.3版)。在写本书时,Linux发行版Ubuntu的LTS版本已经有Scala 2.9.1版,除此之外,最近的稳定版本已经有2.9.2版。Fedora 18已经有2.9.2版。Scala官网上的最新版在选择Spark支持的Scala版本十分重要,Spark对Scala的版本很敏感。.........
作为一个在数据分析领域摸爬滚打多年的老兵,我一直都在寻找能够提升效率的工具。Spark的名声在外,但一直没有找到一本真正让我觉得“上手”的书。很多关于Spark的书籍,要么过于偏重理论,要么代码示例陈旧,要么讲解不够清晰。我对这本书的期望是,它能够提供一套系统性的学习路径,从Spark的架构原理讲起,然后逐步深入到RDD、DataFrame、Spark SQL、Spark Streaming等核心模块,并重点突出如何在实际项目中应用这些技术。我希望它能包含一些常见的数据处理场景,比如ETL、实时分析、机器学习等,并提供相应的Spark解决方案,让读者能够快速迁移到Spark的生态系统中。
评分这本书的封面设计非常吸引人,简洁大方,直接点出了核心关键词“Spark”和“快速数据处理”。我一直对大数据技术很感兴趣,但又觉得很多资料过于理论化,缺乏实操性。看到这本书的副标题“系统讲解Spark的数据处理工具及使用方法,为快速编写高效分布式程序”,我立刻就被吸引了。我希望这本书能像它名字一样,深入浅出地讲解Spark的核心概念和常用组件,并且最重要的是,提供大量实际的代码示例和场景应用,让我能够真正学会如何利用Spark来处理大规模数据,而不是停留在纸上谈兵。尤其期待它能在分布式程序的编写方面有所突破,解决我在实际开发中遇到的性能瓶颈和并发问题。
评分我是一名对Spark技术充满热情但又常常被其复杂性所困扰的读者。这本书的标题,特别是“系统讲解”和“快速编写高效分布式程序”,让我看到了希望。我非常看重这本书的“系统性”,希望它能循序渐进地引导我理解Spark的方方面面,从基础概念到高级特性,无所不包。同时,“快速”和“高效”更是我的痛点,我希望能通过这本书学到切实可行的方法,优化我的Spark程序,让它们在处理海量数据时能够游刃有余,避免不必要的等待和资源浪费。我尤其期待书中能有关于Spark内存管理、任务调度、数据分区等方面的深入讲解,以及如何根据具体业务场景选择最合适的Spark API和优化策略。
评分这本书的出现,无疑是给像我一样渴望掌握Spark技术的开发者注入了一剂强心针。市面上关于Spark的书籍不少,但往往内容冗杂,重点不明。我非常欣赏这本书的命名方式,直接点出“快速”和“高效”,这正是我对Spark的期待。我希望这本书能够深入剖析Spark的核心机制,例如其内存计算的优势、容错机制的原理,以及如何通过API高效地操作数据。更重要的是,我期待它能提供实用的分布式程序编写技巧,包括如何设计合理的作业、如何进行并行化处理、以及如何避免常见的性能陷阱。如果书中还能包含一些关于Spark生态系统中其他重要组件(如HDFS、Hive、Yarn)的集成和使用方法,那就更能满足我全面的学习需求。
评分我是一名刚刚接触大数据开发的初学者,对Spark充满了好奇,但也有些畏惧。听说Spark是一个功能强大但学习曲线比较陡峭的技术。这本书的名称让我眼前一亮,特别是“快速”、“高效”这些词语,让我觉得它可能就是我需要的入门指南。我希望这本书能够用通俗易懂的语言,解释Spark的基本原理,并且通过大量的图示和实例,帮助我理解Spark的工作流程。我特别希望能看到一些关于如何配置Spark环境、如何编写第一个Spark程序、以及如何进行基本的性能调优的章节。如果能有一些关于Spark在不同业务场景下的应用案例,那就更好了,这样我能对Spark的实际价值有一个更直观的认识。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有