发表于2024-11-26
对于数据驱动型公司,设计和构建流式数据架构能够实现实时或近实时应用,提升整个组织的效率。《流式架构:Kafka与MapR Streams数据流处理》简明的指南讲述了流设计中的关键因素(聚焦于消息层的关键特性)、新的消息技术 ApacheKafka 和 MapR Streams、流架构是如何支持微服务的,以及当下可供选择的流技术:Apache Spark Streaming、Apache Flink、Apache Storm和 Apache Apex,适合架构师、大数据科学家及 IT 工程师阅读。
所有连续的事件流都可以称为数据流。对连续数据流设计和构建流式数据架构,能够实现实时或近实时应用,提升整个组织的效率。本书以Apache Kafka 和MapRStreams为例,重点讲解如何确定使用流数据的时机、如何为多用户系统设计流式架构、为什么要求消息传递层具备某些特定功能,以及为什么需要微服务,并且描述了目前*符合流式设计需求的消息传递和流分析工具,适合架构师、大数据科学家及IT工程师阅读。
TedDunning,MapRTechnologies首席应用架构师,开源社区的活跃成员。现任ApacheFoundation孵化器的VP,是大量项目的冠军得主和导师,也是ApacheZooKeeper和Drill项目的贡献者和PMC成员。
EllenFriedman,解决方案咨询师,著名演讲者和作家,目前主要撰写大数据方面的著作。她是ApacheDrill和ApacheMahout项目的贡献者。
译者简介
唐李洋,博士,研究方向为云计算、并行计算、数据挖掘与分析等。曾经在Cisco从事过数据架构方面的设计与分析工作。
目录
第1 章 为什么使用流 1
飞机、火车和汽车:车联网和物联网 3
流数据:这才是现实世界 6
什么时候需要流 8
不止是实时:流架构的更多优势 11
流架构的最佳实践 13
医疗数据流案例 14
流数据:架构设计的核心 17
第2 章 流式架构 19
狭义视角:实时应用 20
通用流式架构的关键问题 21
消息传递技术的重要性 24
实时分析工具 28
Apache Storm 30
Apache Spark Streaming 31
Apache Flink 32
Apache Apex 33
流分析功能比较 33
小结 36
第3 章 流架构:微服务的理想平台 37
为什么需要微服务 38
微服务需要哪些支撑 41
关于微服务的更多详情 42
设计流架构:以在线视频服务为例 45
新设计:支持消息传递的基础设施 47
通用微架构的重要性 49
命名问题 50
为什么使用分布式文件和NoSQL 数据库 52
视频服务的新设计 52
小结:综合平台视角 54
第4 章 使用Kafka 进行流传输 57
Kafka 的动机 57
Kafka 的创新 58
Kafka 的基本概念 60
排序 61
持久化 62
Kafka API 62
KafkaProducer API 63
KafkaConsumer API 66
遗留API 70
Kafka 实用程序 71
负载均衡 71
镜像 72
Kafka 的陷阱 73
产品环境下的Kafka 73
主题和分区的数目有限 74
手动均衡分区负载 75
没有固有的序列化机制 76
镜像的不足 77
小结 78
第5 章 MapR Streams 79
MapR Streams 的创新 79
MapR 流系统的历史和情境 82
MapR Streams 的工作原理 84
配置MapR Streams 86
地理分布式复制 89
MapR Streams 的陷阱 91
第6 章 基于流数据的欺诈检测 ..93
刷卡速度 94
快速响应决策:“这是欺诈吗” 95
多用途流数据 98
欺诈检测器的向上扩展 99
小结 101
第7 章 地理分布式数据流 103
利益相关者 104
设计目标 106
设计选择 106
我们的设计 108
数据 108
控制谁能访问流数据 109
基于流的地理分布式复制的优势 .110
第8 章 总结 113
流式架构的优势 115
过渡到流架构 116
小结 119
附录A 附加资源 121
作者简介 125
使用和处理连续数据流的能力,是一项极具竞争力的优势。因此,能够利用流数据,逐渐成为构建数据驱动型组织的一个重要条件。流数据的广泛使用引发了如何进行更好的系统设计才能有效处理流数据的思考,涉及从多个数据源提取数据,以及各种不同的使用场景,包括流分析和持久化问题。流架构设计的最佳实践层出不穷,甚至会让我们目瞪口呆——流系统设计的范畴已经远远超出服务于特定的实时或近实时应用。使用新的方法进行流设计,能够极大地提升整个组织的效率。
目标读者
如果你已经在使用流数据,并且希望设计出一种能够实现最佳性能的体系结构,或者正要探索流数据的价值,那么这本书应该对你很有帮助。本书提供了很多真实案例,帮助你理解如何将这些方法应用到不同场景。此外,本书还为开发人员提供了示例程序的链接。
本书适合非技术或技术出身的读者,包括商业分析师、架构师、团队领导、数据科学家及开发人员。
内容梗概
本书内容包括:
- - 如何确定使用流数据的时机
- - 在多用户系统中如何更好地设计流架构
- - 为什么这种设计要求消息传递层具备某些特定的功能
- - 为什么流式架构支持微服务
- - 最符合流设计需求的消息传递和流分析工具的描述
第1~3 章阐述了流和微服务架构的基本知识。如果你已经对流数据的业务目标很熟悉,可以直接从第2 章开始读,第2 章描述了我们推荐的适合流系统的架构。
我们不仅解释了流架构最佳实践所需的能力,还介绍了一些目前能够满足这些要求的技术。第4 章详细讲述Apache Kafka,并提供了示例代码链接。第5 章介绍另一种更适合消息传递的技术,即MapR Streams,它使用Apache Kafka API,但提供的功能更多。
后面的章节深入介绍了利用流数据的真实案例,并对这一激动人心的领域做出了前景展望。
相关补充资料(示例代码、练习等)在这里下载:https://www.mapr.com/blog/getting-started-sample-programs-apache-kafka-09 以及https://www.mapr.com/blog/getting-started-sample-programsmapr-streams。
本书的目的是帮助你完成工作。一般来说,如果书中有示例代码,你可以在自己的程序和文档中使用这些示例代码。只要不是大批量复制这些代码,都不必联系我们请求许可。例如,借用书中若干块代码编写程序,不需要许可;而将O’eilly 书中的例子制作成CD 售卖或发行,则需要许可。引用书中的示例代码回答某个问题,不需要许可;而在产品文档中大量使用示例代码,则需要许可。
我们非常希望你能在引用本书内容时标明出处,但并不强求。出处一般包含有书名、作者、出版商和ISBN。例如:“Streaming Architecture: New Designs Using Apache Kafka and MapR Streams
by Ted Dunning and Ellen Friedman (O’eilly).Copyright 2016 Ted Dunning and Ellen Friedman, 978-1-491-95392-1”
如果你觉得示例代码的使用可能超越了合理使用范围,或者需要获得许可,请随时联系我们:permissions@oreilly.com。
Safari Books Online Safari Books Online
Safari Books Online 是应需而变的数字图书馆。它同时以图书和视频的形式出版世界顶级技术和商务作家的专业作品
技术专家、软件开发者、Web 设计师、商务人士和创意精英都可以将Safari 在线图书作为他们的调研、解决问题、学习和认证的主要资料来源。
Safari Books Online 对于组织团体、政府机构和个人提供各种产品组合和灵活的定价策略。用户可通过一个功能完备的数据库检索系统访问O’Reilly Media、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sam、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGarw-Hill、Jones & Bartlett、Course Technology 及其他数十家出版社的上千种图书、培训视频和正式出版前的书稿。要了解更多关于Safari Books Online 的信息,请访问我们的网站。
联系方式
请将对本书的评价和发现的问题通过如下地址告知出版者。
美国:
O’eilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街2 号成铭大厦C 座807 室
(100035)
奥莱利技术咨询(北京)有限公司
我们在http://bit.ly/streaming-architecture 上列出了勘误表、示例和所有额外的信息。
要评论或者询问关于本书的任何技术问题, 请发邮件到bookquestions@oreilly.com。
要了解O’eilly 更多的图书、课程、会议和新闻,请访问我们的网站http://www.oreilly.com。
我们的Facebook 账号:http://facebook.com/oreilly
我们的Twitter 账号:http://twitter.com/oreillymedia
我们的YouTube 网址:http://www.youtube.com/oreillymedia
读者服务
轻松注册成为博文视点社区用户(www.broadview.com.cn),您即可享受以下服务:
·提交勘误:您对书中内容的修改意见可在 提交勘误处提交,若被采纳,将获赠博文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。
·交流互动:在页面下方 读者评论 处留下您的疑问或观点,与我们和其他读者一同学习交流。
页面入口:http://www.broadview.com.cn/31722
流式架构:Kafka与MapR Streams数据流处理 下载 mobi pdf epub txt 电子书 格式 2024
流式架构:Kafka与MapR Streams数据流处理 下载 mobi epub pdf 电子书活动超给力活动超给力
评分超薄。。。内容也没啥东西
评分1234567890
评分慢
评分1234567890
评分好
评分质量非常好,物流相当快,不错!
评分书没见着
评分好
流式架构:Kafka与MapR Streams数据流处理 mobi epub pdf txt 电子书 格式下载 2024