这是一个数据信息时代,每分每秒都在产生数不尽的数据。这些数据如何获取,有什么用途,如何与前沿的深度学习、机器学习等相结合,如何为我们所用,尽在本书中。
本书从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识。主要内容包括三部分:第一部分从数据的产生、采集、计算、存储、消费端到端的角度介绍大数据技术的起源、发展、关键技术点和未来趋势,结合生动的业界新产品,以及学术界新的研究方向和成果,让深奥的技术浅显易懂;第二部分从业务和技术角度介绍实际案例,让读者理解大数据的用途及技术的本质;第三部分介绍大数据技术不是孤立的,讲解如何与前沿的云技术、深度学习、机器学习等相结合。
第一部分 大数据的本质
第1章 大数据是什么 2
1.1 大数据导论 2
1.1.1 大数据简史 2
1.1.2 大数据现状 3
1.1.3 大数据与BI 3
1.2 企业数据资产 4
1.3 大数据挑战 5
1.3.1 成本挑战 6
1.3.2 实时性挑战 6
1.3.3 安全挑战 6
1.4 小结 6
第2章 运营商大数据架构 7
2.1 架构驱动的因素 7
2.2 大数据平台架构 7
2.3 平台发展趋势 8
2.4 小结 8
第3章 运营商大数据业务 9
3.1 运营商常见的大数据业务 9
3.1.1 SQM(运维质量管理) 9
3.1.2 CSE(客户体验提升) 9
3.1.3 MSS(市场运维支撑) 10
3.1.4 DMP(数据管理平台) 10
3.2 小结 11
第二部分 大数据技术
第4章 数据获取 14
4.1 数据分类 14
4.2 数据获取组件 14
4.3 探针 15
4.3.1 探针原理 15
4.3.2 探针的关键能力 16
4.4 网页采集 26
4.4.1 网络爬虫 26
4.4.2 简单爬虫Python代码示例 32
4.5 日志收集 33
4.5.1 Flume 33
4.5.2 其他日志收集组件 47
4.6 数据分发中间件 47
4.6.1 数据分发中间件的作用 47
4.6.2 Kafka架构和原理 47
4.7 小结 82
第5章 流处理 83
5.1 算子 83
5.2 流的概念 83
5.3 流的应用场景 84
5.3.1 金融领域 84
5.3.2 电信领域 85
5.4 业界两种典型的流引擎 85
5.4.1 Storm 85
5.4.2 Spark Streaming 89
5.4.3 融合框架 102
5.5 CEP 108
5.5.1 CEP是什么 108
5.5.2 CEP的架构 109
5.5.3 Esper 110
5.6 实时结合机器学习 110
5.6.1 Eagle的特点 111
5.6.2 Eagle概览 111
5.7 小结 116
第6章 交互式分析 117
6.1 交互式分析的概念 117
6.2 MPP DB技术 118
6.2.1 MPP的概念 118
6.2.2 典型的MPP数据库 121
6.2.3 MPP DB调优实战 131
6.2.4 MPP DB适用场景 162
6.3 SQL on Hadoop 163
6.3.1 Hive 163
6.3.2 Phoenix 165
6.3.3 Impala 166
6.4 大数据仓库 167
6.4.1 数据仓库的概念 167
6.4.2 OLTP/OLAP对比 168
6.4.3 大数据场景下的同与不同 168
6.4.4 查询引擎 169
6.4.5 存储引擎 170
6.5 小结 171
第7章 批处理技术 172
7.1 批处理技术的概念 172
7.2 MPP DB技术 172
7.3 MapReduce编程框架 173
7.3.1 MapReduce起源 173
7.3.2 MapReduce原理 173
7.3.3 Shuffle 174
7.3.4 性能差的主要原因 177
7.4 Spark架构和原理 177
7.4.1 Spark的起源和特点 177
7.4.2 Spark的核心概念 178
7.5 BSP框架 217
7.5.1 什么是BSP模型 217
7.5.2 并行模型介绍 218
7.5.3 BSP模型基本原理 220
7.5.4 BSP模型的特点 222
7.5.5 BSP模型的评价 222
7.5.6 BSP与MapReduce对比 222
7.5.7 BSP模型的实现 223
7.5.8 Apache Hama简介 223
7.6 批处理关键技术 227
7.6.1 CodeGen 227
7.6.2 CPU亲和技术 228
7.7 小结 229
第8章 机器学习和数据挖掘 230
8.1 机器学习和数据挖掘的联系与区别 230
8.2 典型的数据挖掘和机器学习过程 231
8.3 机器学习概览 232
8.3.1 学习方式 232
8.3.2 算法类似性 233
8.4 机器学习&数据挖掘应用案例 235
8.4.1 尿布和啤酒的故事 235
8.4.2 决策树用于电信领域故障快速定位 236
8.4.3 图像识别领域 236
8.4.4 自然语言识别 238
8.5 交互式分析 239
8.6 深度学习 240
8.6.1 深度学习概述 240
8.6.2 机器学习的背景 241
8.6.3 人脑视觉机理 242
8.6.4 关于特征 244
8.6.5 需要有多少个特征 245
8.6.6 深度学习的基本思想 246
8.6.7 浅层学习和深度学习 246
8.6.8 深度学习与神经网络 247
8.6.9 深度学习的训练过程 248
8.6.10 深度学习的框架 248
8.6.11 深度学习与GPU 255
8.6.12 深度学习小结与展望 256
8.7 小结 257
第9章 资源管理 258
9.1 资源管理的基本概念 258
9.1.1 资源调度的目标和价值 258
9.1.2 资源调度的使用限制及难点 258
9.2 Hadoop领域的资源调度框架 259
9.2.1 YARN 259
9.2.2 Borg 260
9.2.3 Omega 262
9.2.4 本节小结 263
9.3 资源分配算法 263
9.3.1 算法的作用 263
9.3.2 几种调度算法分析 263
9.4 数据中心统一资源调度 271
9.4.1 Mesos+Marathon架构和原理 271
9.4.2 Mesos+Marathon小结 283
9.5 多租户技术 284
9.5.1 多租户概念 284
9.5.2 多租户方案 284
9.6 基于应用描述的智能调度 287
9.7 Apache Mesos架构和原理 288
9.7.1 Apache Mesos背景 288
9.7.2 Apache Mesos总体架构 288
9.7.3 Apache Mesos工作原理 290
9.7.4 Apache Mesos关键技术 295
9.7.5 Mesos与YARN比较 304
9.8 小结 305
第10章 存储是基础 306
10.1 分久必合,合久必分 306
10.2 存储硬件的发展 306
10.2.1 机械硬盘的工作原理 306
10.2.2 SSD的原理 307
10.2.3 3DXPoint 309
10.2.4 硬件发展小结 309
10.3 存储关键指标 309
10.4 RAID技术 309
10.5 存储接口 310
10.5.1 文件接口 311
10.5.2 裸设备 311
10.5.3 对象接口 312
10.5.4 块接口 316
10.5.5 融合是趋势 328
10.6 存储加速技术 328
10.6.1 数据组织技术 328
10.6.2 缓存技术 335
10.7 小结 336
第11章 大数据云化 337
11.1 云计算定义 337
11.2 应用上云 337
11.2.1 Cloud Native概念 338
11.2.2 微服务架构 338
11.2.3 Docker配合微服务架构 342
11.2.4 应用上云小结 348
11.3 大数据上云 348
11.3.1 大数据云服务的两种模式 348
11.3.2 集群模式AWSEMR 349
11.3.3 服务模式Azure Data Lake Analytics 352
11.4 小结 354
第三部分 大数据文化
第12章 大数据技术开发文化 356
12.1 开源文化 356
12.2 DevOps理念 356
12.2.1 Development和Operations的组合 357
12.2.2 对应用程序发布的影响 357
12.2.3 遇到的问题 358
12.2.4 协调人 358
12.2.5 成功的关键 359
12.3 速度远比你想的重要 359
12.4 小结 361
这本书就像一本藏宝图,虽然我还没有完全深入探索其中的每一个角落,但光是目录和前言就足以让我对即将开启的旅程充满期待。我特别关注其中关于“数据获取”的部分,因为它直接关系到我们能否拿到高质量的“原材料”。在如今信息爆炸的时代,数据来源的可靠性、多样性以及如何高效地收集和整合来自不同渠道的数据,是构建稳固大数据基石的第一步。我希望书中能详细介绍各种数据采集技术,比如爬虫、API接口、流式数据处理,以及如何应对数据清洗、去重、格式转换等一系列挑战。尤其是在处理实时数据流时,如何保证数据的低延迟和高吞吐量,这方面的内容是我非常看重的。我设想,通过这本书的学习,我能够掌握从千丝万缕的数据源头开始,建立起一套系统而 robust 的数据采集流程,为后续的数据分析和应用打下坚实基础。它不仅仅是关于技术的罗列,更应该包含对不同采集场景的权衡和最佳实践的指导,让我能够根据实际需求选择最合适的方案,避免走弯路。
评分“深度学习”这个词汇出现在书名中,让我看到了本书的深度和前沿性。我知道,大数据不仅仅是数据的堆积,更是为了从中挖掘出有价值的洞察,而深度学习无疑是当前挖掘数据价值最强大的工具之一。我非常好奇书中是如何将大数据架构与深度学习模型紧密结合起来的。这是否意味着书中会讲解如何在大规模数据集上进行深度学习模型的训练?例如,如何利用分布式计算框架(如Spark MLlib, TensorFlow on Spark)来加速模型的训练过程?或者,书中会探讨如何设计一个能够高效地存储、管理和访问海量用于深度学习的数据集?我期待看到关于特征工程、模型选择、超参数调优等方面的实践建议,尤其是在大数据环境下,这些操作的挑战性会大大增加。我希望本书能够提供一些关于如何构建一个完整的深度学习流水线(pipeline)的指导,从数据预处理到模型部署,让我能够理解整个流程的运作机制,并且能够在这个基础上进行创新和优化,最终利用深度学习的力量来解决复杂的业务问题。
评分我被这本书的“架构”二字深深吸引,因为在大数据领域,一个清晰、可扩展、高容错的架构设计是成功的关键。我理解,这本书不会止步于讲解单个技术点,而是会带领读者构建起一个完整的体系。我迫切想了解书中是如何阐述不同大数据组件之间是如何协同工作的,例如Hadoop生态系统(HDFS, MapReduce, Spark, Hive等)的内在联系,以及它们在不同场景下的适用性。更重要的是,我期待书中能够深入剖析如何设计一个能够应对海量数据、高并发访问以及不断增长业务需求的大数据平台。这包括但不限于存储架构的选择(如HDFS, S3, NoSQL数据库)、计算架构的优化(如批处理与流处理的结合)、数据治理策略的制定(如元数据管理、数据安全、权限控制),以及如何平衡成本与性能。我希望书中能提供一些实际的案例分析,展示在不同行业背景下,优秀的大数据架构是如何构建和演进的,让我能够从中汲取灵感,并将这些知识转化为解决实际问题的能力。
评分我被这本书的标题所吸引,因为它清晰地描绘了从宏观到微观、从基础到应用的完整旅程。我期待这本书能提供一种系统性的学习路径,帮助我理解大数据处理的整个生命周期,并能够将这些知识融会贯通。我非常关注书中在“数据获取”部分的内容,因为它是我理解整个大数据流程的起点。我希望书中能详细介绍各种数据采集技术,例如网络爬虫、API集成、日志收集、流式数据摄取等,并阐述它们各自的优缺点以及适用的场景。我希望能够学到如何处理不同格式、不同来源的数据,以及如何保证数据采集的效率和准确性。此外,书中对“大数据架构”的讲解,我希望能够深入到各个组件的原理、选型以及组合方式,例如Hadoop、Spark、Kafka、HBase等,并能够理解如何根据业务需求设计一个可扩展、高可用、高性能的大数据平台。最终,通过对“深度学习”的介绍,我希望能够了解如何在大数据平台上进行模型的训练、部署和应用,解决实际的业务问题,实现数据驱动的决策。
评分这本书的书名让我联想到一种从“源头活水”到“智慧结晶”的完整过程。我理解,它涵盖的范围非常广,从最基础的数据采集,到最尖端的深度学习应用,提供了一个端到端的视角。我希望书中能够清晰地阐述,在大数据整个生命周期中,各个环节是如何相互依赖、相互促进的。例如,数据获取的质量和方式,将直接影响到后续数据清洗、存储和处理的效率。而一个良好设计的架构,将为深度学习模型的训练和部署提供坚实的基础和高效的平台。我特别关注书中是如何连接“架构”与“深度学习”之间的桥梁。是否存在一些特定的架构模式,能够更好地支持深度学习任务?或者,深度学习的应用又会反过来推动大数据架构的演进?我期待书中能提供一些宏观的指导,帮助我理解整个大数据生态系统的全貌,以及如何在其中找到自己的位置,并有效地利用大数据和深度学习解决实际问题,实现商业价值。
评分618活动很合适,每年都会买,今年买的特多,今天买了一千左右的吧
评分这本??“大数据架构详解:从数据获取到深度学习”涵盖了很多大数据的架构组件,对工作原理深入jian
评分期待,准备好好学学
评分好好学习,天天向上.....
评分非常感谢京东,感谢店家,东西很满意。
评分书的质量挺好,有点像教科书,一直想买了,终于到手
评分挺好的。京东物流非常快,相信京东品质!物有所值。618!
评分还需要加强学习,关键要实际操作
评分书质量很好 快递很快。内容还没看 不过是根据自己需要买的 应该有用。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有