商品参数
书名:大数据之路:阿*巴巴大数据实践
作者:阿*巴巴数据技术及产品部著
ISBN :9787121314384
出版社:电子工业出版社
出版时间:2017年7月
印刷时间:2017年7月
字数:字
页数:322页
开本:16开
包装:平装
重量:g
定价:79元
内容简介
在阿*巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB*别,部分单张表每天的数据记录数高达几千亿条;在2016年“**购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿*别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。
《大数据之路:阿*巴巴大数据实践》就是在此背景下完成的。本书中讲到的阿*巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。
本书由阿*巴巴数据技术及产品部组织并完成写作,是阿*巴巴分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。
编辑推荐
阿*巴巴,作为距离大数据*近的公司之一,近几年对大数据却鲜有高谈阔论。实际上,阿*巴巴一开始就自然生长在数据的黑洞中,并且被越来越多、越来越密集的数据风暴裹挟。从需求→设计→迭代→升华为理论,在无数次的迭代进化中,阿*巴巴对大数据的理解才逐渐成形,慢慢能够在将数据黑洞为我所用的抗争中扳回一局。本书就是在这个过程中,由阿*巴巴数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。
作者简介
阿*巴巴数据技术及产品部,定位于阿*集团数据中台,为阿*生态内外的业务、用户、中小企业提供全链路、全渠道的数据服务。作为阿*大数据战略的核心践行者,致力于“让大数据赋能商业,创造价值”。经过多年的实践,数据技术及产品部已经构建了从底层的数据采集、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。通过这个体系,超过EB*别的海量数据能够**融合,并以秒*的响应速度,服务并驱动阿*巴巴自身的业务和外部千万用户的发展。现在,阿*巴巴数据技术及产品部正通过技术和产品上的创新,探索全域数据的价值,将阿*在大数据上沉淀的能力对外分享,为各行各业的发展带来更多可能性。
目录
第1章 总述1
第1篇 数据技术篇
第2章 日志采集 8
2.1 浏览器的页面日志采集 8
2.1.1 页面浏览日志采集流程 9
2.1.2 页面交互日志采集 14
2.1.3 页面日志的服务器端清洗和预处理 15
2.2 无线客户端的日志采集 16
2.2.1 页面事件 17
2.2.2 控件点击及其他事件 18
2.2.3 特殊场景 19
2.2.4 H5 & Native日志统一 20
2.2.5 设备标识 22
2.2.6 日志传输 23
2.3 日志采集的挑战 24
2.3.1 典型场景 24
2.3.2 大促保障 26
第3章 数据同步 29
3.1 数据同步基础 29
3.1.1 直连同步 30
3.1.2 数据文件同步 30
3.1.3 数据库日志解析同步 31
3.2 阿*数据仓库的同步方式35
3.2.1 批量数据同步 35
3.2.2 实时数据同步 37
3.3 数据同步遇到的问题与解决方案 39
3.3.1 分库分表的处理 39
3.3.2 **同步和批量同步41
3.3.3 增量与全量同步的合并 42
3.3.4 同步性能的处理 43
3.3.5 数据漂移的处理 45
第4章 离线数据开发 48
4.1 数据开发平台 48
4.1.1 统一计算平台 49
4.1.2 统一开发平台 53
4.2 任务调度系统 58
4.2.1 背景 58
4.2.2 介绍 60
4.2.3 特点及应用 65
第5章 实时技术 68
5.1 简介 69
5.2 流式技术架构 71
5.2.1 数据采集 72
5.2.2 数据处理 74
5.2.3 数据存储 78
5.2.4 数据服务 80
5.3 流式数据模型 80
5.3.1 数据分层 80
5.3.2 多流关联 83
5.3.3 维表使用 84
5.4 大促挑战&保障 86
5.4.1 大促特征 86
5.4.2 大促保障 88
第6章 数据服务 91
6.1 服务架构演进 91
6.1.1 DWSOA 92
6.1.2 OpenAPI 93
6.1.3 SmartDQ 94
6.1.4 统一的数据服务层 96
6.2 技术架构 97
6.2.1 SmartDQ 97
6.2.2 iPush 100
6.2.3 Lego 101
6.2.4 uTiming 102
6.3 *佳实践103
6.3.1 性能 103
6.3.2 稳定性 111
第7章 数据挖掘 116
7.1 数据挖掘概述 116
7.2 数据挖掘算法平台 117
7.3 数据挖掘中台体系 119
7.3.1 挖掘数据中台 120
7.3.2 挖掘算法中台 122
7.4 数据挖掘案例 123
7.4.1 用户画像 123
7.4.2 互联网反作弊 125
第2篇 数据模型篇
第8章 大数据领域建模综述 130
8.1 为什么需要数据建模 130
8.2 关系数据库系统和数据仓库 131
8.3 从OLTP和OLAP系统的区别看模型方法论的选择 132
8.4 典型的数据仓库建模方法论 132
8.4.1 ER模型 132
8.4.2 维度模型 133
8.4.3 Data Vault模型 134
8.4.4 Anchor模型 135
8.5 阿*巴巴数据模型实践综述136
第9章 阿*巴巴数据整合及管理体系138
9.1 概述 138
9.1.1 定位及价值 139
9.1.2 体系架构 139
9.2 规范定义 140
9.2.1 名词术语 141
9.2.2 指标体系 141
9.3 模型设计 148
9.3.1 指导理论 148
9.3.2 模型层次 148
9.3.3 基本原则 150
9.4 模型实施 152
9.4.1 业界常用的模型实施过程 152
9.4.2 OneData实施过程 154
第10章 维度设计 159
10.1 维度设计基础 159
10.1.1 维度的基本概念 159
10.1.2 维度的基本设计方法 160
10.1.3 维度的层次结构 162
10.1.4 规范化和反规范化 163
10.1.5 一致性维度和交叉探查 165
10.2 维度设计高*主题166
10.2.1 维度整合 166
10.2.2 水平拆分 169
10.2.3 垂直拆分 170
10.2.4 历史归档 171
10.3 维度变化 172
10.3.1 缓慢变化维 172
10.3.2 快照维表 174
10.3.3 极限存储 175
10.3.4 微型维度 178
10.4 特殊维度 180
10.4.1 递归层次 180
10.4.2 行为维度 184
10.4.3 多值维度 185
10.4.4 多值属性 187
10.4.5 杂项维度 188
第11章 事实表设计 190
11.1 事实表基础 190
11.1.1 事实表特性 190
11.1.2 事实表设计原则 191
11.1.3 事实表设计方法 193
11.2 事务事实表 196
11.2.1 设计过程 196
11.2.2 单事务事实表 200
11.2.3 多事务事实表 202
11.2.4 两种事实表对比 206
11.2.5 父子事实的处理方式 208
11.2.6 事实的设计准则 209
11.3 周期快照事实表 210
11.3.1 特性 211
11.3.2 实例 212
11.3.3 注意事项 217
11.4 累积快照事实表 218
11.4.1 设计过程 218
11.4.2 特点 221
11.4.3 特殊处理 223
11.4.4 物理实现 225
11.5 三种事实表的比较 227
11.6 无事实的事实表 228
11.7 聚集型事实表 228
11.7.1 聚集的基本原则 229
11.7.2 聚集的基本步骤 229
11.7.3 阿*公共汇总层230
11.7.4 聚集补充说明 234
第3篇 数据管理篇
第12章 元数据 236
12.1 元数据概述 236
12.1.1 元数据定义 236
12.1.2 元数据价值 237
12.1.3 统一元数据体系建设 238
12.2 元数据应用 239
12.2.1 Data Profile 239
12.2.2 元数据门户 241
12.2.3 应用链路分析 241
12.2.4 数据建模 242
12.2.5 驱动ETL开发 243
第13章 计算管理 245
13.1 系统优化 245
13.1.1 HBO 246
13.1.2 CBO 249
13.2 任务优化 256
13.2.1 Map倾斜 257
13.2.2 Join倾斜 261
13.2.3 Reduce倾斜 269
第14章 存储和成本管理 275
14.1 数据压缩 275
14.2 数据重分布 276
14.3 存储治理项优化 277
14.4 生命周期管理 278
14.4.1 生命周期管理策略 278
14.4.2 通用的生命周期管理矩阵 280
14.5 数据成本计量 283
14.6 数据使用计费 284
第15章 数据质量 285
15.1 数据质量保障原则 285
15.2 数据质量方法概述 287
15.2.1 消费场景知晓 289
15.2.2 数据加工过程卡点校验 292
15.2.3 风险点监控 295
15.2.4 质量衡量 299
第4篇 数据应用篇
第16章 数据应用 304
16.1 生意参谋 305
16.1.1 背景概述 305
16.1.2 功能架构与技术能力 307
16.1.3 商家应用实践 310
16.2 对内数据产品平台 313
16.2.1 定位 313
16.2.2 产品建设历程 314
16.2.3 整体架构介绍 317
附录A 本书插图索引 320
最近我对大数据技术产生了浓厚的兴趣,希望能找到一本既有深度又有广度的入门书籍。在众多选择中,这本书的标题立刻吸引了我。“大数据之路”似乎预示着一条清晰的学习路径,“阿里巴巴大数据实践”则保证了内容的真实性和实用性。我希望这本书能够帮助我建立起对大数据体系的整体认知,了解其核心组成部分,以及它们是如何协同工作的。我尤其关注书中关于“系统结构”的介绍,想知道阿里巴巴是如何搭建如此庞大、复杂而又高效的数据处理平台的。从数据仓库到数据湖,从离线批处理到实时流处理,我希望书中能够清晰地阐述这些技术的原理、应用场景以及阿里巴巴是如何选择和整合这些技术的。此外,我也非常期待书中能够分享一些阿里巴巴在大数据应用上的具体案例,比如如何通过数据分析来优化产品设计、提升用户体验、实现精准营销等等。这些实践经验对于我这样刚开始接触大数据的人来说,将是宝贵的财富,能够帮助我更好地理解大数据技术的实际价值,并将其应用到自己的学习和工作中。
评分作为一名在数据领域摸索多年的从业者,我深知掌握先进的大数据技术和理念对于职业发展的关键性。一直以来,阿里巴巴的大数据能力都让我心生敬佩,他们能够凭借强大的数据驱动力,在电商、支付、云计算等多个领域取得令人瞩目的成就。因此,我毫不犹豫地选择了这本书,希望能从中汲取养分。我最期待的,是书中能够深入剖析阿里巴巴在大数据领域所积累的“实践”经验,这不仅仅是技术细节的堆砌,更重要的是战略层面的思考和落地方法。例如,他们是如何建立数据文化、如何构建高效的数据团队、如何将数据分析结果有效地转化为商业决策的?书中是否会分享一些具体的案例,比如如何利用大数据进行精细化运营、个性化推荐、风险控制等,这些都是我工作中经常需要面对的问题,从中学习他们的成功之道,将对我非常有启发。此外,我对书中可能涉及到的技术演进和未来趋势也充满好奇,阿里巴巴作为行业领导者,他们的技术选择和发展方向往往能引领整个行业,了解这些信息,有助于我保持技术的前瞻性,不断提升自身竞争力。
评分我购买这本书纯粹是出于对数据分析和挖掘的热情。我一直坚信,数据是未来商业世界的核心驱动力,而阿里巴巴无疑是其中最杰出的践行者之一。我希望通过阅读这本书,能够深入了解阿里巴巴是如何将海量数据转化为可执行的商业洞察,从而在激烈的市场竞争中脱颖而出。这本书的“全面系统介绍”承诺让我对接下来的内容充满期待,我希望它不仅仅是停留在表面,而是能够深入到阿里巴巴大数据系统的每一个角落,从数据的采集、存储、清洗、处理到最终的分析和可视化,都能够有详尽的介绍。我特别想了解他们是如何处理半结构化和非结构化数据的,这在实际工作中常常是一个巨大的挑战。同时,我也非常关心书中对于数据治理、数据安全和隐私保护方面的探讨,毕竟随着数据规模的不断扩大,这些问题也变得越来越重要。我希望能够从书中学习到一些行之有效的方法,来确保数据的质量、合规性和安全性。
评分这本书的标题实在太吸引人了,尤其是“大数据之路”这几个字,让我觉得它不仅仅是一本技术书籍,更像是一段探索和进阶的旅程。我一直对阿里巴巴在数据领域的强大实力非常好奇,他们是如何处理如此海量的数据,又如何从中挖掘出商业价值的?这本书的副标题“阿里巴巴大数据实践”和“全面系统介绍阿里巴巴大数据系统结构”更是让我充满了期待,希望能借此机会深入了解他们是如何构建和运维庞大的数据基础设施的,包括各种存储、计算、分析和可视化工具,以及它们之间是如何协同工作的。我对其中的具体技术栈,比如Hadoop、Spark、Flink、Hive、MaxCompute等等都充满了兴趣,想知道阿里巴巴是如何将这些技术巧妙地融合,形成一套高效、稳定、可扩展的大数据解决方案的。此外,我也很想了解他们在大数据应用方面有哪些成功的案例,比如如何利用数据来优化用户体验、驱动业务增长、提升运营效率等等,这些都是我非常想学习和借鉴的。这本书的“正版包邮”也让我感到很安心,毕竟正版书籍在内容质量上更有保障,而且包邮也很贴心,减少了购买的顾虑。总而言之,我希望这本书能为我揭示阿里巴巴在大数据领域的“独门秘籍”,让我能够站在巨人的肩膀上,更好地理解和掌握大数据技术,并将其应用到自己的学习和工作中。
评分我一直对大数据的概念感到既熟悉又陌生,虽然日常工作中经常听到“大数据”,但对其内在的运作机制和实际的应用场景却知之甚少。这本书的出现,恰好填补了我在这方面的知识空白。我特别关注的是书中对于“系统结构”的介绍,这正是我一直以来想要弄清楚的关键。我想了解,一个真正的大数据系统,它的底层架构是怎样的?数据是如何从各个来源汇聚进来,经过怎样的处理流程,最终被分析和利用的?书中是否会详细讲解数据采集、数据存储、数据计算、数据治理等各个环节的关键技术和最佳实践?我对阿里巴巴作为国内互联网巨头,其大数据系统的规模和复杂度一定非同寻常,所以,我希望这本书能够以一种非常清晰、有条理的方式,将这个庞大的系统“解剖”开来,让我能够逐层深入地理解其精髓。同时,我也很期待书中能够提供一些实际的“实践”经验,不仅仅是理论的堆砌,更希望能够看到一些在实际项目中遇到的挑战、解决方案以及从中总结出的宝贵教训,这样才能真正做到学以致用,将书中的知识转化为解决实际问题的能力。
评分讲解的很详细,对技术解读全面
评分值得拥有
评分要好好学习一下
评分不错,快递服务好
评分稍微翻了一下,干货很多,值得购买的一本好书
评分不错,快递服务好
评分了解一下了解一下
评分值得拥有
评分写的不错,很实用,调理很清晰!多对学习!!
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有