发表于2024-11-23
随着TheDataWarehouseToolkit(1996)第1版的出版发行,RalphKimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度建模技术、模式和实践的资源。
本书汇集了到目前为止最全面的维度建模技术。《大数据应用与技术丛书·数据仓库工具箱(第3版):维度建模指南》采用新的思路和实践对上一版本进行了全面修订,给出了设计维度模型的全面指南,既适合数据仓库新手,也适合经验丰富的专业人员。
本书涉及的所有技术都基于作者实际从事DW/BI的设计经验,通过实际案例加以描述。
主要内容
◆实用设计技术——有关维度和事实表的基本和高级技术
◆14个案例研究,涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等
◆为12个案例研究提供了数据仓库总线矩阵示例
◆需要避免的维度建模陷阱和错误
◆增强的缓慢变化维度(SCD)技术类型0~类型7
◆用于处理参差不齐的可变深度层次和多值属性的桥接表
◆大数据分析的实践
◆与业务参与方合作、交互设计会议的指南
◆有关KimballDW/BI项目生命周期方法论的概论
◆对ETL系统和设计思考的总结
◆构建维度和事实表的34个ETL子系统和技术
Ralph Kimball,是Kimball集团的创建者。从20世纪80年代中期以来,他一直是数据仓库和商业智能行业维度建模方法的思想开拓者。大量IT专业人士接受过其教育。自1996年以来,由他及其同事们所撰写的工具箱系列书籍一直是最受读者青睐的书籍。Ralph Kimball曾就职于Metaphor并建立了RedBrick系统,他在施乐PaloAlto研究中心(PARC)工作期间,与他人一起共同发明了星型工作站,这是利用视窗、图标和鼠标的商业产品。Ralph Kimball毕业于斯坦福大学电子工程系并获得博士学位。
Margy Ross,是Kimball集团总裁。自1982年以来,她主要关注数据仓库和商业智能,强调业务需求和维度建模的重要性。与Ralph Kimball-样,Margy Ross也为许多学生讲授过维度设计实践,她与Ralph Kimball合作,共同撰写了5本工具箱序列书籍。Margy Ross曾工作于Metaphor并与他人共同创立了DecisionWorks咨询公司。她毕业于美国西北大学工业工程系并获得硕士学位。
第1章 数据仓库、商业智能及维度建模初步
1.1 数据获取与数据分析的区别
1.2 数据仓库与商业智能的目标
1.3 维度建模简介
1.3.1 星型模式与OLAP多维数据库
1.3.2 用于度量的事实表
1.3.3 用于描述环境的维度表
1.3.4 星型模式中维度与事实的连接
1.4 Kimball的DW/BI架构
1.4.1 操作型源系统
1.4.2 获取.转换_加口载(ETL)系统
1.4.3 用于支持商业智能决策的展现区
1.4.4 商业智能应用
1.4.5 以餐厅为例描述Kimball架构
1.5 其他DW/BI架构
1.5.1 独立数据集市架构]
1.5.2 辐射状企业信息工厂Inmon架构
1.5.3 混合辐射状架构与Kimball架构
1.6 维度建模神话
1.6.1 神话1:维度模型仅包含汇总数据
1.6.2 神话2:维度模型是部门级而不是企业级的
1.6.3 神话3:维度模型是不可扩展的
1.6.4 神话4:维度模型仅用于预测
1.6.5 神话5:维度模型不能被集成
1.7 考虑使用维度模型的
更多理由
1.8 本章小结
第2章 Kimball维度建模技术概述
2.1 基本概念
2.1.1 收集业务需求与数据实现
2.1.2 协作维度建模研讨
2.1.3 4步骤维度设计过程
2.1.4 业务过程
2.1.5 粒度
2.1.6 描述环境的维度
2.1.7 用于度量的事实
2.1.8 星型模式与OLAP多维数据库
2.1.9 方便地扩展到维度模型
2.2 事实表技术基础
2.2.1 事实表结构
2.2.2 可加、半可加、不可加事实
2.2.3 事实表中的空值
2.2.4 一致性事实
2.2.5 事务事实表
2.2.6 周期快照事实表
2.2.7 累积快照事实表
2.2.8 无事实的事实表
2.2.9 聚集事实表或OLAP多维数据库
2.2.1 0合并事实表
2.3 维度表技术基础
2.3.1 维度表结构
2.3.2 维度代理键
2.3.3 自然键、持久键和超自然键
2.3.4 下钻
2.3.5 退化维度
2.3.6 非规范化扁平维度
2.3.7 多层次维度
2.3.8 文档属性的标识与指示器
2.3.9 维度表中的空值属性
2.3.10 日历日期维度
2.3.11 扮演角色的维度
2.3.12 杂项维度
2.3.13 雪花维度
2.3.14 支架维度
2.4 使用一致性维度集成
2.4.1 一致性维度
2.4.2 缩减维度
2.4.3 跨表钻取
2.4.4 价值链
2.4.5 企业数据仓库总线架构
2.4.6 企业数据仓库总线矩阵
2.4.7 总线矩阵实现细节
2.4.8 机会/利益相关方矩阵
2.5 处理缓慢变化维度属性
2.5.1 类型0:原样保留
2.5.2 类型1:重写
2.5.3 类型2:增加新行
2.5.4 类型3:增加新属性
2.5.5 类型4:增加微型维度
2.5.6 类型5:增加微型维度及类型1支架
2.5.7 类型6:增加类型1属性到类型2维度
2.5.8 类型7:双类型l和类型2维度
2.6 处理维度层次关系
2.6.1 固定深度位置的层次
2.6.2 轻微参差不齐/可变深度层次
2.6.3 具有层次桥接表的参差不齐/可变深度层次
2.6.4 具有路径字符属性的可变深度层次
2.7 高级事实表技术
2.7.1 事实表代理键
2.7.2 蜈蚣事实表
2.7.3 属性或事实的数字值
2.7.4 日志/持续时间事实
2.7.5 头/行事实表
2.7.6 分配的事实
2.7.7 利用分配建立利润与损失事实表
2.7.8 多种货币事实
2.7.9 多种度量事实单位
2.7.1 0年.日事实
2.7.1 1多遍SQL以避免事实表间的连接
2.7.1 2针对事实表的时间跟踪1
2.7.1 3迟到的事实
2.8 高级维度技术
2.8.1 维度表连接
2.8.2 多值维度与桥接表
2.8.3 随时间变化的多值桥接表
2.8.4 标签的时间序列行为
2.8.5 行为研究分组
2.8.6 聚集事实作为维度属性
2.8.7 动态值范围
2.8.8 文本注释维度
2.8.9 多时区
2.8.10 度量类型维度
……
第3章 零售业务
第4章 库存
第5章 采购
第6章 订单管理
第7章 会计
第8章 客户关系管理
第9章 人力资源管理
第10章 金融服务
第11章 电信
第12章 交通运输
第13章 教育
第14章 医疗卫生
第15章 电子商务
第16章 保险业务
第17章 KimballDW/BI生命周期概述
第18章 维度建模过程与任务
第19章 ETL子系统与技术
第20章 ETL系统设计与开发过程和任务
第21章 大数据分析
2.7.6分配的事实
头指针/行事务数据与对应的事实具有不同粒度这样的情况经常发生,例如,头表示货运费用。应该尽量分配头指针事实,使其基于业务所提供的规则划分为行级别,分配的事实可以按照所有维度进行分片并上钻操作。多数情况下,可避免建立头指针级别的事实表,除非这样的聚集能够获得查询性能的改善。
2.7.7利用分配建立利润与损失事实表
事实表揭示利润等价方程是企业DW/BI应用能够发布的最强大的结果。利润方程是:收入一开销=利润。理想地实现利润方程的事实表应为原子收入事务粒度并包含许多开销项。因为这些表处于原子粒度,才能实现数字化的上卷,包括客户利润,产品利润,促销利润,渠道利润等。然而,建立这些事实表存在一定难度,因为开销项必须从其原始来源划分到事实表粒度。这一分配步骤通常由ETL子系统完成,这一过程是一个与业务相关的步骤,需要高层经理的支持。出于以上原因,利润与损失事实表通常在DW/BI程序的早期实现阶段不会被处理。
2.7.8多种货币事实
以多种货币单位记录财务事务的事实表行应该包含一对列。其中一列包含以真实币种表示的事实,另外一列包含同样的,但以整个事实表统一的单一标准币种表示的事实。标准币种值在ETL过程中按照规定的货币转换规则建立。该事实表也必须有一个货币维度用于区分事务的真正货币。
2.7.9多种度量事实单位
某些业务过程需要事实同时以多种度量单位表示。例如,按照业务用户的观点,供应链可能需要对相同事实以平台、船运、零售以及单个扫描单元构建报表。如果事实表包含大量事实,而每个事实都必须以所有度量单位表示,此时较好的方法是将事实以公认的标准度量单位存储,同时存储标准度量与其他度量的转换系数。这种事实表可按照不同用户的观点部署,使用适当选择的转换系数。转换系数必须存储在事实表行中以确保计算简单正确,并尽量降低查询复杂性。
2.7.10年-日事实
商业用户在事实表中通常需要年.日(year-to-date,YTD)值。很难反对单个请求,但是YTD请求很容易变换为“财务周期结束时的YTD”或者“财务周期日”。一种更可靠、可扩展的处理这些请求的方法是在BI应用或OLAP多维数据库中计算YTD矩阵,而不是在事实表中查出YTD事实。
2.7.11多遍SQL以避免事实表间的连接
BI应用绝不应该跨事实表的外键处理两个事实表的连接操作。在关系数据库中,控制此类连接操作的回答集的基数是不可能的,将会产生不正确的结果。例如,如果两个事实表包含客户产品出货和返回,则这两个表不能按照客户和产品外键直接连接。要采用跨钻方式使用两个事实表,并对结果按照公共行头指针属性值,进行排序.融合操作以产生正确结果。
2.7.12针对事实表的时间跟踪
存在三种基本事实表粒度:事务级别、周期快照和累积快照。个别情况下,在事实表中增加行有效时期、行截止日期和当前行标识是非常有用的,与采用类型2缓慢变化维度,在事实行有效时获取时间的方式类似。尽管不太常用,但该模型能够解决诸如缓慢变化库存平衡的场景,其中频繁周期快照可以在每个快照上加载同一行。
……
自Ralph Kimball于1996年首次出版The Data Warehouse Toolkit(Wiley)一书以来,数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)行业渐趋成熟。尽管初期仅有部分大型公司采用,但从那时起,DW/BI逐渐为各种规模的公司所青睐。业界已建立了数以千计的DW/BI系统。随着数据仓库原子数据的不断增加以及更新越来越频繁,数据容量不断增长。在我们的职业生涯中,我们见证了数据库容量从MB到GB再到TB甚至PB的发展过程,但是,DW/BI系统面临的基本挑战并未发生重大变化。我们的工作就是管理组织中的数据并将其用于业务用户的决策制定过程中。总的来说,您必须实现这一目标,确保商务人士制定更好的决策,并从他们的DW/BI投资中获得回报。
自The Data Warehouse Toolkit第1版出版以来,维度建模作为一种主要的DW/BI展现技术受到广泛认可。从业者与学者都认识到数据展现要获得成功,就必须建立在简单性的基础之上。简单性是使用户能够方便地理解数据库,使软件能够方便地访问数据库的基础性的关键要素。许多情况下,维度建模就是时刻考虑如何能够提供简单性。坚定不移地回到业务驱动的场景,坚持以用户的可理解性和查询性能为目标,才能建立始终如一地服务于组织的分析需求的设计。维度建模框架将成为BI的平台。基于我们多年来积累的经验以及大量实践者的反馈,我们相信维度建模是DW/BI项目成功的关键。
维度建模还是建立集成化的DW/BI系统的主导结构。当您使用维度模型的一致性维度和一致性事实时,可以增量式地建立具有可实践的、可预测的、分布式的复杂DW/BI系统的框架。
尽管业界的一切始终在变化,但Ralph Kimball于17年前提出的核心维度建模技术经受住了时间的考验。诸如一致性维度、缓慢变化维度、异构产品、无事实的事实表以及企业数据仓库总线矩阵等概念仍然是全球范围内设计论坛所讨论的问题。最初的概念通过新的和互补的技术被逐渐完善并强化。我们决定对Kimball的书籍发行第3版,因为我们感到有必要将我们所收集到的维度建模经验汇集到一本书中。我们每个人都具有30年以上的关注决策支持、数据仓库和业务智能的经历。我们希望分享在职业生涯中反复利用的维度建模模式。本书还包含基于现实场景的特定的实践性的设计建议。
本书的目标是提供维度建模技术的一站式商店。正如书名所体现的那样,本书是一本维度设计原则和技术的工具箱。本书既能满足那些刚刚进入维度DW/BI行业的新手的需要,也描述了许多高级概念以满足那些长期战斗在这一行业的老手的需要。我们相信本书在维度建模主题方面所涵盖内容的深度是独一无二的。本书是权威性的指南。
预期读者
本书面向数据仓库和商业智能设计人员、实践人员和管理人员。此外,积极参与DW/BI项目的业务分析人员和数据管理者也会发现本书内容对他们来说是非常有益的。
即使您并未直接负责维度模型的开发工作,但我们相信熟悉维度建模的概念对项目组所有成员都是非常重要的。维度模型对DW/BI实现的许多方面都有影响,从业务需求的转换开始,通过获取、转换和加载(ETL)过程,最后到通过商业智能应用发布数据仓库的整个过程。由于涉及内容的广泛性,无论您是主要负责项目管理、业务分析、数据结构、数据库设计、ETL和BI应用,还是教育和支持,都需要熟悉维度建模。本书适合于方方面面的读者。
对那些已经阅读过本书前期版本的读者来说,在本书中将发现一些熟悉的案例研究,然而,这些案例都被更新了,增加了更丰富的内容,几乎每个案例都包括样例企业数据仓库总线矩阵。我们为新的主题区域(包括大数据分析)提供了相应内容。
本书内容偏向对技术的讨论。主要从关系数据库环境出发讨论维度建模,这一环境与联机分析处理(OLAP)存在的细微差别在适当之处都进行了说明。本书假定读者对关系数据库概念有一定的了解,例如表、行、键和连接等。鉴于我们在讨论维度模型时不采用某一特定的方法,所以不会就某一特定数据库管理系统具体的物理设计和调整指导展开深入的讨论。
各章预览
本书将围绕一系列商业场景或案例研究进行组织。我们相信通过实例来研究设计技术是最有效的方法,因为这样做可以使我们分享非常实际的指导以及现实世界的适用经验。尽管未提供完整的应用或业界解决方案,但这些案例可用来讨论出现在维度建模中的模式。据我们的经验来看,通过远离自己所熟悉的复杂问题,更容易抓住设计技术的要素。阅读过本书以前各版本的读者对这一方法的反应非常积极。
请注意我们在第2章未采用案例研究方法。鉴于Kimball集团所发明的维度建模技术得到行业的广泛认可,我们整理出了这些技术,并简短地进行了描述。尽管并不指望读者会像阅读其他章节那样从头到尾仔细阅读,但我们觉得这一以技术为中心的章节对读者来说是一种有益的参考。
除第2章以外,本书其他章节相互关联。我们以基本概念开始,随着内容的展开,介绍了更高级的内容。读者应该顺序阅读各章。例如,除非您阅读了第16章之前有关零售、采购、订单管理和客户关系管理的那几章的内容,否则很难理解第16章的相关内容。
对那些已经阅读过本书以前版本的读者来说,可能会忽略前面几章。尽管对前面的事实和维度比较熟悉,但不希望读者跳过太多的章节,否则可能会错过一些已经更新的基本概念。
第1章:数据仓库、商业智能及维度建模初步
本书以数据仓库、商业智能及维度建模入门开始,探讨了整个DW/BI结构的所有组件并建立了本书其他章节所用到的核心词汇。消除了一些有关维度建模的神化和误解。
第2章:Kimball维度建模技术概述
本章描述了超过75个维度建模技术以及模式。
第3章:零售业务
零售是用于描述维度建模的经典实例。我们之所以从该行业开始讨论是因为该行业为大众所熟悉。并不需要大家都对该行业有非常深入的了解,因为我们主要是希望通过该章的学习使大家能够关注核心的维度建模概念。该章以设计维度模型常用的4步过程开始,对维度表开展了深入的研究,包括贯穿全书反复使用的日期维度。同时,我们还讨论了退化维度、雪花维度以及代理键。即使您并不从事零售行业的工作,也需要仔细阅读这一章,因为该章是其他各章的基础。
第4章:库存
该章是对第3章零售业讨论的延伸,讨论了零售业的另一个案例,但请将注意力转移到零售业的另一个业务过程上。该章介绍了企业数据仓库总线架构以及具有一致性维度的总线矩阵。这些概念对那些希望建立集成的、可扩展的DW/BI架构的人来说是非常关键的一章。我们还讨论了三种基础类型的事实表:事务、周期快照和累积快照。
第5章:采购
该章强调了在构思DW/BI环境时,企业组织的价值链的重要性。我们还探讨了用于处理缓慢变化维度属性的一系列基础的和高级的技术;讨论了基本的类型1(重写)、类型2(增加行)和类型3(增加列),并在此基础上介绍了类型0,以及类型4~类型7。
第6章:订单管理
在研究该案例时,我们考察了在DW/BI系统中常常需要首先考虑实现的业务过程,因为这些过程支持核心业务性能度量——我们将哪些商品以何种价格卖给哪些顾客?讨论了在模式中扮演多种角色的维度。还讨论了在处理订单管理信息时,建模人员将会面对的常见挑战,例如,表头/列表项考虑、多币种或多种度量单位,以及五花八门的事务标识符的杂项维度等。
第7章:会计
该章主要讨论了建模数据仓库中的总账信息。描述了处理年度-日期(year-to-date)事实和多种财政日历,以及将多个业务过程中的数据合并到事实表的适当方法。还对维度属性层次提供了详细的指导,从简单的规范的固定深度层次到包含参差不齐的可变深度层次的桥接表。
第8章:客户关系管理
大量的DW/BI系统建立在需要更好地理解客户并向其提供服务的前提下。该章讨论了客户维度,包括标准化地址和处理多值维度属性的桥接表。该章还讨论了对复杂的客户行为建模的模式,以及如何从多个数据源中合并客户数据的方法。
第9章:人力资源管理
该章讨论了人力资源维度模型具有的几种特性,包括那些维度表行为类似事实表的情况。该章讨论了分析方案软件包,以及对递归管理层次及调查问卷的处理方法。对几种处理多值技能关键词属性的方法进行了比较。
第10章:金融服务
银行案例研究探讨了那些每个业务列表项具有特定描述性属性和性能度量的异构产品的超类和子类模式的概念。显然,并不是只有金融服务行业需要处理异构产品。该章还讨论了账户、客户和家庭之间所存在的复杂关系。
第11章:电信
该章从结构上来看与前几章有一些差别,主要是为了鼓励读 大数据应用与技术丛书·数据仓库工具箱(第3版):维度建模权威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Mod 下载 mobi epub pdf txt 电子书 格式
大数据应用与技术丛书·数据仓库工具箱(第3版):维度建模权威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Mod 下载 mobi pdf epub txt 电子书 格式 2024
大数据应用与技术丛书·数据仓库工具箱(第3版):维度建模权威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Mod 下载 mobi epub pdf 电子书给哥哥哥哥哥哥哥哥哥哥快手看看大家放假就放假放假就
评分之前同事推荐的书籍,感觉不错,比较偏实战
评分618活动中买的,很划算,书中内容还没有看,很期待学习这部分内容。这次购物,唯一的遗憾是外包装破了,那几天下大雨,还好书没有湿
评分书不错,就是因为是翻译的,有些地方语言表达比较难以理解
评分给公司同事买的 具体不知道质量怎么样
评分书挺好的,就是贵了点
评分还不错,价格还行吧
评分非常不错,性价比超高,值得信赖
评分书全新,但内容主要是数据库查询和EXCEL的,不是专业统计软件。纸箱不错,挺厚。
大数据应用与技术丛书·数据仓库工具箱(第3版):维度建模权威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Mod mobi epub pdf txt 电子书 格式下载 2024