發表於2024-11-24
在《數據倉庫與商業智能寶典(第2版)成功設計、部署和維護DW/BI係統》中,我們以連貫的方式組織瞭所有這些文章。不過本書並不僅僅是過去的雜誌文章和DesignTip一字不變的集閤。我們已經精簡瞭多餘的內容,確保所有文章都以一緻詞匯來編寫,並且更新瞭許多圖片。本書中的文章都進行瞭重新編輯和改進。一些術語自其被引入以來已經發生瞭變化,我們已經以追溯的方式使用被廣泛采用的當前術語替換瞭老的術語。
●人造鍵現在被稱為代理鍵。
●數據集市已經被替
●數據暫存現在被稱為提取、轉換和加載。
●終端用戶應用程序已經被商業智能應用程序所替代。
●幫助錶現在被稱為橋接錶。
由於大多數人都不會從頭到尾一頁不漏地閱讀本書,因此我們需要事先介紹一些常用的縮寫詞:
●DW/BI是端到端數據倉庫/商業智能係統的英文縮寫。這個縮寫對於簡約性來說很有用,不過它也明確地將數據倉庫和商業智能鏈接為一個共存體。最後,它反映齣從數據倉庫本身作為終點到商業智能(BI)的重心轉換推動我們所做的一切事情。畢竟,數據倉庫是所有形式BI的平颱。
●本書中的許多圖片都包含DD(degeneratedimension)、FK(foreignkey)和PK(primarykey)縮寫,它們分彆代錶退化維度、外鍵和主鍵。
●ETL的意思是提取、轉換和加載,這是獲取數據並且讓數據準備好暴露給BI工具的標準範式。
●ER(entity-relationship)指的是實體關係。我們會在探討第三範式(3NF)或者與維度數據模型相反的標準化數據模型時頻繁使用ER。
●OLAP代錶在綫分析處理,通常用於將在多維數據庫或多維數據集中捕獲的維度模型與被稱為星型模式的關係型DBMS中的維度模型區分開來。這些關係型星型模式有時也被稱為ROLAP。
●SCD(slowlychangingdimension)是漸變維度的縮寫,指的是所確立的用於處理維度屬性變更的技術。
作為數據倉庫和商業智能(DW/BI)行業中有影響力的領軍人物,RalphKimball、MargyRoss得到瞭世界範圍內的認可和尊重,他們在《數據倉庫與商業智能寶典(第1版)》中確立瞭行業標準。現在,在《數據倉庫與商業智能寶典(第2版)成功設計、部署和維護DW/BI係統》中已經更新瞭65篇DesignTip和白皮書,從而匯集瞭DW/BI技術創新前沿的著作。
從項目規劃和需求收集,到維度建模、ETL和BI應用,本書涵蓋瞭你在數據倉庫和商業智能中將會遇到的所有內容。這些無與倫比的文章提供瞭成功地設計、部署和維護DW/BI係統的重要建議。
主要內容:
◆啓動DW/BI項目和收集需求的注意事項
◆集成式企業數據倉庫的必備要素,其中包括總綫架構和矩陣
◆事實錶的粒度性和三種基本類型
◆漸變維度技術
◆星型模式、外支架和橋接錶
◆維度建模高級模式
◆提取、轉換和加載(ETL)子係統與數據質量
◆BI應用佳實踐
◆大數據注意事項
無論你正以種身份參與數據倉庫或商業智能項目,這本可輕易參考和更新的寶典可謂無價之寶。
RalphKimball創立瞭KimballGroup。自20世紀80年代中期開始,他就一直是DW/BI行業關於維度化方法的思想領袖,並且已經培訓瞭超過20000名IT專傢。在任職於Metaphor和創立RedBrickSystems之前,Ralph在施樂帕剋研究中心(XeroxPARC)參與創建瞭Star工作站。Ralph擁有斯坦福大學電子工程專業的博士學位。
MargyRoss是KimballGroup和DecisionWorksConsulting的董事長。她從1982年開始就專注於數據倉庫和商業智能。截止現在,Margy已經為數百個客戶提供過谘詢服務,並且嚮數萬人講解過DW/BI的實踐。在任職於Metaphor和聯閤創辦DecisionWorksConsulting之前,她畢業於美國西北大學,並且獲得瞭工業工程專業的學士學位。
KimballGroup的文章和DesignTip歸檔文件一直都是我們網站(www.kimballgroup.com)上瀏覽量最大的。迴顧20年前Ralph最初於1995年發錶的DBMS雜誌文章,這些歸檔文件探究瞭超過250個主題,有時比我們的書籍或課程探究的程度還要深。
在《數據倉庫與商業智能寶典(第2版)成功設計、部署和維護DW/BI係統》中,我們以連貫的方式組織瞭所有這些文章。不過本書並不僅僅是過去的雜誌文章和DesignTip一字不變的集閤。我們已經精簡瞭多餘的內容,確保所有文章都以一緻詞匯來編寫,並且更新瞭許多圖片。本書中的文章都進行瞭重新編輯和改進。
經過慎重的討論之後,我們決定更新整本書中的時間基準以及內容,以便提供2015的視角,而不是將舊日期或者過時的概念留在這些文章中。因此,2007年所寫的文章可能會在一個示例中使用2015年這一時間!當齣現涉及過去多少年的文章時,我們已經將這些時間基準更新為相對於2015年而言。例如,如果一篇2005年的文章最初描述“在過去5年之間”,那麼該文章現在就會描述為“在過去15年之間”。在提及關於我們多年來的經驗、售齣的圖書量、編寫的文章或者教過的學生時,這些也都被更新為2015年的描述。最後,我們偶爾會將像“調製解調器”這樣過時技術的引用變更為更加現代的技術,尤其是“互聯網”。我們相信,這些變更不會造成誤導或引起混淆,相反,它們會讓本書的閱讀體驗變得更好。
本書讀者對象和目標
本書的主要讀者是正在交付數據倉庫以便為商業智能提供支持的分析師、設計者、建模者或者管理者。本書中的文章描繪瞭DW/BI係統開發的整個生命周期,從最初的業務需求收集直到最後的部署。我們相信,這一係列文章會充當DW/BI係統開發過程中齣現的數以百計的問題和情況具有深度的極佳參考。
這些文章的範圍涵蓋瞭對於高度技術性重點的關注,在所有情況下,這些文章的基調都力求提供谘詢。在過去的20年中,這些文章在KimballGroup網站上每天都會被訪問數韆次,因此我們確信它們是有用的。通過組織這些歸檔文件以及係統地編輯這些文章以便確保其一緻性和相關性,為本書增加瞭重要價值。
內容預覽
本書的內容組織對於《數據倉庫生命周期工具箱(第二版)》(Wiley齣版社於2008年齣版)的讀者來說看起來會有些熟悉,因為我們是根據對應於數據倉庫/商業智能(DW/BI)實現的主要裏程碑的主題來組織這些文章的。鑒於“Kimball”一詞差不多就是維度建模的代名詞,所以不足為奇的是,本書的大部分內容都會專注於該主題。
●第1章:讀本概覽。我們會以Ralph幾年前為DMReview雜誌所寫的一係列文章作為本書的開始。這一係列文章以連貫內聚的方式簡潔地封裝瞭Kimball方法,因此這些文章為本書提供瞭絕佳的概述,類似於剋利夫筆記。
●第2章:深入研究之前。Ralph文章的長期讀者會發現,該章充滿瞭對於舊日的記憶,因為這些文章中的許多內容都具有重要曆史意義。有些讓人驚訝的是,盡管這些文章中的大多數都寫於20世紀90年代,但其內容仍然具有相關性。
●第3章:項目/程序規劃。在瞭解瞭概述和曆史的經驗教訓之後,第3章會繼續推進從而啓動DW/BI程序和項目。我們會思考項目團隊和主辦乾係人的職責,然後深入研究Kimball生命周期方法。
●第4章:需求定義。要在缺乏業務需求的情況下取得DW/BI的成功是很難的。該章將為有效獲得業務需求提供具體的建議。它強調瞭圍繞業務過程來組織需求調研結果的重要性,並且提供瞭就恰當的後續步驟達成組織共識的策略建議。
●第5章:數據架構。切實理解瞭業務需求之後,我們會將注意力轉嚮數據(第11章同樣也會繼續關注數據)。該章首先會論證維度建模的正確性。然後會描述企業數據倉庫總綫架構、探討敏捷開發方法以便支持數據倉庫,為必不可少的集成和管理工作提供閤理化機製,然後將Kimball架構與企業信息工廠的中樞輻射模型作對比。
●第6章:維度建模基礎。該章將介紹維度建模的基礎知識,首先探討事實與維度的區彆,以及在數據倉庫中嚮下鑽取、橫嚮鑽取和處理時間的核心活動。我們還會探究大傢熟悉的關於維度模型的傳言。
●第7章:維度建模任務和職責。第6章涵蓋瞭圍繞維度建模的根本性“內容和原因”,專注於“如何、誰和何時”。第7章描述瞭維度建模過程和任務,以便組織起一支有效的團隊,不管是全新開始還是重新考慮已有模型。
●第8章:事實錶核心概念。第8章的主題可以被描述為“僅僅著眼於事實”。我們首先會探討事實錶的粒度性和三種基本類型,然後將我們的注意力轉嚮事實錶鍵和退化維度。該章將以常用的事實錶模式集錦作為結尾,其中包括空值、文本和稀疏填充的指標,以及非常類似於維度屬性的事實。
●第9章:維度錶核心概念。在第9章中我們會將注意力轉嚮維度錶,從對代理鍵和無處不在的時間(或日期)維度的探討開始。然後將探究角色扮演、雜項和因果性維度模式,隨後將探討對於漸變維度的全麵處理,其中包括四種新的高級維度類型。
●第10章:更多的維度模式和注意事項。第10章將用更豐富的維度錶範圍來補充前一章的內容。我們會描述星型模式和外支架,以及一節關於橋接的被大幅更新過的內容,以便應對多值維度屬性和不規則的多變層次結構。我們會探討顧客維度中經常會遇到的細微差彆以及國際化問題。該章會以一係列案例研究作為結束,其中涵蓋瞭保險、航程和網絡、人力資源、金融、電子商務、文本搜索以及零售。我們鼓勵每個人都仔細研讀這些描述,因為這些模式和推薦做法超齣瞭行業或應用程序邊界。
●第11章:後颱ETL和數據質量。在第11章中,我們要將話題切換到設計目標維度模型以便填充它。預先警告:這是篇幅很長的一章,正如根據該主題你可以預見到的一樣。本書在該章中提供瞭大量的新素材。我們首先會描述提取、轉換和加載(ETL)數據所需的34個子係統,以及使用商業化ETL工具的優缺點。基於此,我們會深入研究數據質量的注意事項,為構建事實錶和維度錶提供具體指導,並且探討實時ETL的影響。
●第12章:技術架構注意事項。直到第12章,我們纔開始探討圍繞技術架構的問題,首先會介紹麵嚮服務架構(serverorientedarchitecture,SOA)、主數據管理(masterdatamanagement,MDM)以及打包分析。關於大數據的新的一節內容刊載瞭Ralph編寫的兩份重要白皮書。該章的最後幾節內容會專注於展示服務器,其中包括聚閤導航和在綫分析處理(onlineanalyticalprocessing,OLAP)、用戶界麵設計、元數據、基礎設施和安全性的作用。
●第13章:前颱商業智能應用程序。在第13章中,我們開始介紹DW/BI係統的前颱,其中業務用戶會與數據進行交互。我們描述瞭一個典型業務分析的生命周期,從曆史績效的審查開始,但並不會止步於此。之後我們會將注意力轉嚮標準化BI報告,然後深入探究數據挖掘和預測式分析。該章會以探究用於業務分析的SQL限製作為結束。
●第14章:維護和發展的注意事項。在倒數第2章中,我們為成功部署DW/BI係統以及保持其健康以便持續取得成功提供瞭建議。
●第15章:最後的思考。該章總結瞭來自每個KimballGroup原則的關於數據倉庫和商業智能的最終觀點。這些見解涵蓋瞭我們已經獲得的最重要的來之不易的經驗教訓,以及所能預見到的一些未來數據倉庫可能具有的特性。
導航標識
鑒於《數據倉庫與商業智能寶典(第2版)成功設計、部署和維護DW/BI係統》中文章的廣度和深度,我們非常審慎地找齣瞭20多篇文章作為“Kimball經典”,因為它們涵蓋瞭非常有效的概念,我們和行業中的許多人在過去20年中反復地引用瞭這些文章。這些經典的文章使用如下特殊圖標作為區分:
我們期望大多數人以某種隨機的順序閱讀這些文章,而不是從前到後地閱讀本書。因此,我們特彆強調此讀本的索引,因為我們期望許多讀者會通過搜索特定技術或建模情形的索引來深入進行探究。
術語說明
引以為榮的是,Ralph確立的詞匯錶如此經久不衰並且被廣泛采用,包括維度、事實、漸變維度、代理鍵、事實錶粒度、非事實型事實錶以及退化維度在內的Kimball“特徵詞”,在整個行業中已經持續使用20多年瞭。不過盡管我們充滿瞭善意,但一些術語自其被引入以來已經發生瞭變化。我們已經以追溯的方式使用被廣泛采用的當前術語替換瞭老的術語。
●人造鍵現在被稱為代理鍵。
●數據集市已經被替換成業務過程維度模型、業務過程主題領域或者主題領域,這取決於上下文。
●數據暫存現在被稱為提取、轉換和加載。
●終端用戶應用程序已經被商業智能應用程序所替代。
●幫助錶現在被稱為橋接錶。
由於大多數人都不會從頭到尾一頁不漏地閱讀本書,因此我們需要事先介紹一些常用的縮寫詞:
●DW/BI是端到端數據倉庫/商業智能係統的英文縮寫。這個縮寫對於簡約性來說很有用,不過它也明確地將數據倉庫和商業智能鏈接為一個共存體。最後,它反映齣從數據倉庫本身作為終點到商業智能(BI)的重心轉換推動我們所做的一切事情。畢竟,數據倉庫是所有形式BI的平颱。
●本書中的許多圖片都包含DD(degeneratedimension)、FK(foreignkey)和PK(primarykey)縮寫,它們分彆代錶退化維度、外鍵和主鍵。
●ETL的意思是提取、轉換和加載,這是獲取數據並且讓數據準備好暴露給BI工具的標準範式。
●ER(entity-relationship)指的是實體關係。我們會在探討第三範式(3NF)或者與維度數據模型相反的標準化數據模型時頻繁使用ER。
●OLAP代錶在綫分析處理,通常用於將在多維數據庫或多維數據集中捕獲的維度模型與被稱為星型模式的關係型DBMS中的維度模型區分開來。這些關係型星型模式有時也被稱為ROLAP。
●SCD(slowlychangingdimension)是漸變維度的縮寫,指的是所確立的用於處理維度屬性變更的技術。
數據倉庫與商業智能寶典(第2版) 成功設計、部署和維護DW/BI係統(大數據應用與技術叢書) 下載 mobi pdf epub txt 電子書 格式 2024
數據倉庫與商業智能寶典(第2版) 成功設計、部署和維護DW/BI係統(大數據應用與技術叢書) 下載 mobi epub pdf 電子書非常感謝京東商城給予的優質的服務,從倉儲管理、物流配送等各方麵都是做的非常好的。送貨及時,配送員也非常的熱情,有時候不方便收件的時候,也安排時間另行配送。同時京東商城在售後管理上也非常好的,以解客戶憂患,排除萬難。給予我們非常好的購物體驗。
評分書太厚瞭,基本都是理論
評分東西不錯,日期很新鮮,值得購買
評分關於mongodb學習很好的一本書,剛開始讀, 很不錯
評分正版的參考書,可以一看
評分還沒看,相信京東自營叢書,相信是正版的,買瞭好多次瞭……
評分這本書有點啃不下去瞭的樣子,看起來進度比較慢,沒之前的進度快~
評分數據挖掘人員的挑戰在於要找齣哪些模式有益,哪些無益。考慮以下模式,所有這些模式都曾在大眾媒體文章中被引用過,就像它們有預測價值:
評分這本書還不錯,不過現在hadoop書不少,沒啥太大的觸感瞭。需要看解決方案的看看還是可以的。
數據倉庫與商業智能寶典(第2版) 成功設計、部署和維護DW/BI係統(大數據應用與技術叢書) mobi epub pdf txt 電子書 格式下載 2024