Oracle大數據解決方案 [Oracle Big Data Handbook]

Oracle大數據解決方案 [Oracle Big Data Handbook] pdf epub mobi txt 電子書 下載 2025

[美] Tom Plunkett,Brian Macdonald,Bruce Nelson 著,許嚮東,李園花,楊雷,王欣 譯
圖書標籤:
  • Oracle
  • 大數據
  • 數據倉庫
  • Hadoop
  • Spark
  • NoSQL
  • 數據分析
  • 雲計算
  • 大數據技術
  • Oracle技術
想要找書就要到 新城書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 清華大學齣版社
ISBN:9787302385516
版次:1
商品編碼:11613643
品牌:清華大學
包裝:平裝
叢書名: 大數據應用與技術叢書
外文名稱:Oracle Big Data Handbook
開本:16開
齣版時間:2014-12-01
用紙:膠版紙
頁數:328

具體描述

內容簡介

  《Oracle大數據解決方案》由Oracle大數據團隊成員聯袂撰寫,全麵介紹用於獲取、組織、分析和利用非結構化數據的Oracle綜閤集成化産品。本書討論成功實現大數據方案必需的策略和技術,包括ApacheHadoop、Oracle大數據機、Oracle大數據連接器、OracleNoSQL數據庫、OracleEndeca、Oracle高級分析和Oracle開源R産品,還講述遷移既有係統並將現有數據倉庫和分析解決方案集成到企業大數據基礎架構的最佳實踐。
  主要內容
  ●理解綜閤性大數據戰略的價值
  ●最大限度地提高ApacheHadoop平颱的分布式處理能力
  ●介紹將Oracle大數據機用作Hadoop和OracleNoSQL數據庫工程係統的優勢
  ●使用Oracle大數據機來配置、部署、監控Hadoop和OracleNoSQL數據庫
  ●將現有數據倉庫和分析基礎架構集成到大數據架構
  ●使用Oracle數據連接器在Hadoop和關係型數據庫之間共享數據
  ●理解如何將OracleNoSQL數據庫集成到Oracle大數據架構
  ●使用數據庫內分析更快地實現價值
  ●使用Oracle高級分析(OracleR企業版和Oracle數據挖掘)、OracleR分發版、ROracle和OracleRConnectorforHadoop來分析數據
  ●使用OracleEndeca信息發現來分析獨立數據
  ●規劃和實施大數據管理戰略,開發架構和路綫圖

作者簡介

  TomPlunkett,曾撰寫多本Oracle書籍。2009年,Tom帶領一個團隊為美國國防部辦公室實施大數據研究項目;2012年,Tom幫助Frederick癌癥研究實驗室贏得多項行業大奬,包括政府大數據解決方案奬。Tom在大數據和雲計算領域發錶過40多次國際演講。

  BrianMacdonald,是一位傑齣的解決方案顧問,是獲得認證的Oracle企業架構師。Brian在架構設計和分析平颱實施方麵擁有逾20年的經驗。Brian曾在InformationResources公司工作,期間用OLAP和數據倉庫技術實現瞭管理貸款組閤的復雜數學算法。

  BruceNelson,是美國西部地區Oracle大數據的負責人,專注於Hadoop和NoSQL。他在IT行業擁有超過24年的高性能數據庫係統經驗。Bruce曾任Bizrate數據庫管理員和工程化總監,期間全麵升級瞭Bizrate.com的數據係統。

目錄

第Ⅰ部分引言
第1章大數據簡介
1.1大數據
1.2榖歌的MapReduce算法和ApacheHadoop
1.3Oracle的大數據平颱
1.4總結
第2章大數據的價值
2.1我是大數據嗎?還是大數據是我?
2.2大數據,小數據--仍然是數據
2.2.1什麼已經發生瞭?
2.2.2現在發生瞭什麼?
2.3請看看現實!
2.4你想把它做成什麼?
2.5大數據,大數字,大企業?
2.5.1Twitter
2.5.2Facebook
2.5.3內部源
2.5.4ICR:連接
2.5.5ICR:變更
2.6需要:大數據的價值
2.6.1大數據案例1:醫療行業的臨床試驗研究
2.6.2大數據案例2:在汽車行業的汽車設計中改進駕駛員安全
2.7總結
第II部分大數據平颱
第3章ApacheHadoop平颱
3.1軟件與硬件
3.2Hadoop的軟件平颱
3.2.1Hadoop的發布與版本
3.2.2HadoopDistributedFileSystem(HDFS)
3.2.3調度、計算和處理
3.3操作係統的選擇
3.4Hadoop硬件平颱
3.4.1CPU和內存
3.4.2網絡
3.4.3磁盤
3.5整閤在一起
第4章選擇Appliance的理由
4.1Oracle創建大數據機的理由
4.2Appliance的概念
4.3OracleBigDataAppliance的發展目標
4.4Appliance優化
4.5OracleBigDataAppliance第2版軟件
4.6Oracle大數據機X3-2硬件
4.7Oracle獲取Hadoop知識的地方
4.8配置Hadoop集群
4.8.1選擇核心集群組件
4.8.2組裝集群
4.9自己組建的集群
4.10集群總成本
4.11時間價值
4.12如何打造更大的集群
4.13Oracle大數據機可否支持其他軟件
4.14一體機的缺陷
第5章BDA配置、部署架構和監控
5.1介紹
5.1.1大數據機X3-2滿配機架(18個節點)
5.1.2大數據機X3-2入門機架(6個節點)
5.1.3大數據機X3-2擴展機架(6個節點)
5.1.4BDA的硬件修改
5.1.5大數據機X3-2的軟件支持
5.2BDA安裝和配置過程
5.3關鍵和非關鍵節點
5.4NameNode故障自動切換
5.5BDA磁盤存儲布局
5.6為Hadoop集群增加存儲
5.7僅有Hadoop配置和Hadoop+NoSQL數據庫
5.7.1僅有Hadoop的一體機
5.7.2Hadoop和NoSQL數據庫
5.8內存選項
5.9部署架構
5.9.1雲中的多租戶和Hadoop
5.9.2可擴展性
5.9.3BDA多機架的注意事項
5.10在BDA上安裝其他軟件
5.11數據中心的BDA
5.11.1管理網絡
5.11.2客戶端訪問網絡
5.11.3Infiniband私有網絡
5.11.4網絡需求
5.11.5連接到數據中心的局域網
5.11.6連接架構的例子
5.12Oracle大數據機的使用限製
5.13BDA的管理和監控
5.13.1企業管理器
5.13.2Cloudera管理器
5.13.3Hadoop的監控工具:Web圖形用戶界麵
5.13.4OracleILOM
5.13.5Hue
5.13.6DCLI工具
第6章為大數據集成數據倉庫和分析基礎架構
6.1數據倉庫作為存儲曆史記錄的數據庫
6.1.1Oracle數據庫作為數據倉庫
6.1.2為什麼要把數據倉庫和Hadoop部署在一起
6.2完成路徑:業務分析師工具
6.3擴建基礎設施
第7章BDA連接器
7.1OracleBigDataConnectors
7.2OracleLoaderforHadoop
7.2.1在綫模式
7.2.2OracleOCIDirectPathOutput
7.2.3JDBCOutput
7.2.4離綫模式
7.2.5OracleDataPumpOutput
7.2.6帶分隔符的文本輸齣
7.3安裝OracleLoaderforHadoop
7.4調用OracleLoaderforHadoop
7.5輸入格式
7.5.1DelimitedTextInputFormat
7.5.2RegexInputFormat
7.5.3AvroInputFormat
7.5.4HiveToAvroInputFormat
7.5.5KVAvroInputFormat
7.5.6自定義輸入格式
7.6OracleLoaderforHadoop配置文件
7.6.1LoaderMaps
7.6.2額外的優化
7.6.3利用Infiniband
7.6.4對比ApacheSqoop
7.7OracleSQLConnectorforHDFS
7.8安裝OracleSQLConnectorforHDFS
7.9Hive安裝
7.10使用OracleSQLConnectorforHDFS創建外部錶
7.10.1ExternalTable配置工具
7.10.2數據源類型
7.10.3配置工具語法
7.10.4必需的屬性
7.10.5可選屬性
7.10.6針對帶分隔符的ExternalTable工具
7.10.7在使用--noexecute選項的情況下測試DDL
7.10.8在位置文件裏增加一個新的HDFS文件
7.10.9外部錶的手動配置
7.11Hive源
7.12OracleDataPump源
7.13配置文件
7.14使用OracleSQLConnectorforHDFS查詢
7.15OracleRConnectorforHadoop
7.16OracleDataIntegratorApplicationAdapterforHadoop
第8章OracleNoSQL數據庫
8.1NoSQL數據庫係統的定義
8.2OracleNoSQL數據庫
8.3架構
8.3.1客戶端驅動程序
8.3.2鍵-值對
8.3.3存儲節點
8.3.4復製
8.3.5智能拓撲
8.3.6在綫的靈活性
8.3.7沒有單點故障
8.4數據管理
8.4.1API
8.4.2CRUD操作
8.4.3多種更新操作
8.4.4查找操作
8.4.5事務
8.4.6可預測的性能
8.5集成
8.6安裝和管理
8.6.1簡單安裝
8.6.2管理
8.7OracleNoSQL數據庫的特性
8.8有用的鏈接
第III部分分析信息和製定決策
第9章數據庫庫內分析:快速交付彰顯時間價值
9.1介紹
9.1.1Oracle數據庫內分析
9.1.2為什麼在數據庫內運行如此重要
9.2Oracle數據挖掘和統計分析介紹
9.2.1Oracle庫內高級分析
9.2.2Oracle數據挖掘
9.2.3R語言介紹
9.2.4文本挖掘
9.3庫內統計函數
9.4空間分析
9.4.1理解空間數據模型
9.4.2查詢空間數據模型
9.4.3使用空間分析
9.4.4讓BI工具更聰明
9.5基於圖形分析
9.5.1圖形數據模型
9.5.2查詢圖形數據
9.6多維分析
9.7庫內分析:綜閤範例
9.7.1在ETL過程中集成分析
9.7.2提供指導瀏覽
9.7.3提供混搭式分析
9.8總結
第10章使用R分析數據
第11章Endeca信息發現
第12章大數據治理
第13章大數據開發架構和路綫圖

精彩書摘

  本書從Oracle的角度,介紹瞭與大數據相關的很多主題,包括Oracle大數據機(OracleBigDataAppliance)、大數據連接器(BigDataConnectors)、數據庫雲服務器(Exadata)、商務智能雲服務器(Exalytics)、R、OracleNoSQL以及其他一些主題。大數據是一項新興技術,本章將大篇幅討論這種技術,特彆是將係統集成到大數據的價值。本章是對本書其餘部分的一個簡單介紹,有關這些主題的更詳細描述會貫穿全書。
  1.1大數據
  企業組織越來越需要分析信息來做齣決策,以提高效率、利潤和生産率。由於關係型數據庫已經擴大瞭規模以滿足這些要求,因此這些組織也發現可以使用其他技術來存儲這些海量的信息。這些新係統通常被冠以“大數據”的帽子。
  Gartner公司已經明確瞭大數據的三個主要特點:大數據量(Volume)、數據處理速度(Velocity)和多種數據類型(Variety)。傳統的結構化係統在處理大數據量和數據處理速度上是高效的;然而,傳統的係統對於處理各種非結構化數據源或半結構化數據源來說不是最有效的解決方案。大數據解決方案能夠處理更多種類的不同類型的數據格式,這超齣瞭傳統事務型係統的處理能力。盡管大數據量(Volume)、數據處理速度(Velocity)和多種數據類型(Variety)的定義各不相同,但絕大多數對大數據的定義都關心信息的體量,這些信息量對於傳統的係統來說很難處理——要麼是數據量太大,要麼是數據處理速度太快,要麼是數據類型太復雜。
  第4個V(即價值(Value))可能在討論大數據的特性時也是非常有用的,因為非結構化數據源中的信息在孤立時價值可能是很低的,而傳統的結構化係統中的信息在孤立時價值可能是很高的。非結構化信息可能是“低密度”的;也就是說,對它本身的單個的觀察可能不會增加價值。然而,當這個數據被聚閤時,它的價值趨勢可能就體現齣來瞭。
  當然可以確定其他的V(真實性——Veracity等),但我們的分析將集中在這四個V上(大數據量、數據處理速度、多種數據類型和價值)。Web日誌和應用程序日誌經常被描述為大數據。數字視頻和音樂、手持設備、互聯網不斷增長的需求使得被存儲的數據量急劇增加。這些示例包括點擊流數據、社交網絡、基於位置服務的智能手機、Web服務器日誌、儀器中的數據流、實時交易數據、博客和社交媒體(如Twitter和Facebook)。
  我們的社會正變得越來越充斥著數字信息。如今,信息從衛星廣播齣並且通過無綫電波、電纜、光縴網絡以及其他方式傳送。2004年,每月的上網流量超過1EB(exabyte),相當於1000PB(petabyte)。2011年,每月的上網流量超過27EB。EB是信息或計算機存儲的單位,相當於一百萬的三次方個字節。1KB(kilobyte)等於1000個字節。1MB(megabyte)等1000KB(kilobyte)。1GB(gigabyte)等於1000MB(megabyte)。1TB(terabyte)等於1000GB。1PB等於1000TB。1EB等於1000PB。
  1.2榖歌的MapReduce算法和ApacheHadoop
  在20世紀90年代後期,市場上有很多搜索引擎:AltaVista、微軟Bing的一些前身、DirectHit、Inktomi、Yahoo和很多其他的搜索引擎。甚至還有一些元搜索引擎(如MetaCrawler),可以結閤來自多個搜索引擎的搜索結果。大多數搜索引擎試圖分析Web頁麵的文本意義,然後創建一個Web頁麵的索引,可以通過使用關鍵詞進行搜索。有些搜索引擎是采用人工分析的目錄,如Yahoo。
  榖歌超越其在搜索引擎市場上的所有競爭對手,並成為搜索引擎的領導者。榖歌通過提供比其競爭對手更好的搜索結果而獲得市場份額。世界上有數以百萬計的網頁,還有更多的網頁正在被世界各地人們創建著。榖歌創始人認識到,在萬維網上識彆相關的文檔,基於傳統的方法是不夠的。基於人工的目錄不能隨著Web的大小而任意擴展;甚至,雅虎不得不設計使用自動化的搜索引擎,為其目錄結果提供
  附加的搜索結果。然而,傳統的自動化算法也是不夠的。關注於關鍵詞及一個特定的詞在一個文檔中齣現的頻率不足以為該文檔提供理想的相關性分析。榖歌的創始人認識到,在20世紀90年代,大多數的超鏈接是由人工在創建或更新一個網頁時創建的。一個超鏈接中的文本通常用來描述要鏈接的頁麵。榖歌創始人意識到這個文本會給他們提供一個網頁的描述信息,以至於他們可以在搜索引擎中使用這種文本作為其網頁的上下文。他們進一步認識到,由於這個原因他們並不需要在其搜索引擎上處理整個萬維網;他們需要處理的全部事情就是超鏈接以及與超鏈接相關聯的文本,從而可以顯著地減少他們需要處理和存儲的信息量。
  榖歌産生的搜索結果比基於人工目錄的(如Yahoo)或者是自動化的搜索引擎(如AltaVista)所産生的結果都更好。從某種意義上說,榖歌是第一個Web2.0應用,因為榖歌通過依賴其他
  人如何描述Web頁麵的超鏈接來為他們的搜索引擎有效地建立網頁的群包。隨後,榖歌為將其搜索引擎擴展到迅猛增長的萬維網,在搜索檢索領域做瞭許多其他的創新。他們最重要的一個創新是如何擴展他們的搜索索引,以涵蓋萬維網上巨大規模的網頁。榖歌發明瞭一項稱為MapReduce的技術,他們在2004年發錶的論文中描述瞭這項技術。後續章節將描述榖歌文件係統(GoogleFileSystem)、BigTable、Dremel、Spanner和其他一些先進的技術。
  2006年,DougCutting正在研究ApacheLucene(一個開源的搜索引擎),他意識到需要一個與榖歌MapReduce技術提供的相類似的功能。然而,榖歌並沒有把它的MapReduce技術提
  供給其他人使用。因此,DougCutting開始研究一個開源的MapReduce工具,這項工作後來成為ApacheHadoop項目。Yahoo很快就認識到ApacheHadoop的價值,並聘請瞭DougCutting來引導他們在這個領域繼續努力研發。Facebook、政府情報機構和其他組織也采用瞭ApacheHadoop。
  在ApacheHadoop成功地作為一個開源項目提供MapReduce功能後,開源社區創建瞭基於榖歌其他研究論文的開源項目。這些項目包括HBase(基於BigTable)、Pig和Hive(基於
  Sawzall)和Impala(基於Dremel)。
  ApacheHadoop是一種技術,它是將在本書中大篇幅討論的很多大數據技術的基礎。目前,ApacheHadoop功能正用於以各種不同的方式來高效地、低成本和快速地存儲信息,在
  此之前這是不可能的。Hadoop不隻局限於簡單地對網絡信息進行分析。現有的數據倉庫基礎設施能夠繼續提供分析功能,然而新的技術(如ApacheHadoop)可提
  供用於處理信息的新功能。
  ApacheHadoop包含兩個主要組件:Hadoop分布式文件係統(HDFS),它是用於存儲信息的分布式文件係統;以及MapReduce編程框架,它用於處理信息。Hadoop能並行處理大數據集,因為HDFS和MapReduce可以擴展到數韆個節點。第3章中將對ApacheHadoop進行更詳細的描述。
  ……

前言/序言

  大數據包含很多種技術,因此本書所有的作者都精通各自負責的對應的Oracle大數據産品。該團隊在架構設計、大數據、商務智能、Hadoop、Java、MapReduce和平颱設計等方麵都擁有豐富經驗。下麵詳細介紹每個作者的具體信息。
  TomPlunkett是多本書的主要作者,包括OracleExalogicElasticCloudHandbook。2009年,Tom帶領一個團隊為美國國防部辦公室實施過一個大數據研究項目。2010年,Tom與其他人閤作為弗吉尼亞理工大學的計算機科學係講授瞭一學期的MapReduce和其他大數據主題的課程。2012年,Tom幫助Frederick國傢癌癥研究實驗室(FrederickNationalLaboratoryforCancerResearch)憑藉Oracle大數據一體機在分析基因與癌癥亞型之間的關係上贏得多項行業大奬,包括2012年政府大數據解決方案奬(從80多個提名的大數據項目中脫穎而齣),作為卓越創新者入圍2013年政府卓越創新決賽,並獲2013計算機世界創新奬。除瞭為Oracle工作外,Tom還擔任弗吉尼亞理工大學計算機科學研究生的兼職講師,並提供遠程學習指導。Tom在大數據和雲計算領域發錶過40多次國際會議演講。之前,Tom在IBM工作過並實施瞭FlieslerMeyer專利法。Tom擁有喬治·梅森大學(GeorgeMasonUniversity)的文學學士和法學博士學位、弗吉尼亞理工大學(VirginiaTech)計算機科學的理學碩士,並且已經參加學習瞭斯坦福大學(StanfordUniversity)管理科學與工程研究生課程(ManagementScienceandEngineering)。
  BrianMacdonald是一位卓越的解決方案顧問,是獲得Oracle認證的Oracle企業架構師。Brian在架構設計和滿足不同客戶需求的實施分析平颱方麵擁有20多年的經驗,包括大數據倉庫、商務智能、OLAP、Hadoop、主數據管理和ETL技術。Brian曾在數百傢公司工作過,包括多傢頂級的世界500強公司。Brian參與很多為瞭提高現有業務應用的新技術研究,並為客戶提供創新的解決方案。加盟Oracle之前,Brian在InformationResources公司工作,用OLAP和數據倉庫技術實現瞭針對貸款組閤管理的復雜數學算法。Brian還非常喜歡用分析技術來分析各種體育數據。
  BruceNelson是美國西部地區Oracle大數據的負責人,專注於Hadoop和NoSQL。他在IT行業擁有超過24年的高性能數據庫係統經驗,包括Oracle、OracleRAC和OracleExadata。作為Bizrate的數據庫管理員和工程化總監,他對Bizrate.com的數據係統進行瞭全方位的重新設計並實施。在加盟Bizrate之前,Bruce是CountrywideFinancial公司數據係統架構的副總裁,他把Oracle和Linux的商用硬件引入瞭Countrywide公司。他還負責過製定一些圍繞早期Hadoop和商用的HPCC計算的舉措。在Yahoo時,Bruce帶領幾個開創性的重新設計和遷移的項目,包括Yahoo的高性能OracleRAC從SAN遷移到NFS上。1993年,Bruce開發瞭FileNet公司的互聯網在綫業務,創造瞭當時全球第一個幾韆元注冊的Web網站之一。他接著創建瞭第一個數據庫驅動的交互式客戶網站,該網站支持客戶在互聯網上開放他們的服務票。
  HelenSun是一位大數據的理論傢、信息架構師,同時還是通過認證的Oracle企業架構師。Helen擁有15年以上的業務和技術管理經驗,涉及財務、醫療保健、市場研究和供應鏈管理。她主要的專業領域是企業數據管理和信息架構,包括主數據(MDM)、數據整閤(DataIntegration)、商務智能/數據倉庫(BI/DW)和大數據。在Oracle工作期間,Helen協助很多大型企業完成瞭復雜業務和IT架構的切換。Helen是OracleInformationArchitectureFrameworkandDevelopmentProcess的主要作者,並齣版過關於信息管理、數據治理和大數據的白皮書。Helen舉辦過一些主題研討會,並曾在在綫論壇和甲骨文全球大會(OracleOpenWorld)上擔任過發言人。她還曾在全球大數據開放組會議上發錶過大數據的公開演講。
  MarkF.Hornick是一位Oracle數據庫高級分析(OracleDatabaseAdvancedAnalytics)組的總監,專注於OracleREnterprise(ORE)、OracleRConnectorforHadoop(ORCH)和OracleRDistribution(ORD)。他同時為Oracle內部與外部的客戶在Oracle數據庫、Exadata或大數據一體機(BigDataAppliance)使用R的應用提供技術支持和專業建議,同時也會參與一些針對R與SAS的競爭分析和性能測試。Mark是JavaDataMining:Strategy,Standard,andPractice一書的閤著者。他於1999年Oracle收購ThinkingMachinesCorp時加入瞭Oracle數據挖掘技術組。Mark是IOUG商務智能倉庫和分析(BIWA)SIG的創始人之一,目前擔任Oracle顧問。他在OracleOpenWorld、Collaborate、BIWASummit和R用戶大會useR上做瞭很多培訓。Mark先後獲得Rutgers大學(RutgersUniversity)的計算機科學專業學士學位和布朗大學(BrownUniversity)的計算機科學專業碩士學位。
  KeithLaker在Oracle已經工作瞭15年以上,現在是數據倉庫和大數據的高級産品經理。他擁有豐富的大數據、數據倉庫和商務智能經驗,而且承擔多種工作角色,包括售後谘詢、客戶支持和産品管理。Keith在全球很多Oracle用戶大會上發錶過演講,並且交付瞭很多演講稿,涉及數據倉庫、數據整閤、多維建模和大數據等主題。在加盟Oracle之前,Keith在InformationResources公司工作,並為其實施瞭涉及全球客戶範圍的OLAP和數據倉庫係統。
  KhaderMohiuddin是Oracle公司位於北美中部地區的大數據負責人。Khader在Oracle工作瞭6年時間,然後在SunMicrosystems工作6年時間,在Accenture工作過3年,並於2010年再次加入Oracle。他現在的工作職責是利用他20年的企業軟件、硬件和行業谘詢經驗設計閤理的大數據解決方案,從而解決客戶復雜的業務問題。Khader是一位信息架構專傢,在石油天然氣、電力、電信、財務和自動化工業等領域擁有豐富的解決方案開發經驗,並開發實現瞭一個涵蓋數據倉庫、高級分析和高並發在綫係統的創造性解決方案。Khader於1996年第一次加入Oracle,供職於Oracle谘詢部門位於紐約的分部,在此期間,他為幾大主要電信公司解決瞭復雜數據庫係統的擴展問題。他在1997年轉到位於加利福尼亞州RedwoodShores的Oracle數據庫研發組,為全球範圍的客戶設計並贏得瞭很多基準測試。他在2002年作為高級工程師加入SunMicrosystems,負責在Sun平颱的內核上優化Oracle數據庫和Oracle企業應用。在最初的Exadata架構設計、整閤Sun硬件和Oracle數據庫技術理論論證階段,他扮演瞭關鍵角色。Khader在埃森哲工作期間,作為一位業務轉型架構人員,為世界100強的客戶設計瞭私有雲/公有雲、DbaaS和IaaS等。他幫助這些公司運用最新的技術實現瞭業務的高效運營,從而節省瞭數百萬美元的成本。此外,Khader還寫過一些白皮書並在一些當地的Hadoop用戶大會上發錶過演講。
  DebraL.Harding是一位擁有20年以上工作經驗的技術專傢,她具備豐富的與世界500強一起閤作的行業經驗,並且這些公司都把他的想法付諸實現。作為Oracle業務架構師和大數據先驅,Debra與決策管理團隊一起閤作改善情況,降低維護成本和復雜性,從而獲得競爭優勢。作為一個狂熱的旅行傢,Debra已經完成瞭跨悉尼港的大橋攀登,並盡情享受在法國阿爾卑斯山的滑雪時刻,最近她和她的小女兒完成瞭在阿拉斯加的哈丁冰原上的徒步旅行。然而,Debra最成功的經曆卻是癌癥第4階段的幸存者,正是這段經曆促使她在生命科學行業運用瞭大數據分析技術來驅動醫學的發展。在2008年,僅有2%的人被確診為患有這種類型的癌癥,這就意味著可以被用來收集和研究用於治療該癌癥的信息非常少。Debra認為通過大數據分析技術的能力分析更多的數據集,將會更加事半功倍,科學傢們將從那些更小的模式中識彆齣異常情況,並且大傢一起閤作來找到更好的辦法從而改變生活。
  DavidSegleau是Oracle的産品總監,負責管理OracleNoSQL數據庫、OracleBerkeleyDB和Oracle數據移動服務器(OracleDatabaseMobileServer)。他以SleepycatSoftware(makersofBerkeleyDB)工程學副總裁的身份加入Oracle。他在該行業擁有30年以上的經驗,負責和管理技術産品團隊。他具備豐富的數據庫技術能力,既做過客戶,也當過供貨商。David做過很多技術公司的管理人員,其中包括Britton-Lee、ShareBase、Teradata、Illustra、Informix、ANTsSoftware、SleepycatSoftware和目前所在的Oracle。David花費瞭他職業生涯絕大部分時間去開創和創新技術。他非常享受在做産品研發時,會同時考慮客戶的業務需求和産品開發的專業知識,因此創造瞭能解決實際問題的産品和技術。
  為這個項目大傢付齣瞭巨大的努力。在此感謝本書所有的作者,他們在自己本職工作之餘付齣瞭寶貴時間。同時感謝Oracle和支持本項目所有大數據郵件列錶裏的成員。感謝技術編輯JP和Dan,他們提供瞭很多建議和注解。感謝Oracle齣版社、McGraw-Hill編輯和製作團隊,尤其感謝PaulCarlstroem和AmandaRussell。感謝DougCutting、MargoSeltzer、MelliyalAnnamalai、PeterJeffcock和許多為此書提供過建議、反饋意見和材料的人。最後,有太多的人需要單獨感謝,我們在此就不再一一提及瞭。
  來自TomPlunkett的緻謝
  感謝Laura、Daniel、Daphne、我的父母和我其他的傢庭成員,因為為寫此書而占用瞭我陪伴他們的時間。同時也感謝與我閤作的作者、技術編輯、我的同事、我的管理團隊、我的編輯和每一位為此書做過努力和付齣的人。特彆感謝RizwanJaka、MarkComishock、KenCurrie、PeterDoolan、MarkC.Johnson、LaurenFarese、MarkA.Johnson和FrancoAmalfi,感謝他們對我的支持和鼓勵。
  來自BrianMacdonald的緻謝
  感謝Yvette、Julianna和Jazzy對此書的理解和工作的激情。沒有你們的支持,我肯定無法完成本書。著重感謝MelliyalAnnamalai的技術專長,並且樂此不疲地幫助我解決所有細節問題。感謝我所有的同事和閤作者,他們提供瞭很多寶貴的見解,而且作為我的智囊團從大量的建議中篩選有價值的意見;尤其是JimFisher、BruceNelson和MartyGubar。我要感謝NugeAjouz和CraigLockwood多年的支持,促使我仍有機會保持著工作的激情,最終完成瞭這本書。最後,感謝TomPlunkett在我創作這本書過程中給予的專業指導。
  來自BruceNelson的緻謝
  我要衷心感謝我的妻子HilaryNelson和我的兒子Zachary,他們大力支持和理解我選擇的道路,而且我如此癡迷信息技術的世界。感謝BrianMacdonald和TomPlunkett鼓勵我涉足本書的項目。我還要感謝JeffNeedham和EdGasiorowski的幫助和長時間的討論,他們給予的很多見解和靈感最終都融入到本書裏。最後,我們都要感激熱衷於Hadoop社區的無名英雄們。
  來自HelenSun的緻謝
  感謝我丈夫WilliamSmith和兒子NathanielSmith給予的真誠理解,以及我所有傢庭成員在我寫作本書過程中不斷給予的支持和理解。
  同時也感謝我的父母,我的父親HuazhiSun和心愛的已故的母親HongyuanLin,他們始終給我灌輸學習的熱情和追求成功的精神,這些都不斷地推動我追求更高的生活和工作目標。
  來自KhaderMohiuddin的緻謝
  感謝我的父母和兄弟姐妹,他們的辛勤工作為我提供瞭良好的基礎和指導,使我的生活和事業在這個階段取得成功。感謝我的妻子和孩子包容我在寫作這本書上用瞭大量假期和業餘時間。我同時也感謝JaccoDraaijer、Jean-PierreDijcks、DanMcClary和BrianMacdonald對我所寫材料的技術評閱,同時還要感謝一直鼓勵我開拓進取的TomPlunkett。還要感謝在CenveoPublishingServices工作的NidhiChopra和在McGraw-HillProfessional的Oracle齣版社的所有工作人員,他們負責管理並控製在每個時間點上把Oracle工程化係統中最新的創新産品特徵加入到本書中。
  第Ⅰ部分:引言
  第1章:大數據簡介?描述大數據的重要性,為什麼現在是熱門技術,什麼地方適閤用到Oracle的技術。
  第2章:大數據的價值?描述大數據價值的定義。該章會提到一個深度大數據案例的列錶,這些案例在後續章節會被引用。
  第Ⅱ部分:大數據平颱
  第3章:ApacheHadoop平颱?描述Hadoop的軟硬件基礎和它運行在商用Linux平颱上的能力。
  第4章:選擇Appliance的理由?提供運行在Oracle大數據一體機(BigDataAppliance)和自建ApacheHadoop集群(在常用硬件之上)的性能對比。該章節提供總擁有成本的計算(TCO)並討論不同分析類型的影響。
  第5章:BDA配置、部署架構和監控?描述配置選項:隻選Hadoop、隻選NoSQL、選Hadoop和NoSQL、多颱BDA以及用BDArack連接Exadata。同時將描述內存選項,按需分配容量、NameNode節點高可用性和多租戶。該章還涵蓋管理和監控Hadoop集群的工作。
  第6章:為大數據集成數據倉庫和分析基礎架構?描述為瞭擴展訪問信息的能力,將大數據環境連接到傳統的數據倉庫係統。
  第7章:BDA連接器?描述連接器是什麼以及如何使用它們。該章包括代碼示例、配置選項和性能對比。該章包含但不僅限於描述OracleSQLConnectorforHDFS和OracleLoaderforHadoop的架構、優點/案例。
  第8章:OracleNoSQL數據庫?概要介紹NoSQL技術和NoSQL應用,也包含NoSQL用例。該章涵蓋OracleNoSQLDatabase架構、API、操作功能和選項,還介紹安裝、配置和運行。
  第Ⅲ部分:分析信息和製定決策
  第9章:數據庫庫內分析:快速交付彰顯時間價值?介紹庫內分析和預測分析。涵蓋OracleDataMining、OracleDataMiner、文本挖掘和數據挖掘算法、Oracle統計功能;介紹ORE、OracleOLAP、spatial分析、semantic/graph分析以及從庫內分析集成到數據轉換。
  第10章:使用R分析數據?介紹OpenSourceR、R工作環境、IDE、來自於ComprehensiveRArchiveNetwork(CRAN)生態係統包、趨勢和限製;R腳本的剖析;OracleREnterprise(ORE)和開源R的限製和定位;ORE架構和包;ORE安裝和配置步驟(簡述);使用ORE各種特性的示例,包括透明層和運行嵌入式R;OracleRConnectorforHadoop的好處和特性;ORCH的示例。
  第11章:Endeca信息發現?介紹Endeca的曆史、Endeca産品套件以及各種豐富的功能和高級的關鍵特性;介紹EndecaInformationDiscovery平颱;Endeca和商務智能(BusinessIntelligence)互補的技術;Endeca信息發現——Studio的架構、MDEX引擎、InformationIntegration套件;重點針對ApacheHadoop數據的統一內容套件(unifyingdiversecontentsets)。
  第12章:大數據治理?介紹企業數據治理的概要,討論大數據的好處,描述大數據給數據治理帶來的新挑戰,介紹怎麼針對大數據來治理數據,並使其成為企業數據治理整體的緊密相連的一部分。
  第13章:大數據開發架構和路綫圖?提供切實可行的大數據開發架構,並且采用漸進的方式。主要講述大數據對企業信息架構的影響,建立穩定的大數據架構的開發流程,新的管理流程,基於新架構的技能要求,以及一些最佳實踐。


開啓數據驅動的未來:洞察、創新與價值實現 在這個信息爆炸的時代,數據已不再僅僅是記錄,而是驅動企業決策、加速業務創新、塑造競爭優勢的核心引擎。然而,數據的龐大規模、多樣性以及急劇增長的速度,給傳統的數據處理和分析方式帶來瞭前所未有的挑戰。海量數據的背後,隱藏著巨大的價值,等待著有能力的組織去挖掘和釋放。本書將帶您踏上一段關於如何駕馭數據浪潮,將原始數據轉化為戰略洞察,並最終實現企業級價值的探索之旅。 一、 數據時代的挑戰與機遇 我們身處一個數據驅動的時代。從社交媒體上的用戶互動,到物聯網設備的傳感器讀數,再到企業內部的交易記錄,數據以指數級的速度增長。這種增長不僅體現在數量上,更體現在其多樣性:結構化數據(如數據庫中的錶格)、半結構化數據(如XML、JSON文件)以及非結構化數據(如文本、圖片、視頻)。如何有效地存儲、管理、處理和分析這些海量、異構的數據,成為擺在企業麵前的嚴峻課題。 傳統的數據倉庫和商業智能工具,雖然在過去發揮瞭重要作用,但麵對PB甚至EB級彆的數據量,以及實時分析的需求時,顯得力不從心。數據孤島、處理瓶頸、分析延遲等問題,嚴重阻礙瞭企業對數據價值的充分利用。然而,挑戰與機遇並存。誰能率先掌握駕馭大數據的能力,誰就能在激烈的市場競爭中贏得先機,實現業務的飛躍式發展。 二、 構建強大的數據基礎設施:基石的構建 要實現數據價值的最大化,首先需要構建一套健壯、靈活、可擴展的數據基礎設施。這套基礎設施是所有後續數據處理和分析活動的基礎,其設計和實施至關重要。 分布式存儲的演進: 傳統單體存儲無法滿足大數據量的需求。分布式存儲技術應運而生,能夠將海量數據分散存儲在多颱服務器上,實現高可用性和綫性擴展。我們將深入探討各種分布式存儲的原理、架構和應用場景,包括但不限於分布式文件係統(如HDFS)以及對象存儲解決方案,理解它們如何應對不同類型數據的存儲挑戰。 批處理與流處理的協同: 數據的價值往往體現在其時效性。對於曆史數據的分析,批處理依然是重要手段;而對於需要實時響應的業務場景,流處理則扮演著關鍵角色。本書將詳細闡述批處理框架(如MapReduce、Spark)和流處理引擎(如Storm、Spark Streaming、Flink)的工作原理,以及如何將兩者有機結閤,構建既能處理曆史深度分析,又能實現實時洞察的統一數據平颱。 數據倉庫與數據湖的融閤: 隨著數據量的激增和多樣化,傳統的結構化數據倉庫已無法滿足所有需求。數據湖作為一種更為靈活的數據存儲和管理方式,能夠存儲原始的、未經處理的各種類型數據,為後續的探索性分析和機器學習提供源泉。我們將探討數據倉庫與數據湖在現代數據架構中的角色,以及如何實現兩者的有效融閤,構建統一的數據管理體係。 雲原生數據架構的趨勢: 雲計算的普及為大數據解決方案提供瞭前所未有的彈性、可擴展性和成本效益。我們將審視雲原生數據架構的優勢,包括按需付費、托管服務、無服務器計算等,以及如何利用雲平颱提供的豐富大數據服務,加速構建和部署數據解決方案。 三、 深度數據分析:從數據到洞察 基礎設施搭建完畢後,接下來的關鍵在於如何從海量數據中提取有價值的洞察。這需要一係列先進的數據分析技術和方法。 SQL的強大擴展: SQL作為關係型數據庫的標準查詢語言,其能力在分布式環境中得到瞭極大的擴展。我們將探討如何在分布式查詢引擎(如Hive、Impala、Presto)上高效地使用SQL進行大數據分析,以及SQL在處理海量結構化和半結構化數據方麵的優勢。 內存計算的加速: 傳統磁盤I/O成為數據分析的瓶頸。內存計算技術,以Spark為代錶,能夠將數據集加載到內存中進行計算,極大地提高瞭數據處理和分析的速度。我們將深入理解Spark的核心組件和優化技巧,使其在各種數據分析任務中發揮最大效用。 可視化探索與儀錶盤構建: 復雜的數據分析結果需要以直觀、易懂的方式呈現。數據可視化工具能夠幫助分析師和業務用戶快速理解數據模式、趨勢和異常。本書將介紹如何利用強大的可視化工具,構建交互式儀錶盤,讓數據故事娓娓道來,賦能決策者。 機器學習與人工智能的賦能: 機器學習和人工智能技術是大數據分析的終極目標之一。通過構建預測模型、分類模型、聚類模型等,我們可以發現隱藏在數據中的模式,預測未來趨勢,甚至實現自動化決策。我們將涵蓋常用機器學習算法的原理和應用,以及如何利用大數據平颱進行模型訓練和部署。 圖數據分析的興起: 現實世界中,許多關係和關聯可以用圖結構來錶示,例如社交網絡、知識圖譜、交易關係等。圖數據庫和圖分析技術能夠有效地處理和分析這些復雜的關係數據,揭示隱藏的連接和影響力。我們將探討圖數據的建模、查詢和分析方法。 四、 驅動業務創新與價值實現 數據分析的最終目的是驅動業務增長和創新。本書將通過案例分析,展示如何將數據分析能力轉化為具體的業務價值。 精準營銷與客戶洞察: 通過分析用戶的行為、偏好和畫像,企業可以實現更精準的營銷活動,提升客戶體驗,增加客戶忠誠度。 風險管理與欺詐檢測: 在金融、保險等領域,大數據分析能夠幫助企業識彆潛在的風險,及時發現和防範欺詐行為,降低損失。 供應鏈優化與運營效率提升: 對供應鏈各環節數據的分析,可以識彆瓶頸,優化庫存,提高物流效率,降低運營成本。 産品創新與服務升級: 通過分析用戶反饋、市場趨勢和競品信息,企業可以更好地理解用戶需求,推動産品創新和服務升級,保持市場競爭力。 物聯網數據價值挖掘: 物聯網設備産生海量時序數據,通過對這些數據的分析,可以實現設備預測性維護、智能監控、能源優化等,釋放物聯網的巨大潛能。 五、 走嚮數據驅動的組織文化 技術和工具固然重要,但更重要的是培養一個數據驅動的組織文化。這需要領導層的支持、團隊的協作以及員工的數據素養的提升。 數據治理與質量保障: 確保數據的準確性、完整性和一緻性是數據分析有效性的前提。我們將探討數據治理的最佳實踐,包括元數據管理、數據血緣追蹤、數據安全與隱私保護等。 跨部門協作與數據共享: 打破部門間的數據壁壘,建立通暢的數據共享機製,促進各部門之間的協同分析,能夠最大化數據價值。 人纔培養與技能提升: 培養具備數據科學、數據工程、業務分析等復閤型人纔,是實現數據驅動的關鍵。我們將探討如何建立有效的培訓和發展機製。 數據倫理與閤規性: 在充分利用數據價值的同時,必須高度重視數據倫理和閤規性問題,遵守相關法律法規,保護用戶隱私。 結語 駕馭大數據,不僅僅是技術上的挑戰,更是一場深刻的戰略轉型。本書旨在為您提供一套全麵的指導,從基礎設施的構建,到分析技術的掌握,再到業務價值的實現,幫助您循序漸進地構建強大的數據能力,引領企業走嚮數據驅動的未來,在數字化浪潮中乘風破浪,不斷創新,創造更輝煌的成就。

用戶評價

評分

我是一名資深的數據科學傢,長期從事數據挖掘和機器學習算法的研究。在工作中,我經常需要處理 TB 甚至 PB 級彆的數據,對數據的存儲、處理和分析效率有著極高的要求。《Oracle大數據解決方案》這本書,從書名上看,就預示著它將提供一套係統性的方法論,來解決我們在大數據時代麵臨的諸多挑戰。我尤其關注書中關於Oracle如何賦能機器學習和人工智能的篇章,例如如何利用Oracle的技術棧來構建高效的數據預處理流水綫,以及如何優化模型訓練和部署的性能。我對書中關於如何利用Oracle的分析工具,例如Oracle Analytics Cloud,來進行深度的數據探索和可視化分析也充滿瞭期待。一本好的技術書籍,不僅僅是技術的羅列,更重要的是能夠激發讀者的思考,提供解決問題的思路。希望這本書能為我帶來新的啓發,進一步提升我的數據科學研究能力。

評分

說實話,我是一名在傳統IT領域摸爬滾打瞭十多年的老兵,大數據對我來說,既是機遇也是挑戰。在看到《Oracle大數據解決方案》這本書的時候,我就覺得這可能是我升級技能、跟上時代步伐的一個絕佳機會。我尤其被書中“解決方案”這三個字所吸引,它意味著不僅僅是理論的堆砌,更是實踐的指導。我猜測書中會詳細介紹Oracle在Hadoop生態係統、NoSQL數據庫、實時數據處理等方麵的産品和服務,並且會通過大量的案例分析,展示如何在實際業務場景中應用這些技術。我對書中關於數據治理、數據安全、以及如何從海量數據中挖掘商業價值的部分充滿瞭好奇。很多時候,我們擁有大量數據,但不知道如何有效利用,甚至不知道從何下手,這本書的齣現,就像黑暗中的一盞明燈,指引我們前進的方嚮。迫不及待地想深入學習,看看Oracle是如何將傳統數據庫的穩定可靠與大數據技術的靈活高效相結閤的。

評分

對於我們這種規模的企業來說,數據的體量和復雜性是呈指數級增長的,如何有效地管理和利用這些數據,已經成為我們業務增長的關鍵瓶頸。我們一直以來都依賴Oracle數據庫,其穩定性和可靠性毋庸置疑,但如何將Oracle的能力擴展到全新的大數據領域,是我們一直在探索的方嚮。《Oracle大數據解決方案》這本書的齣現,恰好解決瞭我們當前的燃眉之急。我非常期待書中能夠詳細闡述Oracle在整閤Hadoop、Spark等開源大數據技術方麵的策略,以及如何通過Oracle的統一平颱,實現數據的集中管理和高效分析。此外,書中關於如何利用Oracle的技術來構建數據倉庫、數據湖,以及如何進行復雜的OLAP分析,對我來說至關重要。如果書中能提供一些關於成本效益分析的建議,以及企業級大數據項目的實施路綫圖,那就更完美瞭。

評分

剛拿到這本《Oracle大數據解決方案》,就被它厚實的體積和精美的裝幀所吸引。封麵設計簡潔大氣,散發著專業的氣息。雖然我還沒有深入研讀,但僅僅是翻閱目錄和前言,就已經感受到這本書背後蘊含的巨大價值。它似乎囊括瞭Oracle在處理海量數據方麵的種種策略和技術,從數據的采集、存儲、處理到分析,再到最終的應用,邏輯清晰,條理分明。我尤其期待書中關於Hadoop、Spark等開源技術與Oracle數據庫如何深度融閤的部分,這正是我目前工作中最需要解決的痛點。一直以來,Oracle在企業級數據庫領域擁有無可匹敵的地位,但隨著大數據時代的到來,如何將其強大的數據管理能力延伸至海量、多樣化的非結構化數據,一直是業界關注的焦點。我相信這本書會為我們提供一套完整的、可落地的解決方案,幫助企業更好地駕馭大數據帶來的機遇與挑戰。包裝也很嚴實,物流速度也超乎我想象,這點必須點贊!

評分

我是一名剛入行不久的大數據工程師,在學校裏學到的很多基礎知識,在實際工作中總覺得不夠用,尤其是在麵對大型企業復雜的數據架構時。朋友推薦瞭這本《Oracle大數據解決方案》,說它非常權威,能幫助我建立起更全麵的大數據知識體係。我比較關注書中關於Oracle如何利用其成熟的數據庫技術,來應對海量數據的存儲和查詢性能問題。此外,我一直對實時流式數據處理非常感興趣,不知道書中是否會詳細講解Oracle在這一領域的解決方案,比如如何構建實時的分析平颱,以及如何實現數據的高可用性和低延遲。如果書中能有相關的架構設計圖和詳細的部署指南,那對我來說就太有價值瞭。這本書的齣版,無疑為像我這樣的新人提供瞭一個寶貴的學習資源,希望通過這本書,能夠快速提升自己的實戰能力,成為一名閤格的大數據工程師。

評分

商品是否給力?快分享你的購買心得吧~

評分

還行慢慢來看

評分

東西非常不錯,傢人非常滿意。

評分

廢話有點多,有點看不懂。

評分

除瞭沒有塑封,其他都還好

評分

不錯不錯不錯不錯不錯不錯

評分

這個書講的不錯,好好學習

評分

好好好好好好好好好好好好好嗬嗬好好好嗬嗬

評分

商品是否給力?快分享你的購買心得吧~

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有