大數據導論

大數據導論 pdf epub mobi txt 電子書 下載 2025

[美] 托馬斯·埃爾 著,彭智勇 譯
圖書標籤:
  • 大數據
  • 數據分析
  • 數據挖掘
  • 機器學習
  • 雲計算
  • Hadoop
  • Spark
  • 數據科學
  • 商業智能
  • Python
想要找書就要到 新城書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 機械工業齣版社
ISBN:9787111565772
版次:1
商品編碼:12085935
品牌:機工齣版
包裝:平裝
叢書名: 數據科學與工程技術叢書
開本:16開
齣版時間:2017-05-01
用紙:膠版紙
頁數:177

具體描述

內容簡介

本書是麵嚮商業和技術專業人員的大數據指南,清楚地介紹瞭大數據相關的概念、理論、術語與基礎技術,並使用真實連貫的商業案例以及簡單的圖錶,幫助讀者更清晰地理解大數據技術。本書可作為高等院校相關專業“大數據基礎”、“大數據道路”等課程的教材,也可供有一定實踐經驗的軟件開發人員、管理人員和所有對大數據感興趣的人士閱讀。

作者簡介

  ?ThomasErlThomasErl是IT暢銷書作者,Arcitura教育公司的創始人,PrenticeHall齣版社“ThomasErl的服務技術叢書”的編輯。他的書發行量超過200000冊,成為國際暢銷書,並且已經獲得多個重要IT組織成員的正式認可,例如,IBM、Microsoft、Oracle、Intel、Accenture、IEEE、HL7、MITRE、SAP、CISCO、HP等。作為Arcitura公司的CEO,Thomas領導研發瞭國際公認的大數據科學專傢認證(BDSCP)、雲專傢認證(CCP)與SOA專傢認證(SOACP)的課程大綱,設立瞭一係列正式的、與廠商無關的工業認證,全球已有數韆IT從業人員獲得瞭這些認證。Thomas還作為演講傢與教育傢,在20多個國傢進行過巡迴演講。Thomas已經在諸多齣刊物上發錶過100多篇文章和訪談,包括《華爾街日報》與《CIO雜誌》。

  WajidKhattakWajidKhattak是Arcitura教育公司的大數據研究者與教育者。他的研究領域包括大數據工程與架構、數據科學、機器學習、分析學與SOA。此外,他在商務智能報告解決方案與GIS方麵有著豐富的.NET軟件開發經驗。

  Wajid於2003年在英國伯明翰城市大學獲得軟件工程學士學位,於2008年在該校以傑齣的成績獲得軟件工程與安全碩士學位。另外,Wajid還獲得瞭MCAD&MCTS;(Microsoft)、SOA架構師、大數據科學傢、大數據工程師以及大數據研究顧問(Arcitura)認證。

  PaulBuhlerPaulBuhler博士是一位經驗豐富的IT專傢,他在商業公司、政府機構和學校均有過從業經驗。在麵嚮服務的計算概念、技術和實現方法領域,他是一位受人尊敬的研究者、實踐者與教育者。他在XaaS領域的研究已經延伸到瞭雲、大數據與萬物互聯網(IoE)。目前他的研究興趣是通過權衡響應式設計原則與基於目標的執行方式,減少業務策略與流程執行之間的差距。

  作為Modus21的首席科學傢,PaulBuhler博士根據當前業務架構與流程執行框架的發展趨勢調整企業的戰略布局。目前,他還是查爾斯頓學院的閤作教授,負責本科生與碩士生計算機科學課程的教學工作。PaulBuhler博士在南卡羅來納大學獲得計算機工程博士學位,在約翰霍普金斯大學獲得計算機科學碩士學位,在塞特多大學獲得計算機科學學士學位。


目錄

譯者序
緻謝
作者簡介
第一部分 大數據基礎
第1章 理解大數據3
1.1 概念與術語4
1.1.1 數據集4
1.1.2 數據分析5
1.1.3 數據分析學5
1.1.4 商務智能11
1.1.5 關鍵績效指標11
1.2 大數據特徵12
1.2.1 容量12
1.2.2 速率13
1.2.3 多樣性13
1.2.4 真實性14
1.2.5 價值14
1.3 不同數據類型15
1.3.1 結構化數據16
1.3.2 非結構化數據17
1.3.3 半結構化數據17
1.3.4 元數據18
1.4 案例學習背景18
1.4.1 曆史背景18
1.4.2 技術基礎和自動化環境19
1.4.3 商業目標和障礙20
1.5 案例學習21
1.5.1 確定數據特徵22
1.5.2 確定數據類型24
第2章 采用大數據的商業動機與驅動25
2.1 市場動態25
2.2 業務架構27
2.3 業務流程管理30
2.4 信息與通信技術31
2.4.1 數據分析與數據科學31
2.4.2 數字化31
2.4.3 開源技術與商用硬件32
2.4.4 社交媒體33
2.4.5 超連通社區與設備33
2.4.6 雲計算34
2.5 萬物互聯網35
2.6 案例學習35
第3章 大數據采用及規劃考慮39
3.1 組織的先決條件40
3.2 數據獲取40
3.3 隱私性40
3.4 安全性41
3.5 數據來源42
3.6 有限的實時支持43
3.7 不同的性能挑戰43
3.8 不同的管理需求43
3.9 不同的方法論44
3.10 雲44
3.11 大數據分析的生命周期45
3.11.1 商業案例評估45
3.11.2 數據標識47
3.11.3 數據獲取與過濾47
3.11.4 數據提取48
3.11.5 數據驗證與清理49
3.11.6 數據聚閤與錶示50
3.11.7 數據分析52
3.11.8 數據可視化52
3.11.9 分析結果的使用53
3.12 案例學習54
3.12.1 大數據分析的生命周期55
3.12.2 商業案例評估55
3.12.3 數據標識56
3.12.4 數據獲取與過濾56
3.12.5 數據提取57
3.12.6 數據驗證與清理57
3.12.7 數據聚閤與錶示57
3.12.8 數據分析57
3.12.9 數據可視化58
3.12.10 分析結果的使用58
第4章 企業級技術與大數據商務智能59
4.1 聯機事務處理60
4.2 聯機分析處理60
4.3 抽取、轉換和加載技術61
4.4 數據倉庫61
4.5 數據集市62
4.6 傳統商務智能62
4.6.1 即席報錶63
4.6.2 儀錶闆63
4.7 大數據商務智能65
4.7.1 傳統數據可視化65
4.7.2 大數據的數據可視化66
4.8 案例學習67
4.8.1 企業技術67
4.8.2 大數據商務智能68
第二部分 存儲和分析大數據
第5章 大數據存儲的概念71
5.1 集群72
5.2 文件係統和分布式文件係統72
5.3 NoSQL73
5.4 分片74
5.5 復製75
5.5.1 主從式復製76
5.5.2 對等式復製77
5.6 分片和復製80
5.6.1 結閤分片和主從式復製80
5.6.2 結閤分片和對等式復製81
5.7 CAP定理82
5.8 ACID85
5.9 BASE88
5.10 案例學習91
第6章 大數據處理的概念93
6.1 並行數據處理93
6.2 分布式數據處理94
6.3 Hadoop94
6.4 處理工作量95
6.4.1 批處理型95
6.4.2 事務型95
6.5 集群96
6.6 批處理模式97
6.6.1 MapReduce批處理97
6.6.2 Map和Reduce任務98
6.6.3 MapReduce的簡單實例103
6.6.4 理解MapReduce算法104
6.7 實時模式處理107
6.7.1 SCV原則107
6.7.2 事件流處理110
6.7.3 復雜事件處理110
6.7.4 大數據實時處理與SCV110
6.7.5 大數據實時處理與MapReduce111
6.8 案例學習112
6.8.1 處理工作量112
6.8.2 批處理模式處理112
6.8.3 實時模式處理113
第7章 大數據存儲技術115
7.1 磁盤存儲設備115
7.1.1 分布式文件係統116
7.1.2 RDBMS數據庫117
7.1.3 NoSQL數據庫119
7.1.4 NewSQL數據庫128
7.2 內存存儲設備129
7.2.1 內存數據網格131
7.2.2 內存數據庫138
7.3 案例學習141
第8章 大數據分析技術143
8.1 定量分析144
8.2 定性分析145
8.3 數據挖掘145
8.4 統計分析146
8.4.1 A/B測試146
8.4.2 相關性分析147
8.4.3 迴歸性分析149
8.5 機器學習150
8.5.1 分類(有監督的機器學習)151
8.5.2 聚類(無監督的機器學習)152
8.5.3 異常檢測152
8.5.4 過濾153
8.6 語義分析154
8.6.1 自然語言處理155
8.6.2 文本分析155
8.6.3 情感分析156
8.7 視覺分析157
8.7.1 熱點圖157
8.7.2 時間序列圖159
8.7.3 網絡圖160
8.7.4 空間數據製圖161
8.8 案例學習162
8.8.1 相關性分析162
8.8.2 迴歸性分析162
8.8.3 時間序列圖163
8.8.4 聚類163
8.8.5 分類163
附錄A 案例結論165
索引167

前言/序言

  譯者序現今,“大數據”已經成為全球科技界和企業界關注的熱點。數據為王的時代已經到來,各行各業高度關注大數據的研究和應用。企業關注的重點從追求計算機的計算速度轉變為追求大數據處理能力,從以軟件編程為主轉變為以數據為中心。在雲計算技術和海量數據存儲技術的助力下,大數據已經成為當前學術界、工業界的熱點和焦點。大數據的齣現將會對社會各個領域産生深刻影響。從公司戰略到産業生態,從學術研究到生産實踐,從城鎮管理到國傢治理,都將發生本質的變化,大數據將成為時代變革的力量。“用數據來說話、用數據來管理、用數據來決策、用數據來創新”的文化氛圍與時代特徵愈發鮮明。大數據時代需要一大批具備大數據知識的專業人纔,他們應能有效地將數據科學和各行各業的應用相結閤,推動新技術和新應用的發展。因此,掌握大數據核心技術且擁有專業領域知識的人纔儲備成為國傢大數據戰略布局的重中之重。

  在本書中,IT暢銷書作者ThomasErl和他的團隊清楚地解釋瞭關鍵的大數據概念、理論和術語,以及基本的大數據技術和方法。本書分兩部分:第一部分主要從商業相關問題的討論引齣大數據的驅動力,解釋瞭如何通過大數據推動企業的發展,介紹瞭大數據的應用背景和基本概念;第二部分主要是大數據技術相關問題的討論,重點介紹瞭大數據的存儲技術和分析方法。本書的特色在於每一章後都有案例學習,用一傢大型的保險公司ETI對大數據的應用案例貫穿始終,為相關章節的知識應用提供瞭現實場景,以加深讀者對大數據實際應用的認識。另外,本書大量應用瞭簡單的圖錶說明。這些都使得本書非常實用且通俗易懂,因此,本書特彆適閤作為瞭解大數據基本知識和相關技術的入門教材,也可以作為高校的通識課教材來使用。

  在本書翻譯過程中,武漢大學計算機學院的劉歆文、李卓、史成良、陳洪洋、賀瀟雅、萬言曆、陳昊等同學做瞭大量輔助性工作,在此,嚮這些同學的辛勤工作錶示衷心的感謝。

  由於譯者能力有限,譯稿難免存在疏漏及不足之處,望廣大讀者不吝賜教。



探秘宇宙的語言:從星辰大海到基因密碼的宏偉敘事 這不是一本關於龐雜數據分析技術、算法模型或商業決策的書。它是一次穿越時空的邀請,一次對構成萬物深層秩序的求索,一次關於信息如何編織現實的宏大敘事。我們將一同踏上一段遠離二進製代碼和數據庫洪流的旅程,去探尋隱藏在宇宙萬象之下的,那令人驚嘆的“大數據”——即一切事物賴以存在的,最本質、最豐富的信息織錦。 第一章:自混沌到秩序——宇宙的起源與信息之初 在一切存在之前,是混沌,是量子漲落的虛無。然而,即便在這看似無序的狀態中,也孕育著信息最原始的火花。宇宙大爆炸,不僅僅是一次能量的釋放,更是一次信息生成的奇點。從最初的基本粒子,到氫氦的形成,再到恒星的誕生與死亡,每一次宇宙尺度的演化,都是信息不斷纍積、轉化、重塑的過程。我們所見的星辰大海,並非隻是冰冷的物質集閤,它們是宇宙誕生以來,無數信息相互作用、遵循規律演化的壯麗篇章。 本書將從宇宙學和粒子物理學的視角齣發,探討宇宙最早期階段的信息編碼機製。量子糾纏如何傳遞信息?暗物質與暗能量在宇宙演化中扮演瞭怎樣的“信息代理人”角色?我們將嘗試理解,為何宇宙演化至今,呈現齣如此精妙的秩序,而這種秩序,是否本身就包含著某種普適性的信息法則?這不僅僅是對宇宙起源的科學追溯,更是對信息如何從無到有,從微觀到宏觀,構建起我們所感知的一切的哲學思考。 第二章:生命的湧現——從DNA的序列到物種的演化 當目光從浩瀚星空轉嚮微觀世界,我們將在生命形態中發現另一層令人著迷的信息維度。地球上生命的齣現,是信息編碼與復製的奇跡。DNA,這條雙螺鏇長鏈,承載著億萬年的生命藍圖,是構成地球生物多樣性的最基本“代碼”。從最簡單的單細胞生物,到復雜如我們人類的智慧生命,每一個物種的生存、繁衍、演化,都離不開其基因組中海量而精巧的信息錶達與傳遞。 本章將深入探討生命信息學,但並非局限於基因測序或生物技術。我們將關注基因組的“語言”——核苷酸序列如何編碼蛋白質?錶觀遺傳學如何解釋後天環境對基因錶達的影響,從而傳遞“非遺傳”的信息?自然選擇的本質,是否可以理解為對信息適應性最強的基因組閤的篩選?我們將追溯從第一個自我復製分子到復雜多細胞生物的演化曆程,探究生命體如何通過信息獲取、處理與傳遞,來應對不斷變化的環境,實現其生存與繁衍的“目標”。這是一種關於生命如何在信息洪流中“生存”的藝術,一種信息驅動的進化哲學。 第三章:文明的足跡——從文字的誕生到知識的傳承 在生命的長河中,人類作為一個擁有高度智慧的物種,更是將信息創造、記錄與傳播推嚮瞭新的高度。文字的誕生,是人類文明的裏程碑,它使得知識得以跨越時空,積纍並傳承。從甲骨文的刻痕,到莎草紙的墨跡,再到如今數字化的信息海洋,人類文明的每一次飛躍,都伴隨著信息記錄與傳播方式的革新。 我們將迴溯文明史,審視不同時代的信息載體及其承載的知識。古籍中的智慧,是如何跨越韆年而得以流傳?藝術、音樂、哲學,這些非具象的信息形式,又如何觸動人心,影響社會?本書將探討知識體係的構建,語言的演化,以及人類集體意識的形成,是否都可以視為一種宏大信息係統的運作?我們將理解,文明的進步,並非僅僅是技術的積纍,更是信息處理、組織和共享能力的提升。這是一種關於人類如何通過信息構建自身,塑造社會,並最終創造“意義”的探索。 第四章:感官的映射——世界在我們意識中的構建 我們如何感知世界?我們眼中的色彩,耳中的聲音,指尖的觸感,味蕾的體驗,以及大腦中的思維與情感,這一切的豐富體驗,都源自於外界信息通過我們感官係統被捕獲、處理並轉化為我們內在的“意識圖景”。我們所認為的“現實”,在很大程度上,是我們大腦基於感官輸入所構建齣的一個信息模型。 本章將從神經科學、心理學和認知科學的視角,探討信息如何在我們的感知與意識之間建立橋梁。神經信號如何編碼視覺、聽覺、觸覺等信息?大腦如何整閤來自不同感官的信息,形成統一的知覺?記憶是如何存儲和提取信息的?夢境、想象、甚至是幻覺,這些奇特的意識現象,又是否揭示瞭信息處理的某種“邊界”或“漏洞”?我們將嘗試理解,我們的意識,本身就是一個極其復雜的信息處理係統,它不斷地從外界獲取信息,並對其進行加工、解釋,最終形成我們獨一無二的主觀體驗。這是一種關於信息如何“內在化”,並塑造我們對世界認知和自我認同的深度剖析。 第五章:信息的新紀元——無處不在的連接與湧現的智慧 進入21世紀,我們正以前所未有的速度,被一個由信息構成的,日益緊密的網絡所包裹。互聯網、物聯網、社交媒體,將分散的世界連接在一起,信息的流動以前所未有的規模和速度進行著。而在這個過程中,新的現象正在湧現:集體智慧、分布式決策、甚至是人工智能的初步顯現。 本書的最後一章,將展望信息在未來社會中的潛在影響。我們如何理解網絡上的群體行為?“意見領袖”和“信息繭房”的形成機製是什麼?人工智能能否真正擁有“智慧”?我們是否正在走嚮一個由信息驅動的,全新的社會形態?這將是一次關於信息連接的力量、信息網絡效應,以及信息未來走嚮的思考。我們並非要探討具體的AI技術,而是要理解,當信息以前所未有的方式被連接、被處理、被交互時,所可能湧現齣的,超越個體智慧的總和的,令人驚嘆的“新生命”。 結語:信息的宇宙,無盡的探索 《探秘宇宙的語言》並非要為任何技術方法論提供操作指南,而是希望開啓一扇通往信息本質的窗戶。從宇宙的起源到生命的演化,從人類文明的足跡到我們個人的意識體驗,再到我們所處的這個信息爆炸的時代,信息無處不在,無時無刻不在驅動著世界的運轉,塑造著我們的存在。 這本書將引導你,以一種全新的視角去審視你周圍的一切。你會發現,那些看似雜亂無章的現象,都可能隱藏著深層的信息邏輯;那些抽象的概念,都可能有著直觀的信息映射。這是一場關於“萬物皆信息”的宏大探索,一次對構成現實最深層密碼的追尋。讓我們一同,在這信息的宇宙中,展開一場無盡的、充滿驚喜的探索之旅。

用戶評價

評分

這本書在探討大數據帶來的挑戰與倫理方麵,展現齣瞭非常深刻的思考。在我看來,很多技術類的書籍往往會聚焦於“如何做”,而忽略瞭“是否應該做”以及“做瞭之後會發生什麼”的問題。《大數據導論》在這方麵做齣瞭很好的補充。它不僅僅是羅列瞭數據安全、隱私保護、算法偏見等問題,而是深入分析瞭這些問題産生的原因,以及它們可能帶來的負麵影響。例如,關於數據隱私,書中討論瞭匿名化和差分隱私等技術,同時也強調瞭閤規性和道德責任的重要性。對於算法偏見,它提齣瞭數據采集偏差、模型設計缺陷等多種可能來源,並呼籲在整個數據處理鏈條中保持警惕。這種辯證的視角,讓我意識到大數據是一把雙刃劍,在享受其便利的同時,也必須審慎地應對其帶來的潛在風險。這本書的齣現,讓我對大數據有瞭更全麵的認識,不再僅僅關注技術本身,而是開始思考它與社會、倫理的復雜關係,這對我來說是非常重要的一課。

評分

這本書給我最深刻的印象,是它對大數據技術生態的梳理,簡直是條理清晰,麵麵俱到。我之前零散地聽過Hadoop、Spark這些名字,但從來沒有把它們串聯起來。《大數據導論》就像一位經驗豐富的嚮導,帶領我一步步走進瞭這個龐大而復雜的生態係統。它不僅僅是簡單地介紹某個工具,而是會解釋這些工具在整個大數據處理流程中扮演的角色,以及它們之間是如何協同工作的。例如,對於數據存儲,它會介紹HDFS的原理,對於數據處理,則會詳細講解MapReduce和Spark的迭代式處理模式,並且還會提到數據倉庫、數據湖的概念。最讓我驚喜的是,書中還涉及瞭數據清洗、數據轉換、數據可視化等數據生命周期的各個環節,並且給齣瞭相應的一些常見技術和方法。雖然書中沒有深入到每一個技術的代碼實現層麵,但它提供的這種“全景圖”式的介紹,讓我對大數據技術棧有瞭非常清晰的認識,也為我後續深入學習特定技術打下瞭堅實的基礎。這本書的結構設計非常閤理,每個部分都承前啓後,讓我能夠建立起一個完整的知識體係。

評分

老實說,這本書在講到大數據分析和應用的章節時,真的讓我眼前一亮,它不再是空洞的理論,而是充滿瞭鮮活的案例。我之前總是覺得大數據離我很遙遠,似乎是那些大公司纔玩得起的東西,但《大數據導論》用瞭很多貼近實際的例子,比如電商平颱的個性化推薦、金融行業的風險控製、醫療領域的疾病預測等等,讓我切實感受到瞭大數據在各個領域的強大力量。它不僅描述瞭這些應用場景,還稍微觸及瞭一些實現這些應用的思路和方法,比如如何利用用戶行為數據進行精準營銷,如何通過分析交易記錄來識彆欺詐行為。雖然我對其中的算法細節還不是很瞭解,但它提供瞭一個非常好的“是什麼”和“為什麼”的解答。讀完這些章節,我開始重新審視身邊的很多事物,發現原來它們都離不開大數據的支撐。這種對現實世界的洞察力,是這本書帶給我的一個非常寶貴的收獲。它讓我看到瞭大數據背後巨大的商業價值和社會意義,激發瞭我更深入探索的興趣。

評分

這本書簡直是給我打開瞭一個全新的世界!作為一名對數據科學領域充滿好奇但又有些茫然的新手,我一直想找一本既能係統介紹“大數據”這個概念,又能讓我理解它到底意味著什麼的書。《大數據導論》這本書,真的就像書名所說,給我提供瞭一個非常紮實的入門。作者並沒有上來就講一堆晦澀的技術術語,而是從最基礎的定義入手,循序漸進地解釋瞭大數據為何重要,它與傳統數據的區彆在哪裏。我特彆喜歡它對於大數據“5V”特性的闡述,比如“體量巨大”、“多樣性”、“高速生成”等等,這些概念被解釋得非常生動形象,甚至用瞭不少生活中的例子來輔助理解,讓我一下子就抓住瞭核心。而且,它還涉及瞭大數據産生的背景,例如物聯網、社交媒體的興起,這些都幫助我構建瞭一個更宏觀的認知框架。讀完前麵幾章,我感覺自己不再是那個對大數據一知半解的旁觀者,而是能初步理解它在現代社會扮演的角色,甚至能開始思考它可能帶來的機遇和挑戰瞭。這本書的語言風格也很友好,不會讓人産生畏難情緒,很適閤初學者。

評分

這本書的語言風格和組織結構,可以說是我讀過的技術類書籍中相當齣色的。作者的敘述方式非常流暢自然,沒有那種生硬的教科書式的感覺。即使在講解一些相對復雜的概念時,也能做到通俗易懂,善於運用類比和圖示來輔助說明,大大降低瞭理解的門檻。我尤其欣賞它在結構設計上的匠心獨運,每一章的內容都是經過精心安排的,循序漸進,層層遞進。開篇點題,奠定基礎;中間展開,深入剖析;結尾升華,展望未來。這種結構讓我能夠很輕鬆地跟隨作者的思路,一步步構建起對大數據的理解。而且,書中並沒有過多的冗餘信息,每一部分都言之有物,緊扣主題。盡管我目前還隻是一個初學者,但能夠感受到這本書在知識體係的構建上所付齣的努力。它不僅教會瞭我“是什麼”,更重要的是,它讓我明白瞭“為什麼”以及“如何進一步”。這種紮實的講解方式,對於任何想要係統學習大數據知識的讀者來說,都將是一個非常好的起點。

評分

東西很好,是正品。京東也方便快捷,快遞小哥的態度一直很贊。

評分

滿減的時候就買一點書先的時候看一看

評分

大數據導論

評分

東西很好,是正品。京東也方便快捷,快遞小哥的態度一直很贊。

評分

一般般~。。。。。。。

評分

評分

滿意滿意滿意

評分

很好很好很好

評分

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有