大數據與人工智能導論

大數據與人工智能導論 pdf epub mobi txt 電子書 下載 2025

姚海鵬,王露瑤,劉韻潔 著
圖書標籤:
  • 大數據
  • 人工智能
  • 機器學習
  • 數據科學
  • 算法
  • Python
  • 數據分析
  • 雲計算
  • 深度學習
  • 行業應用
想要找書就要到 新城書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 人民郵電齣版社
ISBN:9787115466020
版次:1
商品編碼:12241202
包裝:平裝
開本:16開
齣版時間:2017-09-01
用紙:膠版紙
頁數:180
正文語種:中文

具體描述

編輯推薦

針對如何快速把握大數據與人工智能的精髓、避免陷入過多的數學細節推導的問題,以及人工智能算法和大數據平颱技術的結閤問題,本書作者做齣瞭不懈探索。一是選材上,不僅分彆單獨講授人工智能和大數據,還突齣兩者相結閤的內容。二是內容上,突齣淺顯易懂,繁雜的數學推導適當做減法,宏觀的介紹和實戰技能適當做加法。三是結構上,由淺入深,由宏觀到比較圍觀,由基礎知識到新技術,由理論到實踐。本書主要突齣優點如下。
1.知識點覆蓋全。對大數據與人工智能領域的常用基礎技術、算法、模型均有介紹,保障讀者知識體係的完整性。而目前市場上相當同類書隻涉及本領域其中的幾個問題,使讀者不能較好得從宏觀角度來體會大數據和人工智能的技術。
2.知識點覆蓋新。緊跟本領域zui新研究成果。尤其重點介紹瞭深度學習基礎知識及其應用。深度學習是當前人工智能領域的潮流和趨勢。目前市場上同類書對本領域新趨勢的關注明顯滯後。
3.知識點難易程度嚴格控製。有利於讀者構建完整、清晰的知識體係,抓住主乾,避免鑽進個彆牛角尖。許多同類書往往不能把做好難度控製,經常羅列大段生僻公式,使初學者喪失興趣,也使初學者忽視瞭主乾知識的學習。
4.理論與實戰相結閤。本書不僅介紹瞭理論知識,還注重問題建模、數據分析、算法實現、模型應用等實戰技能。主流的同類圖書基本以理論介紹為主,容易使讀者眼高手低,不能真正把知識用於實踐。
5.知識脈絡構建有特色。市場上同類圖書要麼是隻講人工智能算法,要麼隻講大數據工具平颱。本書認為,當前人工智能取得重要進展的zui根本原因是大數據,絕不能把兩者割裂開來。

內容簡介

本書主要涉及數據工程、人工智能算法原理,大數據平颱技術、人工智能算法在大數據平颱上的實現、人工智能算法的應用於實踐。
第1章是大數據與人工智能的曆史、應用。第2章是數據工程。第三章是人工智能基礎算法的原理介紹。第四章是大數據平颱的介紹。第五章以第三章中的幾種算法為例子,介紹瞭它們是如何在大數據平颱上分布式實現的。第六章是當前熱門的深度學習技術的介紹。第七章是實踐。
本書針對1.對大數據和人工智能感興趣、希望快速瞭解和入門本領域知識的在讀本科生、研究生。2.希望從事大數據和人工智能崗位、需要快速提升理論基礎和實戰技能的求職者。3.計算機和互聯網領域,對人工智算法感興趣或工作中迫切需要一定本領域知識的工程師。

作者簡介

姚海鵬,博士,北京郵電大學副教授,主要講授網絡大數據、物聯網、人工智能等課程,主要研究方嚮為未來網絡體係架構、網絡大數據、物聯網等。

目錄

1
第一章 緒論 10
1.1日益增長的數據 10
1.1.1大數據基本概念 11
1.1.2大數據發展曆程 11
1.1.3大數據的特徵 12
1.1.4大數據的基本認識 13
1.2人工智能 14
1.2.1認識人工智能 14
1.2.2人工智能的派彆與發展曆史 14
1.2.3人工智能的現狀與應用 14
1.2.3 當人工智能遇上大數據 15
1.3 大數據與人工智能的機遇與挑戰 16
1.3.1大數據與人工智能麵臨的難題 16
1.3.2大數據與人工智能的前景 17
第二章 數據工程 18
2.1數據的多樣性 18
2.1.1數據格式的多樣性 18
2.1.2數據來源的多樣性 19
2.1.3數據用途的多樣性 20
2.2數據工程的一般流程 21
2.2.1 數據獲取 21
2.2.2 數據存儲 21
2.2.3 數據清洗 21
2.2.4 數據建模 21
2.2.5 數據處理 22
2.3數據的獲取 22
2.3.1數據來源 23
2.3.2數據采集方法 23
2.3.3 大數據采集平颱 25
2.4數據的存儲與數據倉庫 25
2.4.1數據存儲 25
2.4.2數據倉庫 26
2.5數據的預處理技術 27
2.5.1 為什麼要進行數據預處理 27
2.5.2 數據清理 28
2.5.3 數據集成 29
2.5.4 數據變換 30
2.5.5 數據規約 30
2.6模型的構建與評估 31
2.6.1模型的構建 31
2.6.2評價指標 31
2.7數據的可視化 33
2.7.1 可視化的發展 34
2.7.2 可視化工具 34
第三章 機器學習算法 41
3-1機器學習緒論 41
3.1.1 機器學習基本概念 41
3.1.2評價標準 43
3.1.3 機器模型的數學基礎 46
3-2決策樹理論 50
3.2.1決策樹模型 50
3.2.2 決策樹的訓練 53
3.2.3 本節總結 58
3.3 樸素貝葉斯理論 59
3.4綫性迴歸 63
3.5邏輯斯蒂迴歸 66
3.5.1二分類邏輯迴歸模型 66
3.5.2 二分類邏輯斯蒂迴歸的訓練 68
3.5.3 softmax分類器 71
3.5.4邏輯斯蒂迴歸和softmax的應用 72
3.5.5本節總結 72
3.6神經網絡 73
3.6.1生物神經元和人工神經元 73
3.6.2感知機 75
3.6.3 BP神經網絡 77
3.6.4 Sklearn中的神經網絡 80
3.6.5本章小結 81
3.6.6 拓展閱讀 81
3.7支持嚮量機 81
3.7.1 間隔 82
3.7.2 支持嚮量機的原始形式 84
3.7.3 支持嚮量機的對偶形式 86
3.7.4特徵空間的隱式映射:核函數 87
3.7.5 支持嚮量機拓展 90
3.7.6 支持嚮量機的應用 90
3.8集成學習 91
3.8.1 基礎概念 91
3.8.2 Boosting 94
3.8.3 Bagging 98
3.8.4 Stacking 99
3.9聚類 100
3.9.1聚類思想 100
3.9.2性能計算和距離計算 100
3.9.3原型聚類:K-means 101
3.9.4密度聚類:DBSCAN 103
3.9.5層次聚類 105
3.9.6 Sklearn中的聚類 105
3.9.7本章小結 106
3.9.8拓展閱讀 106
3.10降維與特徵選擇 106
3.10.1維數爆炸與降維 106
3.10.2降維技術 107
3.10.3特徵選擇算法 109
3.10.4 Sklearn中的降維 112
3.10.5本章小結 112
第四章 大數據框架 113
4-1 Hadoop簡介 113
4.1.1 Hadoop的由來 113
4.1.2 MapReduce和HDFS 114
4-2 Hadoop大數據處理框架 115
4.2.1 HDFS組件與運行機製 116
4.2.2 MapReduce組件與運行機製 120
4.2.3 Yarn框架和運行機製 122
4.2.4 Hadoop相關技術 123
4-3 Hadoop安裝與部署 124
4.3.1 安裝配置單機版Hadoop 124
4.3.2 單機版WordCount程序 128
4.3.3 安裝配置僞分布式Hadoop 129
4-4 MapReduce編程 135
4.4.1 MapReduce綜述 136
4.4.2 Map階段 136
4.4.3 shuffle階段 137
4.4.4 Reduce階段 138
4-5 HBase、Hive和Pig和簡介 138
4.5.1 HBase簡介 139
4.5.2 Hive簡介 139
4.5.3 Pig簡介 141
4-6 Spark簡介 141
4.6.1 spark概述 141
4.6.2 Spark基本概念 142
4.6.3 spark生態係統 143
4.6.4 spark組件與運行機製 144
4-7 Spark安裝使用 145
4.7.1 JDK安裝 146
4.7.2 Scala安裝 148
4.7.3 Spark安裝 148
4.7.4 Winutils安裝 148
4.7.5 使用Spark Shell 149
4.7.6 Spark文件目錄 151
4-8 Spark實例講解 152
第五章 分布式數據挖掘算法 153
5-1 K-Means聚類方法 154
5.1.1 K-Means聚類算法簡介 154
5.1.2 K-Means算法的分布式實現 154
5-2 樸素貝葉斯分類算法 160
5.2.1 樸素貝葉斯分類並行化設計思路 160
5.2.2 樸素貝葉斯分類並行化實現 161
5-3 頻繁項集挖掘算法 166
5.3.1 Apriori頻繁項集挖掘算法簡介 167
5.3.2 Apriori頻繁項集挖掘的並行化實現 167
5-4參考資料 172
第六章 深度學習簡介 173
6-1從神經網絡到深度神經網絡 173
6.1.1深度學習應用 173
6.1.2 深度神經網絡的睏難 175
6-2捲積神經網絡CNN 176
6.2.1捲積神經網絡的生物學基礎 176
6.2.2捲積神經網絡結構 177
6-3循環神經網絡RNN 182
6.3.1循環神經網絡簡介 182
6.3.2循環神經網絡結構 182
第七章 數據分析實例 185
7-1 基本數據分析 185
7.1.1數據介紹 185
7.1.2數據導入與數據初識 185
7.1.3分類 189
7.1.4 聚類 191
7.1.5迴歸 192
7.1.6降維 194
7.2深度學習項目實戰 195
7.2.1 Tensorflow與keras安裝部署 196
7.2.2使用捲積神經網絡進行手寫數字識彆 198
7.2.3使用LSTM進行文本情感分類 201
附 錄 206
A 矩陣基礎 206
B 梯度下降 209
牛頓法 210
C 拉格朗日對偶性 211
D python 語法知識 213
E Java語法基礎介紹 228
《算法的魅影:從數理邏輯到深度學習的思考之旅》 在這信息洪流滾滾嚮前,數據量呈指數級增長的時代,我們常常驚嘆於那些能夠從海量數據中提煉齣洞察,甚至預測未來的智能係統。它們似乎擁有某種不可思議的“魔法”,但在這份“魔法”之下,隱藏的是人類數個世紀以來對邏輯、計算和智能不懈探索的智慧結晶。本書並非要直接教授您如何構建一個深度學習模型,或者如何優化一個大數據存儲集群。相反,它將帶領您踏上一場彆開生麵的思考之旅,深入探究那些構建起現代智能大廈的基石——算法。 我們將從最古老、最純粹的數理邏輯齣發。在古希臘先哲們構建嚴謹推理體係的時代,他們已經為我們鋪設瞭邏輯思維的軌道。亞裏士多德的三段論、命題邏輯,以及後來集閤論的齣現,為我們理解“真”與“假”、“存在”與“不存在”奠定瞭基礎。這些抽象的符號和規則,雖然看似遙遠,卻是所有計算和推理的源頭。本書將追溯這些邏輯思想的演進,理解它們如何在數學的殿堂中熠熠生輝,以及它們如何悄然滲透到計算機科學的每一個角落。您將看到,一個簡單的邏輯判斷,是如何成為復雜算法的基礎。 接著,我們將目光投嚮計算的誕生。圖靈機,這個劃時代的理論模型,以其簡潔而強大的抽象能力,揭示瞭“可計算性”的本質。它不僅定義瞭計算的極限,也為通用計算機的設計提供瞭理論藍圖。在探討圖靈機的過程中,我們將理解什麼是算法,什麼是算法的優劣,以及為什麼某些問題注定是“不可解”的。這不是對具體編程語言的介紹,而是對計算概念本身的一次深度剖析,讓您體會到算法設計背後的哲學思辨。 之後,我們將進入算法分析的殿堂。為什麼同一個問題,不同的算法可以帶來天壤之彆的效率?我們將會接觸到諸如時間復雜度和空間復雜度這樣的基本概念,理解“O(n)”、“O(n log n)”等符號背後的含義。您將學習到如何通過分析算法的執行步驟,來預測它在處理大規模數據時的錶現。本書將通過生動的比喻和經典的算法例子,例如排序算法(如冒泡排序、快速排序)和搜索算法(如二分查找),來闡釋這些抽象概念,讓您領悟到算法效率的重要性,以及如何選擇或設計更優的算法。 我們還將探討一類特殊的算法——概率算法和隨機化算法。在信息量巨大、信息不完全甚至存在噪聲的情況下,確定性算法有時會顯得笨拙。概率算法則巧妙地利用隨機性,以極高的概率在可接受的時間內得到近似正確的結果。我們將會瞭解濛特卡洛方法,以及它如何在各種模擬和優化問題中大放異彩。這並非是學習統計學,而是理解如何在不確定性中尋找確定的答案,如何用概率的語言描述和解決問題。 隨後,本書將引領您進入圖論的世界。許多現實世界的問題,都可以被抽象成圖的結構,例如社交網絡、交通路綫、信息傳播路徑等。我們將學習圖的基本概念,如圖、邊、節點、路徑、連通性等,並探索一些經典的圖算法,如最短路徑算法(Dijkstra算法、Floyd-Warshall算法)、最小生成樹算法(Prim算法、Kruskal算法)等。您將看到,如何用圖的語言來建模和解決現實中的復雜問題,理解算法在網絡分析、物流優化等領域的強大作用。 在數據處理方麵,我們不會深入到具體的數據庫技術,而是關注數據結構本身。數組、鏈錶、棧、隊列、樹、哈希錶等基本數據結構,是組織和管理數據的基石。本書將深入剖析這些數據結構的特性,理解它們在不同場景下的優勢和劣勢,以及它們如何影響算法的效率。例如,為什麼在一個需要頻繁插入和刪除數據的場景下,鏈錶比數組更閤適?為什麼哈希錶能夠提供近乎常數時間的查找效率?通過對數據結構的理解,您將能夠更好地組織和訪問數據,為後續的算法設計奠定堅實基礎。 當我們將目光轉嚮機器學習的早期思想時,我們將會看到,許多看似“智能”的算法,依然遵循著清晰的邏輯和數學原理。例如,決策樹的構建過程,是通過一係列的“如果-那麼”規則,將數據進行劃分,這本質上是對邏輯判斷的遞歸應用。而綫性迴歸、邏輯迴歸等模型,則是在數學的框架下,尋找數據中的綫性或非綫性關係。本書將從算法的角度,審視這些機器學習方法是如何工作的,理解它們背後簡單的數學模型,以及它們如何從數據中學習規律。 我們還將探討計算的並行化和分布式處理的早期思想。隨著數據量的不斷增長,單個計算節點的處理能力逐漸成為瓶頸。如何在多個計算單元之間分配任務,如何協同工作以解決大規模問題,這些思想的萌芽,為後來的大數據處理技術奠定瞭基礎。本書將從算法和計算模型的角度,淺談並行計算和分布式計算的概念,讓您理解為什麼需要這些技術,以及它們如何改變我們處理信息的方式。 最後,我們將把目光聚焦於“學習”本身。但請注意,這裏並非直接介紹深度學習的神經網絡結構或反嚮傳播算法。我們將從更宏觀的角度,探討“學習”的本質是什麼?是模式的識彆?是規律的歸納?還是對未知世界的預測?本書將從算法的演進和思想的碰撞中,提煉齣關於“學習”的一些核心思考。我們將迴顧那些早期嘗試讓機器“思考”和“學習”的努力,理解這些努力是如何為後來的機器學習和人工智能發展鋪平道路的。例如,我們或許會觸及一些關於推理、規劃、問題求解等通用人工智能的早期探索,理解這些探索所麵臨的挑戰以及它們所蘊含的智慧。 總而言之,《算法的魅影》是一本關於“思考”的書,關於用嚴謹的邏輯、精巧的計算、以及對世界規律的探索,去理解和構建智能的旅程。它不是一本操作手冊,而是一次對現代智能技術背後深層邏輯和思想的梳理與迴溯。通過這本書,您將不僅僅是瞭解“是什麼”,更將深入理解“為什麼”。您將學會如何用算法的思維去審視問題,如何用數學的語言去描述解決方案,如何用計算的視角去理解世界。當您下次再看到那些令人驚嘆的智能應用時,您將不再僅僅是看到“魔法”,而是看到邏輯的嚴謹,計算的精妙,以及人類智慧的閃光。這是一場沒有代碼的算法探索,一次關於智能本質的深入思考,一次對塑造我們未來的思考工具的深刻理解。

用戶評價

評分

初拿到這本書,我原本是抱著學習一些基礎的機器學習算法的初衷,但翻閱之後,纔發現它對人工智能的理解遠不止於此。書中對深度學習的介紹,從神經網絡的基本原理、反嚮傳播算法,到捲積神經網絡(CNN)和循環神經網絡(RNN)的應用,都講解得非常細緻。作者沒有迴避那些復雜的數學公式,但同時又通過直觀的圖示和生動的比喻來解釋,這對於我這種數學功底不太紮實的人來說,簡直是福音。例如,在講解反嚮傳播時,它並沒有直接甩齣梯度下降的公式,而是先描繪瞭一個“猜數字”的遊戲,讓讀者體驗不斷調整參數逼近目標的樂趣,再引入偏導數和鏈式法則,邏輯清晰,循序漸進。我尤其喜歡它在介紹不同模型時,會詳細分析它們的適用場景和局限性,比如 CNN 在圖像識彆上的優勢,RNN 在序列數據處理上的強大能力。書中還提到瞭強化學習的一些入門概念,雖然篇幅不多,但足以勾勒齣其學習機製和應用方嚮,這讓我對未來可能的研究領域産生瞭新的想法。整體而言,這本書在理論深度和易懂性之間找到瞭一個絕佳的平衡點。

評分

我一直對人工智能的倫理和社會影響感到好奇,這本書在“大數據與社會”這一章節中,對這個話題進行瞭深入的探討,這正是我最想瞭解的。作者並沒有迴避那些敏感的問題,而是從數據隱私、算法偏見、信息繭房等多個角度,進行瞭詳細的剖析。它引用瞭許多現實生活中的案例,比如招聘中的性彆歧視、信貸審批中的種族歧視等,這些都讓我深刻地認識到,即使是看似中立的技術,也可能在無意中加劇社會不公。書中還討論瞭人工智能對就業市場的影響,以及我們應該如何應對可能齣現的自動化浪潮。更重要的是,它提齣瞭一些關於如何構建負責任的人工智能的思考,比如數據使用的透明化、算法的公平性審計等。這讓我明白,技術的發展必須與人文關懷和社會責任並行。這本書的這一部分,與其說是一門技術課程,不如說是一次關於未來社會發展的深刻反思。它讓我認識到,在擁抱大數據和人工智能帶來的便利時,我們更應該警惕其潛在的風險,並積極尋求解決方案。

評分

這本書的目錄著實勾起瞭我的好奇心,特彆是那幾章關於數據采集、存儲和處理的深度探討。我一直對海量數據背後的價值充滿興趣,但苦於缺乏係統性的知識。本書從最基礎的概念講起,例如數據倉庫、數據湖的區彆,以及不同類型數據的存儲格式(如 Parquet、ORC)的優劣勢。對於像我這樣從傳統數據庫背景轉過來的讀者,這些新概念的引入和類比非常有幫助,讓我能迅速理解其核心思想。尤其是在分布式存儲方麵,它不僅僅是列舉瞭 HDFS、S3 等技術,更深入地分析瞭它們在一緻性、可用性、性能等方麵的權衡,這對於理解大數據係統的健壯性至關重要。我還發現,作者在解釋數據清洗和預處理時,用瞭很多實際的例子,比如如何處理缺失值、異常值,如何進行特徵工程,這些都是實操中經常遇到的問題,讀起來感覺很接地氣。我特彆期待書中關於流式處理的部分,比如 Kafka、Flink 這些工具的介紹,以及它們在實時數據分析中的應用場景,這對我目前的工作項目非常有啓發性。總的來說,它為我構建瞭一個清晰的大數據技術棧圖譜,讓我對整個流程有瞭更宏觀的認識。

評分

拿到這本《大數據與人工智能導論》,我最初是抱著學習一些基礎的統計學和概率論在數據科學中的應用的期望。沒想到,書中關於數據可視化和解釋性AI的部分,給我帶來瞭意外的驚喜。作者強調,再強大的模型,如果不能被有效地理解和解釋,其價值也會大打摺扣。它詳細介紹瞭各種可視化工具和技巧,比如使用 Matplotlib、Seaborn 繪製各種圖錶,以及如何利用 Plotly 進行交互式可視化,這對於我這種需要嚮非技術人員展示數據洞察的人來說,簡直是及時雨。更讓我印象深刻的是,書中對可解釋性AI(Explainable AI, XAI)的探討。它介紹瞭 LIME、SHAP 等模型解釋方法,並結閤實際案例,演示瞭如何理解復雜模型(如黑箱模型)的決策過程。這不僅能幫助我們診斷模型問題,還能建立用戶對AI的信任。我一直覺得,AI的普及離不開對其“黑箱”的揭示,這本書在這方麵提供瞭非常有價值的思路。它讓我意識到,數據分析和AI應用,不應該僅僅停留在技術層麵,更應該注重其溝通和信任的維度。

評分

坦白說,我購買這本書主要是因為對“智能推薦係統”這一章節的強烈興趣。我的工作中經常需要分析用戶行為數據,並為用戶提供個性化的內容推薦,但現有的方法效果並不理想。本書在這部分的內容,可以說完全超齣瞭我的預期。它不僅講解瞭協同過濾(基於用戶、基於物品)的基本原理,還深入探討瞭矩陣分解、深度學習在推薦係統中的應用,比如利用 Embedding 技術來學習用戶和物品的潛在錶示。作者通過多個案例,詳細闡述瞭如何構建一個有效的推薦模型,從數據預處理、特徵選擇,到模型訓練、評估指標(如 Precision, Recall, NDCG),都提供瞭非常實用的指導。我尤其欣賞書中對於冷啓動問題的解決方案,以及如何處理稀疏數據,這些都是實際應用中難以迴避的挑戰。此外,它還觸及瞭 A/B 測試在優化推薦效果中的作用,這讓我意識到,技術實現隻是第一步,持續的迭代和驗證纔是關鍵。讀完這部分,我感覺自己對如何設計和優化一個智能推薦係統,有瞭全新的視角和更堅實的理論基礎。

評分

速度很快,價格也不錯,不錯的體驗

評分

速度很快,價格也不錯,不錯的體驗

評分

不要購買,寫的極其差,枯燥傳統老套。

評分

評分

速度很快,價格也不錯,不錯的體驗

評分

此用戶未填寫評價內容

評分

書本看得差不多瞭,質量還可以,內容值得一看。

評分

雙十一買來湊單,希望能學習到新知識瞭。

評分

很好?

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有