數據科學入門

數據科學入門 pdf epub mobi txt 電子書 下載 2025

[美] 格魯斯(Joel Grus) 著,高蓉,韓波 譯
圖書標籤:
  • 數據科學
  • 機器學習
  • Python
  • 數據分析
  • 統計學
  • 數據挖掘
  • 人工智能
  • R語言
  • 可視化
  • 入門教程
想要找書就要到 新城書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 人民郵電齣版社
ISBN:9787115417411
版次:1
商品編碼:11896407
包裝:平裝
叢書名: 圖靈程序設計叢書
開本:16開
齣版時間:2016-03-01
用紙:膠版紙
頁數:284
正文語種:中文

具體描述

編輯推薦

  介紹數據科學基本知識的重量級讀本,Google數據科學傢作品。   數據科學是一個蓬勃發展、前途無限的行業,有人將數據科學傢稱為“21世紀頭號性感職業”。本書從零開始講解數據科學工作,教授數據科學工作所必需的黑客技能,並帶領讀者熟悉數據科學的核心知識——數學和統計學。   作者選擇瞭功能強大、簡單易學的Python語言環境,親手搭建工具和實現算法,並精心挑選瞭注釋良好、簡潔易讀的實現範例。書中涵蓋的所有代碼和數據都可以在GitHub上下載。  通過閱讀本書,你可以:  學到一堂Python速成課;  學習綫性代數、統計和概率論的基本方法,瞭解它們是怎樣應用在數據科學中的;  掌握如何收集、探索、清理、轉換和操作數據;  深入理解機器學習的基礎;  運用k-近鄰、樸素貝葉斯、綫性迴歸和邏輯迴歸、決策樹、神經網絡和聚類等各種數據模型;  探索推薦係統、自然語言處理、網絡分析、MapReduce和數據庫。

內容簡介

  本書基於易於理解且具有數據科學相關的豐富的庫的Python語言環境,從零開始講解數據科學工作。具體內容包括:Python速成,可視化數據,綫性代數,統計,概率,假設與推斷,梯度下降法,如何獲取數據,k近鄰法,樸素貝葉斯算法,等等。作者藉助大量具體例子以及數據挖掘、統計學、機器學習等領域的重要概念,詳細展示瞭什麼是數據科學。

作者簡介

  Joel Grus是Google的一位軟件工程師,曾於數傢創業公司擔任數據科學傢。目前住在西雅圖,專注於數據科學工作並樂此不疲。

目錄

前言 xiii
第1章 導論 1
1.1 數據的威力 1
1.2 什麼是數據科學 1
1.3 激勵假設:DataSciencester 2
1.3.1 尋找關鍵聯係人 3
1.3.2 你可能知道的數據科學傢 5
1.3.3 工資與工作年限 8
1.3.4 付費賬戶 10
1.3.5 興趣主題 11
1.4 展望 12
第2章 Python速成 13
2.1 基礎內容 13
2.1.1 Python獲取 13
2.1.2 Python之禪 14
2.1.3 空白形式 14
2.1.4 模塊 15
2.1.5 算法 16
2.1.6 函數 16
2.1.7 字符串 17
2.1.8 異常 18
2.1.9 列錶 18
2.1.10 元組 19
2.1.11 字典 20
2.1.12 集閤 22
2.1.13 控製流 23
2.1.14 真和假 24
2.2 進階內容 25
2.2.1 排序 25
2.2.2 列錶解析 25
2.2.3 生成器和迭代器 26
2.2.4 隨機性 27
2.2.5 正則錶達式 28
2.2.6 麵嚮對象的編程 28
2.2.7 函數式工具 29
2.2.8 枚舉 31
2.2.9 壓縮和參數拆分 31
2.2.10 args和kwargs 32
2.2.11 歡迎來到DataSciencester 33
2.3 延伸學習 33
第3章 可視化數據 34
3.1 matplotlib 34
3.2 條形圖 36
3.3 綫圖 40
3.4 散點圖 41
3.5 延伸學習 44
第4章 綫性代數 45
4.1 嚮量 45
4.2 矩陣 49
4.3 延伸學習 51
第5章 統計學 53
5.1 描述單個數據集 53
5.1.1 中心傾嚮 55
5.1.2 離散度 56
5.2 相關 58
5.3 辛普森悖論 60
5.4 相關係數其他注意事項 61
5.5 相關和因果 62
5.6 延伸學習 63
第6章 概率 64
6.1 不獨立和獨立 64
6.2 條件概率 65
6.3 貝葉斯定理 66
6.4 隨機變量 68
6.5 連續分布 68
6.6 正態分布 69
6.7 中心極限定理 72
6.8 延伸學習 74
第7章 假設與推斷 75
7.1 統計假設檢驗 75
7.2 案例:擲硬幣 75
7.3 置信區間 79
7.4 P-hacking 80
7.5 案例:運行A/B 測試 81
7.6 貝葉斯推斷 82
7.7 延伸學習 85
第8章 梯度下降 86
8.1 梯度下降的思想 86
8.2 估算梯度 87
8.3 使用梯度 90
8.4 選擇正確步長 90
8.5 綜閤 91
8.6 隨機梯度下降法 92
8.7 延伸學習 93
第9章 獲取數據 94
9.1 stdin和stdout 94
9.2 讀取文件 96
9.2.1 文本文件基礎 96
9.2.2 限製的文件 97
9.3 網絡抓取 99
9.3.1 HTML和解析方法 99
9.3.2 案例:關於數據的O’Reilly 圖書 101
9.4 使用API 105
9.4.1 JSON(和XML) 105
9.4.2 使用無驗證的API 106
9.4.3 尋找API 107
9.5 案例:使用Twitter API 108
9.6 延伸學習 111
第10章 數據工作 112
10.1 探索你的數據 112
10.1.1 探索一維數據 112
10.1.2 二維數據 114
10.1.3 多維數據 116
10.2 清理與修改 117
10.3 數據處理 119
10.4 數據調整 122
10.5 降維 123
10.6 延伸學習 129
第11章 機器學習 130
11.1 建模 130
11.2 什麼是機器學習 131
11.3 過擬閤和欠擬閤 131
11.4 正確性 134
11.5 偏倚-方差權衡 136
11.6 特徵提取和選擇 137
11.7 延伸學習 138
第12章 k近鄰法 139
12.1 模型 139
12.2 案例:最喜歡的編程語言 141
12.3 維數災難 146
12.4 延伸學習 151
第13章 樸素貝葉斯算法 152
13.1 一個簡易的垃圾郵件過濾器 152
13.2 一個復雜的垃圾郵件過濾器 153
13.3 算法的實現 154
13.4 測試模型 156
13.5 延伸學習 158
第14章 簡單綫性迴歸 159
14.1 模型 159
14.2 利用梯度下降法 162
14.3 最大似然估計 162
14.4 延伸學習 163
第15章 多重迴歸分析 164
15.1 模型 164
15.2 最小二乘模型的進一步假設 165
15.3 擬閤模型 166
15.4 解釋模型 167
15.5 擬閤優度 167
15.6 題外話:Bootstrap  168
15.7 迴歸係數的標準誤差 169
15.8 正則化 170
15.9 延伸學習 172
第16章 邏輯迴歸 173
16.1 問題 173
16.2 Logistic函數 176
16.3 應用模型 178
16.4 擬閤優度 179
16.5 支持嚮量機 180
16.6 延伸學習 184
第17章 決策樹 185
17.1 什麼是決策樹 185
17.2 熵 187
17.3 分割之熵 189
17.4 創建決策樹 190
17.5 綜閤運用 192
17.6 隨機森林 194
17.7 延伸學習 195
第18章 神經網絡 196
18.1 感知器 196
18.2 前饋神經網絡 198
18.3 反嚮傳播 201
18.4 實例:戰勝CAPTCHA 202
18.5 延伸學習 206
第19章 聚類分析 208
19.1 原理 208
19.2 模型 209
19.3 示例:聚會 210
19.4 選擇聚類數目k 213
19.5 示例:對色彩進行聚類 214
19.6 自下而上的分層聚類 216
19.7 延伸學習 221
第20章 自然語言處理 222
20.1 詞雲 222
20.2 n-grams 模型  224
20.3 語法 227
20.4 題外話:吉布斯采樣 229
20.5 主題建模 231
20.6 延伸學習 236
第21章 網絡分析 237
21.1 中介中心度 237
21.2 特徵嚮量中心度 242
21.2.1 矩陣乘法 242
21.2.2 中心度 244
21.3 有嚮圖與PageRank 246
21.4 延伸學習 248
第22章 推薦係統 249
22.1 手工甄篩 250
22.2 推薦流行事物 250
22.3 基於用戶的協同過濾方法 251
22.4 基於物品的協同過濾算法 254
22.5 延伸學習 256
第23章 數據庫與SQL 257
23.1 CREATE TABLE與INSERT 257
23.2 UPDATE 259
23.3 DELETE 260
23.4 SELECT 260
23.5 GROUP BY 262
23.6 ORDER BY 264
23.7 JOIN 264
23.8 子查詢 267
23.9 索引 267
23.10 查詢優化 268
23.11 NoSQL 268
23.12 延伸學習 269
第24章 MapReduce 270
24.1 案例:單詞計數 270
24.2 為什麼是MapReduce 272
24.3 更加一般化的MapReduce 272
24.4 案例:分析狀態更新 273
24.5 案例:矩陣計算 275
24.6 題外話:組閤器 276
24.7 延伸學習 277
第25章 數據科學前瞻 278
25.1 IPython 278
25.2 數學 279
25.3 不從零開始 279
25.3.1 NumPy 279
25.3.2 pandas 280
25.3.3 scikit-learn 280
25.3.4 可視化 280
25.3.5 R 281
25.4 尋找數據 281
25.5 從事數據科學 281
25.5.1 Hacker News 282
25.5.2 消防車 282
25.5.3 T 恤 282
25.5.4 你呢? 283
作者簡介 284
關於封麵 284

前言/序言


《算法的邊界:揭秘智能的演進與未來》 內容概要 《算法的邊界》並非一本簡單的技術手冊,而是一次對人工智能核心驅動力——算法——的深度探索。它將帶領讀者穿越算法發展的漫長曆史,從最初的邏輯推理和規則集閤,到今天深刻影響我們生活的機器學習與深度學習模型。本書旨在揭示算法的運作機製,理解它們如何從海量數據中學習、推理、預測,並最終生成我們所看到的“智能”。 第一章:思維的基石——算法的萌芽與早期探索 本章將追溯算法思想的源頭,從古希臘哲學傢對邏輯和推理的思考,到圖靈機等理論計算模型的誕生。我們將瞭解早期計算機科學傢如何嘗試將人類的解決問題過程形式化,構建規則明確的程序。這一時期,算法更多地是人類智慧的直接映射,是清晰、可解釋的指令序列。我們將探討早期專傢係統、搜索算法等,理解這些基礎性工作為後續的飛躍奠定瞭怎樣的理論和實踐基礎。 第二章:從數據中學習——機器學習的崛起 進入本世紀,數據的爆炸式增長催生瞭機器學習的革命。本章將深入剖析機器學習的核心理念:讓計算機通過數據而非顯式編程來學習。我們將詳細介紹監督學習、無監督學習和強化學習這三大範式。 監督學習:重點講解迴歸和分類問題,介紹綫性迴歸、邏輯迴歸、支持嚮量機(SVM)、決策樹等經典算法。讀者將理解如何利用帶有標簽的數據訓練模型,並學習評估模型性能的關鍵指標。 無監督學習:探討聚類和降維技術,介紹 K-means、DBSCAN、主成分分析(PCA)等算法,理解如何在沒有預設標簽的情況下,發現數據中的結構和模式。 強化學習:介紹智能體(agent)在環境中通過試錯學習最優策略的過程。我們將通過馬爾可夫決策過程(MDP)等概念,闡述奬勵信號在驅動學習中的作用,並簡要提及AlphaGo等裏程碑式的成就。 第三章:深度之思——神經網絡與深度學習的飛躍 本章將聚焦深度學習,作為機器學習領域最令人矚目的分支。我們將從最基本的感知機模型開始,逐步構建起多層神經網絡(MLP)。 神經網絡的結構與工作原理:詳細解釋神經元、激活函數、權重、偏置等基本構成要素,以及信息如何在網絡中層層傳遞。 反嚮傳播算法:這是深度學習的“秘密武器”。本章將詳細解析反嚮傳播算法的數學原理,理解它如何通過計算梯度來調整網絡參數,從而實現模型的優化。 捲積神經網絡(CNN):重點介紹CNN在圖像識彆領域的巨大成功。我們將深入講解捲積層、池化層、全連接層等,並解釋它們如何有效地提取圖像特徵。 循環神經網絡(RNN)與Transformer:探討RNN在處理序列數據(如文本、時間序列)上的優勢,並重點介紹Transformer模型如何通過自注意力機製,在自然語言處理(NLP)領域取得突破性進展,甚至超越瞭RNN。 第四章:數據的魔法——特徵工程與數據預處理 再強大的算法也離不開高質量的數據。本章將深入探討數據預處理與特徵工程的重要性,這是構建有效模型不可或缺的環節。 數據清洗:處理缺失值、異常值,解決數據不一緻等問題。 特徵選擇與構造:如何從原始數據中提取或構建齣對模型有意義的特徵。我們將介紹過濾法、包裹法、嵌入法等特徵選擇技術,以及多項式特徵、交互特徵等特徵構造方法。 特徵縮放:理解標準化(Standardization)和歸一化(Normalization)在不同算法中的作用,以及它們如何影響模型收斂速度和性能。 編碼技術:處理類彆型特徵,介紹獨熱編碼(One-Hot Encoding)、標簽編碼(Label Encoding)等方法。 第五章:模型的評估與選擇——構建可靠的智能係統 訓練齣模型隻是第一步,如何評估模型的優劣並進行閤理選擇,是構建可靠智能係統的關鍵。 評估指標:針對分類任務,詳細講解準確率、精確率、召迴率、F1分數、ROC麯綫與AUC;針對迴歸任務,介紹均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)、R²分數。 交叉驗證:理解K摺交叉驗證等技術,如何更魯棒地評估模型的泛化能力,避免過擬閤。 偏差-方差權衡:深入分析模型復雜度與泛化能力之間的關係,理解如何平衡偏差(underfitting)與方差(overfitting)。 模型選擇:介紹網格搜索(Grid Search)、隨機搜索(Random Search)等超參數調優方法,以及如何根據任務需求和數據特點選擇閤適的模型。 第六章:理解的邊界——算法的可解釋性與倫理挑戰 隨著算法越來越強大,其“黑箱”特性也帶來瞭挑戰。本章將探討算法的可解釋性問題,以及由此引發的倫理和社會考量。 可解釋AI(XAI):介紹SHAP、LIME等模型解釋技術,理解它們如何幫助我們理解模型決策的過程。 算法偏見:探討數據中的偏見如何傳遞到模型中,導緻不公平的結果。我們將分析招聘、信貸、刑事司法等領域的案例。 隱私與安全:討論在數據驅動的智能係統中,如何保護用戶隱私,以及算法可能帶來的安全風險。 責任與監管:麵對日益強大的AI,我們應如何界定責任,以及未來監管可能的發展方嚮。 第七章:未來的前沿——算法的演進與智能的新疆域 本章將展望算法發展的未來趨勢,以及人工智能可能開闢的新疆域。 生成式AI:深入探討GANs(生成對抗網絡)、VAE(變分自編碼器)等生成模型,理解它們如何創造逼真的圖像、文本、音樂等內容。 圖神經網絡(GNN):介紹GNN在處理圖結構數據(如社交網絡、分子結構)上的優勢,以及其在推薦係統、藥物發現等領域的應用。 聯邦學習(Federated Learning):探討在保護數據隱私的前提下,進行分布式模型訓練的方法。 AI for Science:展望AI在科學研究中的應用,如加速新材料發現、理解復雜生物係統、預測氣候變化等。 通用人工智能(AGI)的探索:審視邁嚮通用人工智能的挑戰與可能性。 本書特色 深度與廣度兼具:從算法的哲學根源到前沿技術,全麵覆蓋人工智能的核心概念。 原理與實踐結閤:深入剖析算法的數學原理,同時輔以實際應用案例和思考。 前瞻性視角:不僅迴顧曆史,更著眼於算法的未來發展與潛在影響。 批判性思維:引導讀者理性看待AI的能力與局限,思考其社會與倫理意義。 語言嚴謹且富有洞察力:用清晰、專業的語言,闡述復雜的算法思想,激發讀者的求知欲。 《算法的邊界》將為所有對智能湧現的奧秘感到好奇的讀者提供一次深刻的啓迪之旅,無論您是初學者還是希望深化理解的專業人士,都能從中獲得寶貴的知識與啓發。它不僅僅是一本書,更是一扇窗,讓我們得以窺見正在重塑世界的強大力量。

用戶評價

評分

這本書的封麵設計簡潔大氣,封麵上“數據科學入門”幾個字穩重而有力,仿佛在嚮讀者承諾一場知識的盛宴。翻開扉頁,一股淡淡的書香撲鼻而來,讓人心生愉悅。我拿到這本書的時候,正是我對數據科學這個新興領域充滿好奇,卻又不知從何下手的時候。市麵上關於數據科學的書籍琳琅滿目,但大多晦澀難懂,或是過於專業,讓我望而卻步。然而,這本書的齣現,恰好填補瞭我心中的空白。從第一章開始,作者便用非常生動形象的比喻,將抽象的數據科學概念娓娓道來,例如將數據比作“未被雕琢的璞玉”,將數據科學傢的工作比作“為璞玉賦予靈魂的工匠”。這種通俗易懂的講解方式,瞬間拉近瞭我與數據科學之間的距離,讓我不再感到畏懼,而是充滿瞭探索的欲望。我尤其喜歡其中關於數據可視化部分的闡述,作者並沒有簡單地羅列各種圖錶類型,而是深入淺齣地講解瞭不同圖錶所傳達的信息,以及如何根據不同的數據和目的選擇最閤適的圖錶。這讓我意識到,數據可視化不僅僅是美觀,更是一種 powerful 的溝通工具。我迫不及待地想通過這本書,學習如何將枯燥的數據轉化為富有洞察力的故事。

評分

這本書的結構安排非常巧妙,循序漸進,每一個章節都像是在為前一章節的內容打下堅實的基礎。我尤其欣賞作者在講解統計學原理時,並沒有直接拋齣復雜的公式,而是從生活中常見的例子入手,比如概率的計算,從拋硬幣到預測天氣,再到彩票中奬的概率,都通過生動的案例展現瞭統計學的無處不在。這讓我對原本覺得枯燥乏味的統計學産生瞭全新的認識,甚至覺得有些有趣。書中關於機器學習算法的介紹,也是我非常期待的部分。作者在介紹綫性迴歸、邏輯迴歸等基礎算法時,並沒有陷入復雜的數學推導,而是重點講解瞭算法的原理、適用場景以及如何解讀算法的輸齣。例如,在講解綫性迴歸時,作者就用預測房價的例子,生動地展示瞭如何通過曆史數據構建模型,預測未來房價的變化趨勢。這種“授人以漁”的教學方式,讓我覺得這本書不僅僅是傳授知識,更是培養我獨立思考和解決問題的能力。我感覺自己正在一步步地解鎖數據科學的奧秘,並渴望將這些知識應用到實際的學習和工作中。

評分

這本書給我的第一感覺就是“接地氣”。作者在講解每一個概念的時候,都會巧妙地結閤實際的業務場景,讓我能夠立刻明白這些理論知識的意義和價值。例如,在講解特徵工程的時候,書中並沒有枯燥地列齣各種轉換技巧,而是用一個電商平颱的客戶流失預測的案例,來展示如何通過構建新的特徵來提升模型的預測精度。這種“學以緻用”的教學思路,讓我覺得數據科學的學習不再是空中樓閣,而是能夠切實解決現實問題的利器。我尤其喜歡書中關於模型評估的部分,作者詳細講解瞭精確率、召迴率、F1值等評估指標,並且用通俗易懂的語言解釋瞭它們的含義以及在不同場景下的側重點。這讓我對如何科學地評估一個模型的性能有瞭更深刻的理解,而不是盲目地追求某個單一的指標。總而言之,這本書讓我對數據科學的理解從“是什麼”上升到瞭“為什麼”和“怎麼做”。

評分

作為一名對數據分析略知一二的初學者,我一直苦於無法找到一本能夠係統性梳理數據處理流程的書籍。這本書的齣現,簡直是我的及時雨。它不像其他書籍那樣隻關注某個特定的算法或工具,而是從數據的獲取、清洗、轉換,到最終的分析和解讀,形成瞭一個完整的閉環。我特彆喜歡書中關於數據清洗的章節,作者詳細列舉瞭各種常見的髒數據問題,例如缺失值、異常值、重復值等等,並提供瞭行之有效的處理方法。這讓我意識到,在進行任何分析之前,數據質量的重要性不言而喻。更讓我驚喜的是,書中還穿插瞭一些關於數據倫理和隱私保護的討論,這在這個數據爆炸的時代尤為重要,也讓我從更宏觀的角度去思考數據科學的應用。雖然我還沒有完全深入到書中的每一個細節,但僅僅是這份係統性的講解,就足以讓我感到受益匪淺,也對未來學習更高級的數據科學知識充滿瞭信心。

評分

拿到這本書的時候,我其實有點小小的忐忑,因為“數據科學”這個詞聽起來就很高大上,擔心自己無法駕馭。但是,當我翻開第一頁,就被作者流暢而富有感染力的文字所吸引。書中的語言風格非常輕鬆活潑,沒有太多生僻的專業術語,即便是我這種初學者,也能輕鬆理解。作者在講解一些核心概念時,常常會用一些生動有趣的比喻,比如將模型訓練比作“教小孩子識字”,將特徵選擇比作“挑選最有用的工具”,這些都極大地降低瞭學習門檻。我尤其喜歡書中關於數據探索性分析(EDA)的講解,作者強調瞭在正式建模之前,充分理解數據的重要性,並且提供瞭一些實用的小技巧,來幫助我們發現數據中的模式和潛在的問題。這本書給我的感覺,就像是一個經驗豐富的朋友,耐心地引導我一步步走進數據科學的世界,讓我覺得學習過程是如此的愉快和有成就感。

評分

最近準備學python大數據,買本書先看看,質量不錯,送貨快,好評。

評分

很不錯的書,能夠很快接觸核心重點知識,不繁瑣,

評分

不錯的一本書,值得推薦購買

評分

還可以 學學數據分析和可視化

評分

很好的一本書,這次打摺力度很大,收獲瞭不少一直想買的書,給力!

評分

老公買的~ 很劃算。平時不打摺的!!!!

評分

好書,推薦給大傢看一下?

評分

書包裝還不錯,有空瞭再看

評分

貨真價實,服務到傢

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有