数据科学入门

数据科学入门 pdf epub mobi txt 电子书 下载 2025

[美] 格鲁斯(Joel Grus) 著,高蓉,韩波 译
图书标签:
  • 数据科学
  • 机器学习
  • Python
  • 数据分析
  • 统计学
  • 数据挖掘
  • 人工智能
  • R语言
  • 可视化
  • 入门教程
想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 人民邮电出版社
ISBN:9787115417411
版次:1
商品编码:11896407
包装:平装
丛书名: 图灵程序设计丛书
开本:16开
出版时间:2016-03-01
用纸:胶版纸
页数:284
正文语种:中文

具体描述

编辑推荐

  介绍数据科学基本知识的重量级读本,Google数据科学家作品。   数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识——数学和统计学。   作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。  通过阅读本书,你可以:  学到一堂Python速成课;  学习线性代数、统计和概率论的基本方法,了解它们是怎样应用在数据科学中的;  掌握如何收集、探索、清理、转换和操作数据;  深入理解机器学习的基础;  运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型;  探索推荐系统、自然语言处理、网络分析、MapReduce和数据库。

内容简介

  本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境,从零开始讲解数据科学工作。具体内容包括:Python速成,可视化数据,线性代数,统计,概率,假设与推断,梯度下降法,如何获取数据,k近邻法,朴素贝叶斯算法,等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念,详细展示了什么是数据科学。

作者简介

  Joel Grus是Google的一位软件工程师,曾于数家创业公司担任数据科学家。目前住在西雅图,专注于数据科学工作并乐此不疲。

目录

前言 xiii
第1章 导论 1
1.1 数据的威力 1
1.2 什么是数据科学 1
1.3 激励假设:DataSciencester 2
1.3.1 寻找关键联系人 3
1.3.2 你可能知道的数据科学家 5
1.3.3 工资与工作年限 8
1.3.4 付费账户 10
1.3.5 兴趣主题 11
1.4 展望 12
第2章 Python速成 13
2.1 基础内容 13
2.1.1 Python获取 13
2.1.2 Python之禅 14
2.1.3 空白形式 14
2.1.4 模块 15
2.1.5 算法 16
2.1.6 函数 16
2.1.7 字符串 17
2.1.8 异常 18
2.1.9 列表 18
2.1.10 元组 19
2.1.11 字典 20
2.1.12 集合 22
2.1.13 控制流 23
2.1.14 真和假 24
2.2 进阶内容 25
2.2.1 排序 25
2.2.2 列表解析 25
2.2.3 生成器和迭代器 26
2.2.4 随机性 27
2.2.5 正则表达式 28
2.2.6 面向对象的编程 28
2.2.7 函数式工具 29
2.2.8 枚举 31
2.2.9 压缩和参数拆分 31
2.2.10 args和kwargs 32
2.2.11 欢迎来到DataSciencester 33
2.3 延伸学习 33
第3章 可视化数据 34
3.1 matplotlib 34
3.2 条形图 36
3.3 线图 40
3.4 散点图 41
3.5 延伸学习 44
第4章 线性代数 45
4.1 向量 45
4.2 矩阵 49
4.3 延伸学习 51
第5章 统计学 53
5.1 描述单个数据集 53
5.1.1 中心倾向 55
5.1.2 离散度 56
5.2 相关 58
5.3 辛普森悖论 60
5.4 相关系数其他注意事项 61
5.5 相关和因果 62
5.6 延伸学习 63
第6章 概率 64
6.1 不独立和独立 64
6.2 条件概率 65
6.3 贝叶斯定理 66
6.4 随机变量 68
6.5 连续分布 68
6.6 正态分布 69
6.7 中心极限定理 72
6.8 延伸学习 74
第7章 假设与推断 75
7.1 统计假设检验 75
7.2 案例:掷硬币 75
7.3 置信区间 79
7.4 P-hacking 80
7.5 案例:运行A/B 测试 81
7.6 贝叶斯推断 82
7.7 延伸学习 85
第8章 梯度下降 86
8.1 梯度下降的思想 86
8.2 估算梯度 87
8.3 使用梯度 90
8.4 选择正确步长 90
8.5 综合 91
8.6 随机梯度下降法 92
8.7 延伸学习 93
第9章 获取数据 94
9.1 stdin和stdout 94
9.2 读取文件 96
9.2.1 文本文件基础 96
9.2.2 限制的文件 97
9.3 网络抓取 99
9.3.1 HTML和解析方法 99
9.3.2 案例:关于数据的O’Reilly 图书 101
9.4 使用API 105
9.4.1 JSON(和XML) 105
9.4.2 使用无验证的API 106
9.4.3 寻找API 107
9.5 案例:使用Twitter API 108
9.6 延伸学习 111
第10章 数据工作 112
10.1 探索你的数据 112
10.1.1 探索一维数据 112
10.1.2 二维数据 114
10.1.3 多维数据 116
10.2 清理与修改 117
10.3 数据处理 119
10.4 数据调整 122
10.5 降维 123
10.6 延伸学习 129
第11章 机器学习 130
11.1 建模 130
11.2 什么是机器学习 131
11.3 过拟合和欠拟合 131
11.4 正确性 134
11.5 偏倚-方差权衡 136
11.6 特征提取和选择 137
11.7 延伸学习 138
第12章 k近邻法 139
12.1 模型 139
12.2 案例:最喜欢的编程语言 141
12.3 维数灾难 146
12.4 延伸学习 151
第13章 朴素贝叶斯算法 152
13.1 一个简易的垃圾邮件过滤器 152
13.2 一个复杂的垃圾邮件过滤器 153
13.3 算法的实现 154
13.4 测试模型 156
13.5 延伸学习 158
第14章 简单线性回归 159
14.1 模型 159
14.2 利用梯度下降法 162
14.3 最大似然估计 162
14.4 延伸学习 163
第15章 多重回归分析 164
15.1 模型 164
15.2 最小二乘模型的进一步假设 165
15.3 拟合模型 166
15.4 解释模型 167
15.5 拟合优度 167
15.6 题外话:Bootstrap  168
15.7 回归系数的标准误差 169
15.8 正则化 170
15.9 延伸学习 172
第16章 逻辑回归 173
16.1 问题 173
16.2 Logistic函数 176
16.3 应用模型 178
16.4 拟合优度 179
16.5 支持向量机 180
16.6 延伸学习 184
第17章 决策树 185
17.1 什么是决策树 185
17.2 熵 187
17.3 分割之熵 189
17.4 创建决策树 190
17.5 综合运用 192
17.6 随机森林 194
17.7 延伸学习 195
第18章 神经网络 196
18.1 感知器 196
18.2 前馈神经网络 198
18.3 反向传播 201
18.4 实例:战胜CAPTCHA 202
18.5 延伸学习 206
第19章 聚类分析 208
19.1 原理 208
19.2 模型 209
19.3 示例:聚会 210
19.4 选择聚类数目k 213
19.5 示例:对色彩进行聚类 214
19.6 自下而上的分层聚类 216
19.7 延伸学习 221
第20章 自然语言处理 222
20.1 词云 222
20.2 n-grams 模型  224
20.3 语法 227
20.4 题外话:吉布斯采样 229
20.5 主题建模 231
20.6 延伸学习 236
第21章 网络分析 237
21.1 中介中心度 237
21.2 特征向量中心度 242
21.2.1 矩阵乘法 242
21.2.2 中心度 244
21.3 有向图与PageRank 246
21.4 延伸学习 248
第22章 推荐系统 249
22.1 手工甄筛 250
22.2 推荐流行事物 250
22.3 基于用户的协同过滤方法 251
22.4 基于物品的协同过滤算法 254
22.5 延伸学习 256
第23章 数据库与SQL 257
23.1 CREATE TABLE与INSERT 257
23.2 UPDATE 259
23.3 DELETE 260
23.4 SELECT 260
23.5 GROUP BY 262
23.6 ORDER BY 264
23.7 JOIN 264
23.8 子查询 267
23.9 索引 267
23.10 查询优化 268
23.11 NoSQL 268
23.12 延伸学习 269
第24章 MapReduce 270
24.1 案例:单词计数 270
24.2 为什么是MapReduce 272
24.3 更加一般化的MapReduce 272
24.4 案例:分析状态更新 273
24.5 案例:矩阵计算 275
24.6 题外话:组合器 276
24.7 延伸学习 277
第25章 数据科学前瞻 278
25.1 IPython 278
25.2 数学 279
25.3 不从零开始 279
25.3.1 NumPy 279
25.3.2 pandas 280
25.3.3 scikit-learn 280
25.3.4 可视化 280
25.3.5 R 281
25.4 寻找数据 281
25.5 从事数据科学 281
25.5.1 Hacker News 282
25.5.2 消防车 282
25.5.3 T 恤 282
25.5.4 你呢? 283
作者简介 284
关于封面 284

前言/序言


《算法的边界:揭秘智能的演进与未来》 内容概要 《算法的边界》并非一本简单的技术手册,而是一次对人工智能核心驱动力——算法——的深度探索。它将带领读者穿越算法发展的漫长历史,从最初的逻辑推理和规则集合,到今天深刻影响我们生活的机器学习与深度学习模型。本书旨在揭示算法的运作机制,理解它们如何从海量数据中学习、推理、预测,并最终生成我们所看到的“智能”。 第一章:思维的基石——算法的萌芽与早期探索 本章将追溯算法思想的源头,从古希腊哲学家对逻辑和推理的思考,到图灵机等理论计算模型的诞生。我们将了解早期计算机科学家如何尝试将人类的解决问题过程形式化,构建规则明确的程序。这一时期,算法更多地是人类智慧的直接映射,是清晰、可解释的指令序列。我们将探讨早期专家系统、搜索算法等,理解这些基础性工作为后续的飞跃奠定了怎样的理论和实践基础。 第二章:从数据中学习——机器学习的崛起 进入本世纪,数据的爆炸式增长催生了机器学习的革命。本章将深入剖析机器学习的核心理念:让计算机通过数据而非显式编程来学习。我们将详细介绍监督学习、无监督学习和强化学习这三大范式。 监督学习:重点讲解回归和分类问题,介绍线性回归、逻辑回归、支持向量机(SVM)、决策树等经典算法。读者将理解如何利用带有标签的数据训练模型,并学习评估模型性能的关键指标。 无监督学习:探讨聚类和降维技术,介绍 K-means、DBSCAN、主成分分析(PCA)等算法,理解如何在没有预设标签的情况下,发现数据中的结构和模式。 强化学习:介绍智能体(agent)在环境中通过试错学习最优策略的过程。我们将通过马尔可夫决策过程(MDP)等概念,阐述奖励信号在驱动学习中的作用,并简要提及AlphaGo等里程碑式的成就。 第三章:深度之思——神经网络与深度学习的飞跃 本章将聚焦深度学习,作为机器学习领域最令人瞩目的分支。我们将从最基本的感知机模型开始,逐步构建起多层神经网络(MLP)。 神经网络的结构与工作原理:详细解释神经元、激活函数、权重、偏置等基本构成要素,以及信息如何在网络中层层传递。 反向传播算法:这是深度学习的“秘密武器”。本章将详细解析反向传播算法的数学原理,理解它如何通过计算梯度来调整网络参数,从而实现模型的优化。 卷积神经网络(CNN):重点介绍CNN在图像识别领域的巨大成功。我们将深入讲解卷积层、池化层、全连接层等,并解释它们如何有效地提取图像特征。 循环神经网络(RNN)与Transformer:探讨RNN在处理序列数据(如文本、时间序列)上的优势,并重点介绍Transformer模型如何通过自注意力机制,在自然语言处理(NLP)领域取得突破性进展,甚至超越了RNN。 第四章:数据的魔法——特征工程与数据预处理 再强大的算法也离不开高质量的数据。本章将深入探讨数据预处理与特征工程的重要性,这是构建有效模型不可或缺的环节。 数据清洗:处理缺失值、异常值,解决数据不一致等问题。 特征选择与构造:如何从原始数据中提取或构建出对模型有意义的特征。我们将介绍过滤法、包裹法、嵌入法等特征选择技术,以及多项式特征、交互特征等特征构造方法。 特征缩放:理解标准化(Standardization)和归一化(Normalization)在不同算法中的作用,以及它们如何影响模型收敛速度和性能。 编码技术:处理类别型特征,介绍独热编码(One-Hot Encoding)、标签编码(Label Encoding)等方法。 第五章:模型的评估与选择——构建可靠的智能系统 训练出模型只是第一步,如何评估模型的优劣并进行合理选择,是构建可靠智能系统的关键。 评估指标:针对分类任务,详细讲解准确率、精确率、召回率、F1分数、ROC曲线与AUC;针对回归任务,介绍均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、R²分数。 交叉验证:理解K折交叉验证等技术,如何更鲁棒地评估模型的泛化能力,避免过拟合。 偏差-方差权衡:深入分析模型复杂度与泛化能力之间的关系,理解如何平衡偏差(underfitting)与方差(overfitting)。 模型选择:介绍网格搜索(Grid Search)、随机搜索(Random Search)等超参数调优方法,以及如何根据任务需求和数据特点选择合适的模型。 第六章:理解的边界——算法的可解释性与伦理挑战 随着算法越来越强大,其“黑箱”特性也带来了挑战。本章将探讨算法的可解释性问题,以及由此引发的伦理和社会考量。 可解释AI(XAI):介绍SHAP、LIME等模型解释技术,理解它们如何帮助我们理解模型决策的过程。 算法偏见:探讨数据中的偏见如何传递到模型中,导致不公平的结果。我们将分析招聘、信贷、刑事司法等领域的案例。 隐私与安全:讨论在数据驱动的智能系统中,如何保护用户隐私,以及算法可能带来的安全风险。 责任与监管:面对日益强大的AI,我们应如何界定责任,以及未来监管可能的发展方向。 第七章:未来的前沿——算法的演进与智能的新疆域 本章将展望算法发展的未来趋势,以及人工智能可能开辟的新疆域。 生成式AI:深入探讨GANs(生成对抗网络)、VAE(变分自编码器)等生成模型,理解它们如何创造逼真的图像、文本、音乐等内容。 图神经网络(GNN):介绍GNN在处理图结构数据(如社交网络、分子结构)上的优势,以及其在推荐系统、药物发现等领域的应用。 联邦学习(Federated Learning):探讨在保护数据隐私的前提下,进行分布式模型训练的方法。 AI for Science:展望AI在科学研究中的应用,如加速新材料发现、理解复杂生物系统、预测气候变化等。 通用人工智能(AGI)的探索:审视迈向通用人工智能的挑战与可能性。 本书特色 深度与广度兼具:从算法的哲学根源到前沿技术,全面覆盖人工智能的核心概念。 原理与实践结合:深入剖析算法的数学原理,同时辅以实际应用案例和思考。 前瞻性视角:不仅回顾历史,更着眼于算法的未来发展与潜在影响。 批判性思维:引导读者理性看待AI的能力与局限,思考其社会与伦理意义。 语言严谨且富有洞察力:用清晰、专业的语言,阐述复杂的算法思想,激发读者的求知欲。 《算法的边界》将为所有对智能涌现的奥秘感到好奇的读者提供一次深刻的启迪之旅,无论您是初学者还是希望深化理解的专业人士,都能从中获得宝贵的知识与启发。它不仅仅是一本书,更是一扇窗,让我们得以窥见正在重塑世界的强大力量。

用户评价

评分

作为一名对数据分析略知一二的初学者,我一直苦于无法找到一本能够系统性梳理数据处理流程的书籍。这本书的出现,简直是我的及时雨。它不像其他书籍那样只关注某个特定的算法或工具,而是从数据的获取、清洗、转换,到最终的分析和解读,形成了一个完整的闭环。我特别喜欢书中关于数据清洗的章节,作者详细列举了各种常见的脏数据问题,例如缺失值、异常值、重复值等等,并提供了行之有效的处理方法。这让我意识到,在进行任何分析之前,数据质量的重要性不言而喻。更让我惊喜的是,书中还穿插了一些关于数据伦理和隐私保护的讨论,这在这个数据爆炸的时代尤为重要,也让我从更宏观的角度去思考数据科学的应用。虽然我还没有完全深入到书中的每一个细节,但仅仅是这份系统性的讲解,就足以让我感到受益匪浅,也对未来学习更高级的数据科学知识充满了信心。

评分

这本书的结构安排非常巧妙,循序渐进,每一个章节都像是在为前一章节的内容打下坚实的基础。我尤其欣赏作者在讲解统计学原理时,并没有直接抛出复杂的公式,而是从生活中常见的例子入手,比如概率的计算,从抛硬币到预测天气,再到彩票中奖的概率,都通过生动的案例展现了统计学的无处不在。这让我对原本觉得枯燥乏味的统计学产生了全新的认识,甚至觉得有些有趣。书中关于机器学习算法的介绍,也是我非常期待的部分。作者在介绍线性回归、逻辑回归等基础算法时,并没有陷入复杂的数学推导,而是重点讲解了算法的原理、适用场景以及如何解读算法的输出。例如,在讲解线性回归时,作者就用预测房价的例子,生动地展示了如何通过历史数据构建模型,预测未来房价的变化趋势。这种“授人以渔”的教学方式,让我觉得这本书不仅仅是传授知识,更是培养我独立思考和解决问题的能力。我感觉自己正在一步步地解锁数据科学的奥秘,并渴望将这些知识应用到实际的学习和工作中。

评分

拿到这本书的时候,我其实有点小小的忐忑,因为“数据科学”这个词听起来就很高大上,担心自己无法驾驭。但是,当我翻开第一页,就被作者流畅而富有感染力的文字所吸引。书中的语言风格非常轻松活泼,没有太多生僻的专业术语,即便是我这种初学者,也能轻松理解。作者在讲解一些核心概念时,常常会用一些生动有趣的比喻,比如将模型训练比作“教小孩子识字”,将特征选择比作“挑选最有用的工具”,这些都极大地降低了学习门槛。我尤其喜欢书中关于数据探索性分析(EDA)的讲解,作者强调了在正式建模之前,充分理解数据的重要性,并且提供了一些实用的小技巧,来帮助我们发现数据中的模式和潜在的问题。这本书给我的感觉,就像是一个经验丰富的朋友,耐心地引导我一步步走进数据科学的世界,让我觉得学习过程是如此的愉快和有成就感。

评分

这本书的封面设计简洁大气,封面上“数据科学入门”几个字稳重而有力,仿佛在向读者承诺一场知识的盛宴。翻开扉页,一股淡淡的书香扑鼻而来,让人心生愉悦。我拿到这本书的时候,正是我对数据科学这个新兴领域充满好奇,却又不知从何下手的时候。市面上关于数据科学的书籍琳琅满目,但大多晦涩难懂,或是过于专业,让我望而却步。然而,这本书的出现,恰好填补了我心中的空白。从第一章开始,作者便用非常生动形象的比喻,将抽象的数据科学概念娓娓道来,例如将数据比作“未被雕琢的璞玉”,将数据科学家的工作比作“为璞玉赋予灵魂的工匠”。这种通俗易懂的讲解方式,瞬间拉近了我与数据科学之间的距离,让我不再感到畏惧,而是充满了探索的欲望。我尤其喜欢其中关于数据可视化部分的阐述,作者并没有简单地罗列各种图表类型,而是深入浅出地讲解了不同图表所传达的信息,以及如何根据不同的数据和目的选择最合适的图表。这让我意识到,数据可视化不仅仅是美观,更是一种 powerful 的沟通工具。我迫不及待地想通过这本书,学习如何将枯燥的数据转化为富有洞察力的故事。

评分

这本书给我的第一感觉就是“接地气”。作者在讲解每一个概念的时候,都会巧妙地结合实际的业务场景,让我能够立刻明白这些理论知识的意义和价值。例如,在讲解特征工程的时候,书中并没有枯燥地列出各种转换技巧,而是用一个电商平台的客户流失预测的案例,来展示如何通过构建新的特征来提升模型的预测精度。这种“学以致用”的教学思路,让我觉得数据科学的学习不再是空中楼阁,而是能够切实解决现实问题的利器。我尤其喜欢书中关于模型评估的部分,作者详细讲解了精确率、召回率、F1值等评估指标,并且用通俗易懂的语言解释了它们的含义以及在不同场景下的侧重点。这让我对如何科学地评估一个模型的性能有了更深刻的理解,而不是盲目地追求某个单一的指标。总而言之,这本书让我对数据科学的理解从“是什么”上升到了“为什么”和“怎么做”。

评分

我觉得这本书还是不错的,很多东西讲的挺透彻的,推荐购买

评分

关于数据分析方面的书很多了,这本从数学基础到常见应用,内容不贪多,但很有帮助

评分

书还没看,之后看完了,我再来追评,嘿嘿,加油

评分

写的很好,不比老外写的差

评分

对自己说:书是买了很多,记得要去看、认真看、好好学习天天向上啊!

评分

再入三本有关Python 书籍,可以好好学习了,支持信赖京东

评分

收到,还没看,不知道怎么样呢

评分

从数理统计的基础知识,讲到最前沿的深度学习,很实用。

评分

物流非常快,包装也很精美。赞??????

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有