发表于2024-11-25
亚马孙资深数据科学家里面博士、统计之都创始人谢益辉博士抢先品读
当前关于大数据、人工智能的炒作着实令人眼花缭乱,如大数据平台(如Hadoop、Spark),以及一些黑箱模型,如神经网络,深度学习(实际上就是多层神经网络)。各路媒体和“砖家”深谙吃瓜群众不明觉厉的心态,所以就像个“妓院头牌“似的越发摆谱。作者并没有打算写一本数据科学的圣经,告诉你所有关于数据科学的一切;只想尽可能地给大家还原一个真实的数据科学和数据科学家。希望能为后来者提供一些信息,使得读者们能够少走弯路。
数据科学家目前是北美十分热门的职业之一,平均年薪突破10万美元。但数据科学并不是一个低门槛的行业,除了对数学、统计、计算机等相关领域的技术要求以外,还要相关应用领域的知识。《套路!机器学习:北美数据科学家的私房课》的写作对象是那些现在从事数据分析相关行业,或者之后想从事数据分析行业的人,意在为实践者提供数据科学家这门职业的相关信息。读者可以从阅读中了解到数据科学能解决的问题,数据科学家需要的技能,及背后的“分析哲学”。对于新手而言,一开始就直奔艰深的理论,很容易因为困难而失去兴趣然后放弃。因此《套路!机器学习:北美数据科学家的私房课》倡导的是一种循序渐进的启发教学路径,着重在于数据科学的实际应用,让读者能够重复书中的结果,学习数据分析技能实际的方式是实践!为了平衡理论和应用,书中包括了一些选学小节,用来介绍更多的模型数理背景或给出必要的参考资料来源。抽丝剥茧介绍技术内核,帮助大家知其然,同时知其所以然。希望笔者在北美从事数据科学工作多年踏遍大大小小不计其数的坑换来的经验,能够帮助读者更加顺利地成为数据科学家!
2013年至今任美国杜邦公司商业数据科学家。北京师范大学数学科学学院本科,爱荷华州立大学统计学院硕士和博士。曾任爱荷华州立大学兽医学院统计咨询师(2009-2013)及商学院分析咨询师(2012-2013)。当选2017-2018美国统计协会市场营销统计项目主席。翻译出版了《应用预测建模》和《R语言市场研究分析》。
第1章 白话数据科学 1
1.1 什么是数据科学 3
1.2 什么是数据科学家 5
1.2.1 数据科学家需要的技能 6
1.2.2 数据科学算法总结 10
1.3 数据科学可以解决什么问题 20
1.3.1 前提要求 20
1.3.2 问题种类 22
1.4 小结 25
第2章 数据集 26
2.1 服装消费者数据 26
2.2 航空公司满意度调查 33
2.3 生猪疫情风险预测数据 37
第3章 数据分析流程 41
3.1 从问题到数据 42
3.2 从数据到信息 44
3.3 从信息到行动 46
第4章 数据预处理 47
4.1 介绍 47
4.2 数据清理 50
4.3 缺失值填补 52
4.3.1 中位数或众数填补 53
4.3.2 K-近邻填补 54
4.3.3 装袋树填补 56
4.4 中心化和标量化 56
4.5 有偏分布 59
4.6 处理离群点 63
4.7 共线性 66
4.8 稀疏变量 70
4.9 编码名义变量 71
4.10 小结 73
第5章 数据操作 75
5.1 数据读写 76
5.1.1 取代传统数据框的tibble对象 76
5.1.2 高效数据读写:readr包 80
5.1.3 数据表对象读取 83
5.2 数据整合 91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函数 93
5.2.3 dplyr包 96
5.3 数据整形 102
5.3.1 reshape2包 102
5.3.2 tidyr包 105
5.4 小结 107
第6章 基础建模技术 109
6.1 有监督和无监督 109
6.2 误差及其来源 111
6.2.1 系统误差和随机误差 111
6.2.2 因变量误差 117
6.2.3 自变量误差 121
6.3 数据划分和再抽样 122
6.3.1 划分训练集和测试集 123
6.3.2 重抽样 131
6.4 小结 135
第7章 模型评估度量 136
7.1 回归模型评估度量 136
7.2 分类模型评估度量 139
7.2.1 Kappa统计量 141
7.2.2 ROC曲线 143
7.2.3 提升图 145
7.3 小结 146
第8章 特征工程 148
8.1 特征构建 149
8.2 特征提取 152
8.2.1 初步探索特征 153
8.2.2 主成分分析 158
8.2.3 探索性因子分析 163
8.2.4 高维标度化 167
8.2.5 知识扩展:3种降维特征提取方法的理论 171
8.3 特征选择 177
8.3.1 过滤法 178
8.3.2 绕封法 188
8.4 小结 195
第9章 线性回归及其衍生 196
9.1 普通线性回归 197
9.1.1 最小二乘线性模型 197
9.1.2 回归诊断 201
9.1.3 离群点、高杠杆点和强影响点 204
9.2 收缩方法 205
9.2.1 岭回归 205
9.2.2 Lasso 209
9.2.3 弹性网络 212
9.3 知识扩展:LASSO的变量选择功能 213
9.4 主成分和偏最小二乘回归 215
9.5 小结 221
第10章 广义线性模型压缩方法 222
10.1 初识GLMNET 223
10.2 收缩线性回归 227
10.3 逻辑回归 235
10.3.1 普通逻辑回归 235
10.3.2 收缩逻辑回归 236
10.3.3 知识扩展:群组lasso逻辑回归 239
10.4 收缩多项回归 243
10.5 泊松收缩回归 246
10.6 小结 249
第11章 树模型 250
11.1 分裂准则 252
11.2 树的修剪 256
11.3 回归树和决策树 260
11.4 装袋树 268
11.5 随机森林 273
11.6 助推法 277
11.7 知识扩展:助推法的可加模型框架 283
11.8 知识扩展:助推树的数学框架 286
11.8.1 数学表达 286
11.8.2 梯度助推数值优化 289
11.9 小结 290
第12章 神经网络 292
12.1 投影寻踪回归(PROJECTION PURSUIT REGRESSION) 293
12.2 神经网络(NEURAL NETWORKS) 296
12.3 神经网络拟合 299
12.4 训练神经网络 300
12.5 用CARET包训练神经网络 302
12.6 小结 311
参考文献 312
第1章 白话数据科学
目前数据科学和数据科学家成为了流行词汇。当有人问你干什么,你回答说数据科学家,对方会恍然大悟,觉得特别高大上,噢,数据科学家啊,听说过。是啊,没听说过数据科学家那就out了。如果接着问,数据科学家具体干什么的?然后就没有然后了。不知道你们有没有听说过这样一则轶事,美国最高法院法官Potter Stewart被问到什么是淫秽时,他回答:“看下才知道。”这和数据科学很类似,很多概念,在大而化之的时候都可以存在,大家口耳相传,聊的不亦乐乎,但一追究细节,立即土崩瓦解。那么什么是数据科学家呢?我从谷歌查询了数据科学家的定义,下面是其中的一些:
1. 住在加州的数据分析师;
2. 数据科学家是商业(数据)分析师的进化版;
3. 比软件学家更懂统计,比统计学家更懂软件科学的人;
4. 拥有出众数据分析能力的BI咨询师,尤其是能用大量数据增加商业竞争力的人;
5. 会编程,懂统计,能通过多种方式从数据中掘金的人。
此外,很多其他职位其职责都和“从数据中获取信息”有关,比如:数据分析师,BI咨询师,统计学家,金融分析师,商业分析师,预测分析师……这些不同职业有什么区别?即便都是数据科学家,教育背景等也是千差万别的。由于媒体的炒作以及对“数据科学家”这个名称的滥用,尽管总的分析行业正在飞速发展,但大家对这个行业从业人员的认识却越来越混乱。现在大部分商业领域所谓的分析都达不到“科学”的程度,而仅仅是加减乘除的游戏,数据科学工作职位比较如图1-1所示。
图1-1
这些不同的职位要求有何不同?在北美总体说来:
l 金融分析师一般有金融方向的MBA学位。他会用电子表格,知道会计软件,分析各部门的预算数据,分析实际经营结果和预测之间的差别,做一些预测,但这里的预测不会涉及复杂的机器学习和统计模型。
l 数据分析师一般有MBA学位,有一些计算机背景,很擅长使用电子表格,会用高阶的电子表格编程功能如VBA、自定义函数、宏。根据情况,会使用一些BI的软件,如Tableau,主要都是用鼠标点拖的方式。会用SQL从数据库中读取数据。我所见的商业分析师拥有很少(或没有)统计知识。所以这部分人有处理数据的知识,但是没有统计学的知识,能做的分析非常有限。
l 统计学家一般多在药厂、生物技术公司,做一些非常传统的混合效应模型、方差分析等生物统计分析。由于行业要求,多用SAS而非开源软件R。
l BI咨询师,一般也是工商管理专业,有MBA学位,受传统的商学院教育(熟悉4Ps或6Ps,4Cs,使用SWOT法分析市场),熟练使用电子表格,很少或没有其他技术背景。
l 数据科学家,多是数学/统计、计算机、工程学专业出身,会使用R, Python等多种编程语言,熟悉数据可视化。大多数在入职前没有太多市场营销知识。掌握高等概率统计,熟悉如下概念:抽样,概率分布,假设检验,方差分析,拟合优度检验,回归,时间序列预测模型,非参数估计,实验设计,决策树,马尔可夫链,贝叶斯统计(很快就能在白板上写下贝叶斯定理)。
数据科学家都分布在哪些行业呢?根据Burtch Works Executive Recruiting在2015年4月发布的“数据科学家薪资调查报告”,科技(包括互联网)公司是数据科学家最大的雇主。其次是一些为其他公司提供如广告、市场调查、市场分析等商业服务的公司。这两者之和超过了50%。2014年创业公司雇佣了29.4%的数据科学家,2015年这个比例降至14.3%,原因不是创业公司招的数据科学家职位少了,而是大公司招入的数据科学家增长迅速,整体基数变大。总体来说,数据科学家就业前景在北美是非常好的。调查还显示,在北美,大部分(70%)数据科学家工作经验还不到10年,因此数据科学还是个很年轻的行业。现在,大家对数据科学领域应该有个大致的感觉了。下面我们对其进一步探讨。
1.1 什么是数据科学
50年前,John Tukey他老人家就预言有个类似今天的数据科学的东西会出现。早在1962年,他在“数据分析的未来(The Future of Data Analysis)”[1] 中就嚷着要对学术统计进行改革。这篇文章当时发表在“数理统计年鉴(The Annals of Mathematical Statistics)”上,他的观点震惊了许多统计界的同事,这都是一群根正苗红的数理统计出身的大神们,那时数理统计年鉴中的文章都是满满的数学公式推导,从定义、定理到证明,逻辑缜密,理论精确。当然牛人最大的特点就是可以随时任性。John推导了大半辈子公式,突然有一天发现统计不是这么玩的,于是他跳出来说:
“很长一段时间我觉得自己是统计学家,对统计推断情有独钟,将从小样本上研究得到的结论推广到更大的群体。但随着数理统计的发展,我越发觉得这个路数不大对……总的来说,我觉得自己感兴趣的是数据分析,它包括:分析数据的过程,解释该过程得到结果的技术,合理计划收集数据的方案,使得之后的分析过程更方便准确,以及所有的分析中需要用到的仪器和数学理论。”
用简短的一句话概括就是:仅仅研究数学理论不是数据科学,数据科学的内容涵盖更广。
美国密歇根大学在2015年9月宣布了一个1亿美金的“数据科学项目(Data Science Initiative)”,计划在未来4年聘请35名新教授,支持与数据相关的跨学科研究。大学媒体大胆地宣称:
“数据科学已经成为第4大科学发现手段,前3个为:实验、模型和计算。”
这里的数据科学指的是什么?该项目的网站上有如下对数据科学的描述:
“数据科学是科学发现和实践的结合,其包括对大量类型各异的数据进行收集、管理、清理、分析、可视化和结果解释。其应用遍及各种科学、平移和交叉领域。”
如前所述,数据科学是一个新兴领域。在美国,对数据分析类专业人才的需求不断上升。研究估计[2],从2015到2018年,美国预计有400~500万个工作岗位要求数据分析技能,大部分这些岗位的人才需要经过特殊训练。前面已经介绍过各种和数据分析相关的行业,这些行业对专业训练的要求参差不齐。其中数据科学家的门槛是最高的。成为一个数据科学家不是件容易的事。不可否认,即使是数据科学家这个职业名称,当前也被滥用了。这些工作的本质都是从数据中获取信息。
我是这样定义数据科学的:
数据科学=数据+科学=从数据中获取信息的科学
这是一门新的科学,有各种因素推动了这门科学的产生。John提到了如下的4个驱动因素:
1. 正统统计学理论;
2. 计算机和电子显示设备的高速发展;
3. 很多领域内更多更大的数据提出的挑战;
4. 定量分析在更广的领域受到重视。
很难想象这些观点是在1962年提出的,现在看来一点也不过时。当前这4个推动力都已经存在,这也是数据科学兴起的原因。
7年之后,Tukey和Wilk在1969年又将这门科学和已经存在的科学进行对比,进一步限定了统计学在数据科学中所扮演的角色:
“……数据科学是一个困难的领域。它需要和人们能用数据做什么和想用数据做什么这样的外在条件相适应。从某种意义上说,生物比物理困难,行为科学比这两者都难,很可能总体数据科学的问题比这三者还要难。无论在现在还是短期的将来,要建立一个正式的能够给数据分析实践提供高效指导的数据科学的结构还有很长的路要走。数据科学可以从正规正统统计学那里获得很多,但它们之间也需要保持适当的距离。”
数据科学不仅是个科学领域,而且和其他已经存在很久的科学领域一样困难。统计理论只在数据科学中扮演了部分角色。
但数据科学是纯科学吗?
什么样的东西能够称为科学?我们看看John Tukey在50年前是怎么说的[1]:
怎样才能称为科学呢?回答因人而异。但下面3点大多数人都同意:
1. 智力内容(intellectual content);
2. 用能让人理解的方式组织起来;
3. 实践是检验其结果的最终标准。
第1条没有提供太多的信息,毕竟太多东西都有智力的内容,这个没有区分度。第2条也没有办法将科学和艺术区别开来。第3条我觉得才真正是区分科学和艺术的硬标准,也就是可证伪性。数据科学符合前2条,但是不总是可以证伪的。对于预测消费者是否会再次购买这样的问题,可以用真实发生的行为来评估模型表现。以及很多交互校验(cross-validation)的过程也能够用来评估模型。但对于很多市场调查数据的分析,就难以严格地科学证伪,比如分析消费者的品牌认知。对于人类心理学和行为学的研究本身就是有艺术的成分,因此相关的数据科学也同时是一门艺术。但是这和瞎猜并不一样,或许可以这样描述:这是在当前信息下能得到的最好猜测。
计算机科学之父高德纳(Donald Knuth)在他1974年出版的图书《计算机程序设计的艺术》中如此定义科学:
“能够教给计算机的知识就是科学。”
从这个角度上看,数据科学的艺术部分就更高了。计算机是数据科学不可或缺的一部分,可以说是最重要的一部分,但绝对不是全部。我们能完全依赖计算机取代数据科学家吗?很难。因为计算机不能和客户交流,将一个现实的商业问题转化成数据问题。计算机本身并不能决定什么数据应该收集,什么不需要。计算机无法对数据的质量做出评估。计算机无法向人解释模型结果,更无法将模型结果转化成商业决策建议。
因此数据科学还有艺术的一面,艺术部分的发挥就需要数据科学家啦!
作者自序
首先,感谢你翻开这本书!
这是一本什么书?
这是一本关于数据的科学和艺术的书。书中介绍了数据科学这个行业、数据科学家需要的技能,以及“分析哲学”。书中对最常用、最有效的模型进行了展开。数据科学这个行业的本质是通过分析数据解决实际问题,所以本书很看重读者能够真正将书中介绍的知识付诸实践。书中的数据全部都是公开的,书中的代码,建模过程都可以重复。一切不能重复的分析都是耍流氓!
l 为什么写这本书?
当前关于大数据、人工智能的炒作着实令人眼花缭乱,如大数据平台(如Hadoop、Spark),以及一些黑箱模型(如神经网络,深度学习“实际上就是多层神经网络”)。各路媒体和“砖家”深谙吃瓜群众不明觉厉的心态,所以就像个妓院头牌似的越发摆谱。曾经的我也是吃瓜群众中的一员,妥妥地迷失在这信息时代造成的漫天泡沫中,仿佛卡在一扇旋转门里,转了很久不知道去哪。了解一件事情最有效的方法就是实践。很幸运的是,在过去的4年里,我主导了大大小小各种分析项目。正是这些实践经验造就了这本书。我并没有打算写一本数据科学的圣经,告诉你所有关于数据科学的一切。只想尽我所能地给大家还原一个真实的数据科学和数据科学家。希望能为后来者提供一些信息,使得你们能够少走弯路。
l 为什么学习数据科学?
这个问题的答案因人而异。从事某个行业和同某人结婚一样,都有很大的随机性和主观性。所以下面只是我个人喜欢这个行业的理由。
1. 我把数据科学家定义为匠人。个人很享受作为一个匠人,统帅三军之能不如薄技在身。当你相信自己在某些领域有专长并且因此产生自我价值感时,就会有激情。激情是有吸引力的,就像爱一样,这是一种值得为之奋斗的感觉。
2. 这个世界上的手艺很多,为什么我做的是数据科学?因为我觉得数据科学这门手艺能够帮你培养在当今信息海啸中独善其身的技能——独立思考的能力。用数据进行决策能够让你看问题更清晰,有逻辑,理性客观。这种能力不是只有数据分析师才需要掌握的,理性思考是贯穿很多人一生的必修课,尤其是在互联网时代,通过理性思考甄别过滤信息比之前任何时候都重要。此外,人的大脑是有连贯性的,已经习得某项技能的人,再学另外一项技能的时候,学得会比上一次快一些,因为学习经验在起作用。而若是习得的基础知识是可积累、可扩展的,那么随后可能习得的技能可变现价值就会越来越高。通过数据分析进行决策就是一门可扩展性极高的技能,几乎可以扩展到这个数据时代的方方面面,而且随着社会的数据化趋势,这种可扩展性产生的“复利效应”将越来越大——有着可怕的潜力。
3. 数据科学是美的,美只有爱知道,所以热爱是选择这个行业的主要理由。不知道从什么时候开始,中国互联网上开始流传一句话:生活不止眼前的苟且,还有诗和远方。其实问题不在于缺少诗和远方,而在于你以为眼前的是苟且。如果你热爱自己当前 套路!机器学习:北美数据科学家的私房课 下载 mobi epub pdf txt 电子书 格式
套路!机器学习:北美数据科学家的私房课 下载 mobi pdf epub txt 电子书 格式 2024
套路!机器学习:北美数据科学家的私房课 下载 mobi epub pdf 电子书有公式推到,还不错。还没看呢,应该很好。
评分数据科学专业指导书
评分此书可以一读。
评分配送速度奇快,不能想象,多读书读好书
评分很好很好,学到了很多新的知识。书中自有黄金屋!
评分是不是那你睡吧等你睡觉觉我都不能等你都不能等你棒棒哒
评分物流很快,书的质量不错,值得拥有。
评分希望能把这方面的知识学扎实
评分满200-100买的,活动力度之大,非常满意。京东速度特别快,前一天晚上买的,第二天中午就到。快递员的态度特别好,送上楼的。
套路!机器学习:北美数据科学家的私房课 mobi epub pdf txt 电子书 格式下载 2024