发表于2024-11-23
人工智能,触手可及,让数据起舞,用算法扩展业务边界 。
阿里机器学习专家力作,实战经验分享 。
这是一本难得的面向机器学习爱好者的入门级教程,本书涉及机器学习的基础理论
和深度学习等相关内容,内容深入浅出。更加难能可贵的是,本书基于阿里云机器学习平台,针对7个具体的业务场景,搭建了完整的解决方案,给读者带来第一手的实战演练经验。
——阿里云资深专家 褚崴
机器学习算法正在逐渐渗透到数据化运营的各个方面,算法和业务数据相结合可以大幅度地提高业务效率、降低成本。本书以算法的业务应用作为切入点,包含大量的案例说明,非常适合读者快速入门。
——阿里云高级专家 陈鹏宇
通过阅读本书,你将了解到:
机器学习全流程的串联方式,包括数据预处理、特征工程、算法、模型评估等;
常用的机器学习算法,包括逻辑回归、随机森林、支持向量机、KMEANS、DBSCAN、K近邻、
马尔科夫决策、LDA、标签传播等;
机器学习算法在实际业务中的应用,涉及金融、医疗、新闻、电商等诸多领域;
机器学习的常用工具:R、Spark-MLib、TensorFlow、PAI等;
时下热门的技术领域:深度学习、知识图谱等。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为。机器学习是人工智能的核心,是使计算机具有智能的根本途径。
本书通过对机器学习的背景知识、算法流程、相关工具、实践案例以及知识图谱等内容的讲解,全面介绍了机器学习的理论基础和实践应用。书中涉及机器学习领域的多个典型算法,并详细给出了机器学习的算法流程。
本书适合任何有一定数据功底和编程基础的读者阅读。通过阅读本书,读者不仅可以了解机器学习的理论基础,也可以参照一些典型的应用案例拓展自己的专业技能。同时,本书也适合计算机相关专业的学生以及对人工智能和机器学习感兴趣的读者阅读。
李博,花名“傲海”。目前任阿里云数据产品经理,主要负责机器学习平台的产品化建设以及对外业务应用。本科、硕士毕业于北京邮电大学,曾就职于索尼和华为(实习),从事数据相关产品的开发。作为CSDN博客专家、云栖社区博客专家,长期分享IT技术相关文章,内容涉及机器学习算法、Android应用及源码开发等领域。一直活跃于开发者社区,主导开发了多个GitHub百星开源项目,还开发并上线了多款手机App。作者微信公众号(长期更新机器学习业务应用文章):凡人机器学习 个人网站:www.garvinli.com 作者邮箱:garvin.libo@gmail.com
这是一本难得的面向机器学习爱好者的入门级教程,本书涉及机器学习的基础理论和深度学习等相关内容,内容深入浅出。更加难能可贵的是,本书基于阿里云机器学习平台,针对7个具体的业务场景,搭建了完整的解决方案,给读者带来第一手的实战演练经验。
——阿里云资深专家褚崴
机器学习算法正在逐渐渗透到数据化运营的各个方面,算法和业务数据相结合可以大幅度地提高业务效率、降低成本。本书以算法的业务应用作为切入点,包含大量的案例说明,非常适合读者快速入门。
——阿里云高级专家陈鹏宇
第1部分 背景知识
第1章 机器学习概述 3
1.1 背景 3
1.2 发展现状 6
1.2.1 数据现状 6
1.2.2 机器学习算法现状 8
1.3 机器学习基本概念 12
1.3.1 机器学习流程 12
1.3.2 数据源结构 14
1.3.3 算法分类 16
1.3.4 过拟合问题 18
1.3.5 结果评估 20
1.4 本章小结 22
第2部分 算法流程
第2章 场景解析 25
2.1 数据探查 25
2.2 场景抽象 27
2.3 算法选择 29
2.4 本章小结 31
第3章 数据预处理 32
3.1 采样 32
3.1.1 随机采样 32
3.1.2 系统采样 34
3.1.3 分层采样 35
3.2 归一化 36
3.3 去除噪声 39
3.4 数据过滤 42
3.5 本章小结 43
第4章 特征工程 44
4.1 特征抽象 44
4.2 特征重要性评估 49
4.3 特征衍生 53
4.4 特征降维 57
4.4.1 特征降维的基本概念 57
4.4.2 主成分分析 59
4.5 本章小结 62
第5章 机器学习算法——常规算法 63
5.1 分类算法 63
5.1.1 K近邻 63
5.1.2 朴素贝叶斯 68
5.1.3 逻辑回归 74
5.1.4 支持向量机 81
5.1.5 随机森林 87
5.2 聚类算法 94
5.2.1 K-means 97
5.2.2 DBSCAN 103
5.3 回归算法 109
5.4 文本分析算法 112
5.4.1 分词算法——Hmm 112
5.4.2 TF-IDF 118
5.4.3 LDA 122
5.5 推荐类算法 127
5.6 关系图算法 133
5.6.1 标签传播 134
5.6.2 Dijkstra最短路径 138
5.7 本章小结 145
第6章 机器学习算法——深度学习 146
6.1 深度学习概述 146
6.1.1 深度学习的发展 147
6.1.2 深度学习算法与传统
算法的比较 148
6.2 深度学习的常见结构 152
6.2.1 深度神经网络 152
6.2.2 卷积神经网络 153
6.2.3 循环神经网络 156
6.3 本章小结 157
第3部分 工具介绍
第7章 常见机器学习工具介绍 161
7.1 概述 161
7.2 单机版机器学习工具 163
7.2.1 SPSS 163
7.2.2 R语言 167
7.2.3 工具对比 172
7.3 开源分布式机器学习工具 172
7.3.1 Spark MLib 172
7.3.2 TensorFlow 179
7.4 企业级云机器学习工具 190
7.4.1 亚马逊AWS ML 191
7.4.2 阿里云机器学习PAI 196
7.5 本章小结 205
第4部分 实战应用
第8章 业务解决方案 209
8.1 心脏病预测 209
8.1.1 场景解析 209
8.1.2 实验搭建 211
8.1.3 小结 216
8.2 商品推荐系统 216
8.2.1 场景解析 217
8.2.2 实验搭建 218
8.2.3 小结 220
8.3 金融风控案例 220
8.3.1 场景解析 221
8.3.2 实验搭建 222
8.3.3 小结 225
8.4 新闻文本分析 225
8.4.1 场景解析 225
8.4.2 实验搭建 226
8.4.3 小结 230
8.5 农业贷款发放预测 230
8.5.1 场景解析 230
8.5.2 实验搭建 232
8.5.3 小结 236
8.6 雾霾天气成因分析 236
8.6.1 场景解析 237
8.6.2 实验搭建 238
8.6.3 小结 243
8.7 图片识别 243
8.7.1 场景解析 243
8.7.2 实验搭建 245
8.7.3 小结 253
8.8 本章小结 253
第5部分 知识图谱
第9章 知识图谱 257
9.1 未来数据采集 257
9.2 知识图谱的概述 259
9.3 知识图谱开源
工具 261
9.4 本章小结 264
参考文献 265
推荐序
近年来,在IT圈大家谈论最多的就是人工智能。AlphaGo与围棋选手的人机大战更是让我们领略到人工智能技术巨大潜力的同时,又将人工智能推向了一个新的制高点。
人工智能的发展得益于云计算和大数据技术的成熟与普及。和人工智能相关的还有两个核心词汇——机器学习和深度学习。这三者有着什么样的关系?所谓人工智能,通俗地讲是指由人工制造出来的系统所表现出来的智能。人工智能研究的核心问题包括推理、知识、交流、感知、移动和操作物体的能力。而机器学习是人工智能的一个分支,很多时候机器学习几乎成为人工智能的代名词。机器学习简单来讲就是通过算法,使机器能从大量历史数据中学习规律,从而对新的样本做出智能识别或对未来做预测。深度学习是机器学习的一个新领域。之所以称为“深度”,是因为前面说的机器学习是浅层的学习,主要基于概率统计、矩阵或图模型而得出的分析结论。深度学习的概念源于人工神经网络的研究,它基于神经网络框架,通过模拟人脑学习的方式来处理数据。在人工智能实践中,数据是载体和基础,智能是追求的目标,而机器学习则是从数据通往智能的技术桥梁。因此,在人工智能领域,机器学习才是核心,是现代人工智能的本质。
人工智能的火热使市场上对机器学习人才的需求不断提高,很多从事软件开发的程序员纷纷转行投向机器学习领域。但机器学习对人才的技术和理论水平要求都非常高,除了要掌握统计学中各种复杂的机器学习算法的理论推导外,还要懂计算机算法的实现逻辑以及分布式、并行化等架构理论。
本书是以应用场景为导向,以代码实现为样例贯穿始终,并融入了通俗易懂的理论知识。对于机器学习爱好者和想进入相关领域的从业者来说,是一本值得推荐的好书。
从2015年开始,我有幸与作者在同一个团队工作,一起设计并研发阿里云的机器学习平台——PAI。作者对机器学习的理解以及产品上的设计思想都在本书中完美地呈现,值得准备进入机器学习领域的爱好者和从业者好好品读。
感谢作者让我在新书出版之前先睹为快。
——刘吉哲 阿里云高级专家
前言
人工智能是近年来非常火的话题,人们似乎看到了在某些领域内机器智能取代人力的可能性。之所以人们可以得到这样的判断,主要是基于以下几方面原因:随着互联网的发展,人类社会积累了大量的数据可供分析;机器学习的算法不断迭代,特别是近年来随着深度学习的发展,人们从理论层面取得了实质性突破;随着分布式计算的成熟,云计算让计算资源不再成为瓶颈。我们可以把人工智能看作一个数据挖掘体系,在这个体系当中,机器学习的作用主要是学习历史数据中的经验,把这些经验构建成数学模型。人类利用机器学习算法生成的模型,就可以解决日常的一些问题,如商品推荐和对股票涨跌的预测等。
以上谈到了机器学习的主要作用,我们再来了解机器学习在业务中的应用,其实机器学习算法正在逐步向“平民化”演变。早些时候,只有一些规模比较大的公司会投入资源在智能算法的研究上,因为这些算法需要大量的数据积累以及计算资源,而且整个业务框架跟算法的结合也需要耗费很大人力,所以只有少数数据业务量达到一定规模的公司会在这方面投入。但是随着各种开源算法框架的发展以及计算资源的价格走低,机器学习不再是“奢侈品”,很多规模不大的公司也开始尝试用机器学习算法生成的模型来指导自身业务,用数据来解决业务问题是代价最小的方式,而且效果会随着数据量的积累变得越来越明显。机器学习算法正在帮助越来越多的企业实现转型,从传统的商业智能(Business Intelligence,BI)驱动到人工智能(Artificial Intelligence,AI)驱动。通过平日里与客户打交道,我们可以了解到,现在不只是互联网公司,更多传统行业,如教育、地产和医疗等,也在尝试把自己的业务数据上传到云,通过机器学习算法来提升自己的业务竞争力。
综上所述,业务与机器学习算法的结合很有可能是下一阶段行业变革的驱动力,如果固守原来的传统技术,不尝试提升业务的数据驱动力,企业很有可能在这一波新的浪潮中被淘汰。本书尝试将算法与实际的业务实战相结合,将对机器学习的全链路逐一进行介绍。在描述算法理论的时候,本书尽可能用更直白易懂的语句和图示来替代公式。另外,为了帮助读者更有成效地理解机器学习算法的使用逻辑,书中不单介绍了算法,还对整个数据挖掘的全流程,包括数据预处理、特征工程、训练以及预测、评估进行了介绍。而且本书还通过真实案例的数据,在各种不同业务场景下对整个数据挖掘流程进行了详细介绍。此外,书中还简单地介绍了深度学习和知识图谱这两个未来可能被更多关注的领域。总之,本书不是一本理论教程,而是一本推动算法与业务实践相结合的指南。
写作本书的目的
我从研究生阶段开始接触机器学习算法,在硕士研究生期间主要从事算法的理论研究和代码实现,当时参与了一些开源算法库的开发和算法大赛,那时对机器学习的理解更多的是停留在数学公式推导层面。那时候理解的机器学习就是一门统计科学,需要把公式研究透彻。直到入职阿里云,从事了机器学习平台相关的工作,我对机器学习的看法发生了很大改变。根据平日里与客户的沟通,我认识到,对绝大部分中小企业用户而言,机器学习算法只是帮助大家提升业务成效的工具,很多用户对机器学习的理解还处于比较初级的阶段,与这种现状相矛盾的是目前市面上部分机器学习相关的图书都更偏向于理论研究,而比较缺乏实际应用的场景。
写这本书的目的就是希望可以提供这样一本素材,能够让渴望了解机器学习的人快速了解整个数据挖掘体系的轮廓,可以用最小的成本帮助用户把算法迁移到机器学习云服务上去。至于算法的精密度和深度的探索,那是数学家需要考虑的事情,对绝大部分的机器学习算法用户而言,这样一本能帮助大家快速理解算法并能够将其在业务上实践的教程可能会更加有效。
对我而言,本书也是我对自己学习成果的总结。从 2013年起,我陆陆续续在CSDN、GitHub和云栖社区上分享过一些自己在IT领域的学习笔记和代码,收到了很多朋友的反馈,也有一些出版社的朋友找到我希望可以把这些内容整理成书,但是一直没有特别笃定的想法——什么样的书是有价值的。通过近一年来的机器学习平台产品建设以及与客户的不断接触,我心中的想法逐渐清晰,很多机器学习爱好者最关心的是如何使用算法而不是这些算法背后的推理,于是本书就应运而生了。虽然我才疏学浅,书中内容未免有描述不足之处,但是我真心希望这本书可以在读者探索机器学习的道路上为其提供助力。
读者对象
本书的读者对象如下:
? 有一定数学基础,希望了解机器学习算法的人;
? 有编程基础,希望自己搭建机器学习服务解决业务场景的工程师;
? 数据仓库工程师;
? 与数据挖掘相关的高校学生;
? 寻求数据驱动业务的企业决策者。
如何阅读本书
本书的结构是按照读者对机器学习的认知过程和数据挖掘的算法流程来组织的,一共分为5个部分,共9章内容。
第1部分是机器学习的背景知识介绍,包括第1章。这一部分主要介绍机器学习的发展历史以及现状,另外,也介绍了机器学习的一些基本概念,为接下来的内容做准备。
第2部分介绍机器学习的算法流程,包括第2~6章,分别介绍了场景解析、数据预处理、特征工程、机器学习常规算法和深度学习算法。在第5章的算法部分,对常见的分类算法、聚类算法、回归算法、文本分析算法、推荐算法和关系图算法都进行了介绍,从这一章可以了解到不同业务场景下不同算法的区别和用法。第6章对深度学习相关内容进行了讲解,包括常用的3种模型DNN、CNN和RNN的介绍。
第3部分介绍机器学习的相关工具,包括第7章的内容。这里的工具是一个广泛的概念,包括了 SPSS 和 R 语言这样的单机统计分析环境,也包括了分布式的算法框架Spark MLib和TensorFlow,还有企业级的云算法服务AWS ML和阿里云PAI。通过阅读这一章,读者可以根据自身的业务特点,选择适合自己的算法工具。
第4部分介绍机器学习算法的实践案例,包括第8章,帮助读者理解整个数据挖掘流程。这一章针对不同行业和不同场景搭建了实验,分别介绍了如何通过机器学习算法应对心脏病预测、商品推荐、金融风控、新闻分类、贷款预测、雾霾天气预报和图片识别等业务场景,因此也是本书的核心章节。
第5部分主要针对知识图谱这个热点话题进行介绍,包括第9章,知识图谱的介绍主要是从图谱的概念以及实现的角度来说明。
尽管读者可以根据自己的侧重点来选择阅读顺序,但我强烈建议读者按照顺序来阅读,这样对理解书中的概念并能够循序渐进地掌握相关知识更有帮助。
勘误和服务
虽然花了很多时间去反复检查和核实书中的文字、图片和代码,但是因为认知能力有限,书中难免会有一些纰漏,如果大家发现书中的不足之处,恳请反馈给我,我一定会努力修正问题,我的个人邮箱是 garvin.libo@gmail.com。如果大家在阅读本书的时候遇到什么问题,也欢迎通过各种方式与我取得联系,个人网站为www.garvinli.com,另外本人的博客地址是http://blog.csdn.net/buptgshengod。读者也可以到异步社区的页面内提交勘误,网址详见http://www.epubit.com.cn/book/detail/4757。因为工作繁忙,可能来不及一一回复,但是我会尽力与读者保持沟通,谢谢大家的支持。
机器学习实践应用 下载 mobi pdf epub txt 电子书 格式 2024
机器学习实践应用 下载 mobi epub pdf 电子书这书一般,赚流量趁热点
评分书还没拜读,但送过来没磕角啥的,书质量也不错,希望自己学有所得吧
评分618活动购买,价格很美丽。是想看的书!
评分很经典的书,需要,一定的基础才能看懂。
评分书还没拜读,但送过来没磕角啥的,书质量也不错,希望自己学有所得吧
评分值得一读,纸张很好
评分京东快递真的十分给力,昨天买的,今天就到了?
评分书很薄,感觉价格这么高完全是因为是彩色拉上去的,内容还没有看,就不评价了
评分啦啦啦,还没看,怎马评?貌似高大上
机器学习实践应用 mobi epub pdf txt 电子书 格式下载 2024