发表于2024-11-26
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》帮助对机器学习、数据挖掘感兴趣的读者整合时下流行的基于Python语言的程序库。如Scikit-learn,Pandas NLTK,Gensim XGBoost,TensorFlow等,并且针对现实中遇到的数据,甚至是Kaggle竞赛中的分析任务,快速搭建有效的机器学习系统。
同时,作者尽力减少读者为了理解本书,而对编程技能、数学背景的过分依赖,进而降低机器学习模型的实践门槛,让更多的兴趣爱好者体会到使用经典模型以及新的高效方法解决实际问题的乐趣。
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具,如Scikit-learn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。
《Python机器学习及实践:从零开始通往Kaggle竞赛之路》共分4章。第1章简介篇,介绍机器学习概念与Python编程知识;第2章基础篇,讲述如何使用Scikit-learn作为基础机器学习工具;第3章进阶篇,涉及怎样借助高级技术或者模型进一步提升既有机器学习系统的性能;第4章竞赛篇,以Kaggle平台为对象,帮助读者一步步使用本书介绍过的模型和技巧,完成三项具有代表性的竞赛任务。
范淼,清华大学计算机系人工智能研究所博士,研究方向涉及机器学习与自然语言处理技术。2015年3月受国家留学基金委公派至美国纽约大学计算机系联合培养。攻读博士期间,于所在研究领域内多个重要国际会议与期刊上发表论文近20篇。先后在Hulu、MSRA(微软亚洲研究院)、百度自然语言处理部、Bosch(博世)北美硅谷研究院等多个公司的研发部门实习,并承担机器学习与自然语言处理相关的研究任务。
李超, 工学博士,清华大学副研究员,信息技术研究院Web 与软件技术研究中心副主任。中国计算机学会信息存储技术专委会委员、中国计算机学会高级会员、全国文献影像技术标准化技术委员会(SAC/TC86/SC6)委员、IEEE 会员。研究领域包括海量数据存储、组织与管理、分析,及其在数字图书馆/档案馆/教育/医疗/金融等领域的应用。主持及参与多项国家973、863、科技支撑、自然基金等纵向项目及横向合作项目。已发表学术论文50 余篇、获得授权发明专利10 余项。
《Python机器学习及实践》很契合实际,从零开始介绍简单的Python语法以及如何用Python语言来写机器学习的模型。每一个章节环环相扣,配合代码样例,非常适合希望了解机器学习领域的初学者,甚至没有编程基础的学生。希望看到这本新书能推动普及机器学习。
——今日头条实验室科学家,前百度美国深度学习实验室少帅科学家-李磊
这是一本面向机器学习实践的具有很强实用性的好书,适合于想使用机器学习方法求解实际问题的博士生、硕士生、高年级本科生,以及在企业工作的工程技术人员阅读,是一本快速掌握机器学习方法求解实际问题的入门读物,相信读者将从本书中获益匪浅。
——清华大学计算机系教授-马少平
尽管目前市场上关于机器学习的书籍很多,但很少具有能够将开发语言及机器学习理论紧密结合,利用开源技术,采用类似“实训”方式的实践教学书籍。该书的作者把自己学习的经验充分融入到全书,深入浅出,是一本适合在校学生以及工程技术人员在机器学习方面快速入门的指导书。
—— 北京邮电大学软件学院教授,教研中心主任-吴国仕
不同于多数专业性的书籍,该书拥有更低的阅读门槛。即便不是计算机科学技术专业出身的读者,也可以跟随本书借助基本的Python编程,快速上手新并且最有效的机器学习模型。
——香港科技大学计算机与工程系讲座教授,系主任,IEEE、AAAI Fellow 国际人工智能协会(IJCAI,AAAI)常务理事,中国人工智能协会副理事,ACM KDD China (ACM数据挖掘委员会 中国分会)主席-杨强
该书的作者从初学者的视角,一步步带领读者从零基础快速成长为一位能够独立进行数据分析并且参与机器学习竞赛的兴趣爱好者。全书深入浅出,特别是对有意了解机器学习,又不想被复杂的数学理论困扰的读者,会从此书中获益。
——苏州大学计算机科学与技术学院副院长、人类语言技术研究所所长、特聘教授、国家杰出青年科学基金获得者-张民
如果说机器学习会主导信息产业的下一波浪潮,那么在这波浪潮来临之前,我们是否有必要对其一窥究竟。我很高兴有这样一本零基础实战的好书服务广大读者,为普及这一潮流尽绵薄之力。就像过去几十年间我们不懈普及计算机与互联网一样,人工智能,特别是机器学习的核心思想也应该走出象牙塔,拥抱普罗大众,尽可能让更多的兴趣爱好者参与到实践当中。
——清华大学语音和语言技术中心主任、教授-郑方
这是一本讲解利用Python进行机器学习实战的入门级好书。该书引导刚入门的读者,从零开始学习数据分析并掌握机器学习竞赛技能,适合于从事机器学习研究和应用的在校生和科研工作者。
——微软研究院首席研究员,自然语言处理资深专家-周明
第1章 简介篇..............................................................1
1.1 机器学习综述..............................................................1
1.1.1 任务....................................................................3
1.1.2 经验....................................................................5
1.1.3 性能....................................................................5
1.2 Python编程库..............................................................8
1.2.1 为什么使用Python........................................................8
1.2.2 Python机器学习的优势....................................................9
1.2.3 NumPy & SciPy..........................................................10
1.2.4 Matplotlib.............................................................11
1.2.5 Scikit-learn..........................................................11
1.2.6 Pandas.................................................................11
1.2.7 Anaconda...............................................................12
1.3 Python环境配置...........................................................12
1.3.1 Windows系统环境........................................................12
1.3.2 Mac OS 系统环境........................................................17
1.4 Python编程基础...........................................................18
1.4.1 Python基本语法.........................................................19
1.4.2 Python 数据类型........................................................20
1.4.3 Python 数据运算........................................................22
1.4.4 Python 流程控制........................................................26
1.4.5 Python 函数(模块)设计................................................28
1.4.6 Python 编程库(包)的导入..............................................29
1.4.7 Python 基础综合实践....................................................30
1.5章末小结..............................................................33
第2章 基础篇..............................................................34
2.1监督学习经典模型.........................................................34
2.1.1分类学习...............................................................35
2.1.1.1 线性分类器
2.1.1.2 支持向量机(分类)
2.1.1.3 朴素贝叶斯
2.1.1.4 K近邻(分类)
2.1.1.5 决策树
2.1.1.6 集成模型(分类)
2.1.2回归预测...............................................................64
2.1.2.1 线性回归器
2.1.2.2 支持向量机(回归)
2.1.2.3 K近邻(回归)
2.1.2.4 回归树
2.1.2.5 集成模型(回归)
2.2 无监督学习经典模型.......................................................81
2.2.1数据聚类......................................................81
2.2.1.1 K均值算法
2.2.2特征降维...............................................................91
2.2.2.1 主成分分析
2.3 章末小结.................................................................97
第3章 进阶篇...............................................................98
3.1 模型实用技巧.............................................................98?
3.1.1 特征提升...............................................................99
3.1.2 模型正则化............................................................111
3.1.3 模型检验..............................................................121
3.1.4 超参数搜索............................................................122
3.2 流行库/模型实践.........................................................129
3.2.1自然语言处理包(NLTK)................................................131
3.2.2 词向量(Word2Vec)技术................................................133
3.2.3 XGBoost模型...........................................................138
3.2.4 Tensorflow框架........................................................140
3.3 章末小结................................................................152
第4章 实战篇..............................................................153
4.1 Kaggle平台简介..........................................................153
4.2 Titanic罹难乘客预测.....................................................157
4.3 IMDB影评得分估计........................................................165
4.4 MNIST手写体数字图片识别.................................................174
4.5 章末小结................................................................180
后记.....................................................................181
参考文献.................................................................182
第3章 进阶篇
在第2章中,我们向读者介绍了大量经典的机器学习模型,并且使用Python编程语言分析这些模型在许多不同现实数据上的性能表现。然而,细心的读者在深入研究这些数据或者查阅Scikit-learn的文档之后就会发现: 所有我们在第2章中使用过的数据几乎都经过了规范化处理,而且模型也大多只是采用了默认的初始化配置。换言之,尽管我们可以使用经过处理之后的数据,在默认配置下学习到一套用以拟合这些数据的参数,并且使用这些参数和默认配置取得一些看似良好的性能表现;但是我们仍然无法回答几个最为关键的问题: 实际研究和工作中接触到的数据都是这样规整的吗?难道这些默认配置就是最佳的么?我们的模型性能是否还有提升的空间?本章"3.1模型使用技巧"节将会帮助读者朋友解答上述疑问。阅读完这一节,相信各位读者朋友就会掌握如何通过抽取或者筛选数据特征、优化模型配置,进一步提升经典模型的性能表现。
然而,随着近些年机器学习研究与应用的快速发展,经典模型渐渐无法满足日益增长的数据量和复杂的数据分析需求。因此,越来越多更加高效而且强力的学习模型以及对应的程序库正逐渐被设计和编写,并慢慢被科研圈和工业界所广泛接受与采用。这些模型和程序库包括: 用于自然语言处理的NLTK程序包;词向量技术Word2Vec;能够提供强大预测能力的XGBoost模型,以及Google发布的用于深度学习的Tensorflow框架等等。更加令人振奋的是,上述这些最为流行的程序库和模型, 不但提供了Python的编程接口API,而且有些成为Python编程语言的工具包,更是方便了我们后续的学习和使用。因此,在"3.2流行库/模型实践"节将会带领各位读者一同领略这些时下最为流行的程序库和新模型的奥妙。
3.1模型实用及技巧
这一节将向读者朋友传授一系列更加偏向于实战的模型使用技巧。相信各位读者在第2章中品味了多个经典的机器学习模型之后,就会发现: 一旦我们确定使用某个模型,本书所提供的程序库就可以帮助我们从标准的训练数据中,依靠默认的配置学习到模型所需要的参数(Parameters);接下来,我们便可以利用这组得来的参数指导模型在测试数据集上进行预测,进而对模型的表现性能进行评价。
但是,这套方案并不能保证: (1) 所有用于训练的数据特征都是最好的;(2) 学习得到的参数一定是最优的;(3) 默认配置下的模型总是最佳的。也就是说,我们可以从多个角度对在前面所使用过的模型进行性能提升。本节将向大家介绍多种提升模型性能的方式,包括如何预处理数据、控制参数训练以及优化模型配置等方法。
3.1.1特征提升
早期机器学习的研究与应用,受模型种类和运算能力的限制。因此,大部分研发人员把更多的精力放在对数据的预处理上。他们期望通过对数据特征的抽取或者筛选来达到提升模型性能的目的。所谓特征抽取,就是逐条将原始数据转化为特征向量的形式,这个过程同时涉及对数据特征的量化表示;而特征筛选则更进一步,在高维度、已量化的特征向量中选择对指定任务更有效的特征组合,进一步提升模型性能。
3.1.1.1特征抽取
原始数据的种类有很多种,除了数字化的信号数据(声纹、图像),还有大量符号化的文本。然而,我们无法直接将符号化的文字本身用于计算任务,而是需要通过某些处理手段,预先将文本量化为特征向量。
有些用符号表示的数据特征已经相对结构化,并且以字典这种数据结构进行存储。这时,我们使用DictVectorizer对特征进行抽取和向量化。比如下面的代码55。
代码55: DictVectorizer对使用字典存储的数据进行特征抽取与向量化
>>> # 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。
>>>measurements= [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
>>> # 从sklearn
Python机器学习及实践:从零开始通往Kaggle竞赛之路 下载 mobi epub pdf txt 电子书 格式
Python机器学习及实践:从零开始通往Kaggle竞赛之路 下载 mobi pdf epub txt 电子书 格式 2024
Python机器学习及实践:从零开始通往Kaggle竞赛之路 下载 mobi epub pdf 电子书还是很不错的,作者用尽量通俗易懂的方式,让看书的人能够掌握,挺好。
评分非常感谢京东商城给予的优质的服务,从仓储管理、物流配送等各方面都是做的非常好的。送货及时,配送员也非常的热情,有时候不方便收件的时候,也安排时间另行配送。同时京东商城在售后管理上也非常好的,以解客户忧患,排除万难。给予我们非常好的购物体验。
评分很好 刚开始学习机器学习 结合着AndrewNg的课程 学习来超好 主要是理论 又下单了几本实战的书 超棒的
评分书还可以,没有什么晦涩的理论,直接到代码实现层面
评分吾消费京东商城数年,深知各产品琳琅满目、然,唯此宝物与众皆不同,为出淤泥之清莲,使吾为之动容,心驰神往,以至茶饭不思,寝食难安,辗转反侧无法忘怀,于是乎紧衣缩食,凑齐银两,倾吾之所有而能买,东哥之热心、快递员之殷切,无不让人感激涕零,可谓迅雷不及掩耳盗铃儿响叮当仁不让世界充满爱,待打开包裹之时顿时金光四射:屋内升起七彩祥云,处处皆是祥和之气。吾惊讶之余甚是欣喜若狂,呜呼哀:哉!此宝乃是天上物,人间又得几回求!遂沐浴更衣,焚香祷告后与人共赏此宝,人皆赞叹不已,故生此宝物款型及做工,超高性价比之慨且赞吾独具慧眼与时尚品位,产品介绍果然句句实言,毫无夸大欺瞒之嫌,实乃大家之风范,忠义之商!家,这个商品还真好,非常喜
评分吾消费京东商城数年,深知各产品琳琅满目、然,唯此宝物与众皆不同,为出淤泥之清莲,使吾为之动容,心驰神往,以至茶饭不思,寝食难安,辗转反侧无法忘怀,于是乎紧衣缩食,凑齐银两,倾吾之所有而能买,东哥之热心、快递员之殷切,无不让人感激涕零,可谓迅雷不及掩耳盗铃儿响叮当仁不让世界充满爱,待打开包裹之时顿时金光四射:屋内升起七彩祥云,处处皆是祥和之气。吾惊讶之余甚是欣喜若狂,呜呼哀:哉!此宝乃是天上物,人间又得几回求!遂沐浴更衣,焚香祷告后与人共赏此宝,人皆赞叹不已,故生此宝物款型及做工,超高性价比之慨且赞吾独具慧眼与时尚品位,产品介绍果然句句实言,毫无夸大欺瞒之嫌,实乃大家之风范,忠义之商!家,这个商品还真好,非常喜
评分也安排时间另行配送。同时京东商城在售后管
评分非常感谢京东商城给予的优质的服务,从仓储管理、物流配送等各方面都是做的非常好的。送货及时,配送员也非常的热情,有时候不方便收件的时候,也安排时间另行配送。同时京东商城在售后管理上也非常好的,以解客户忧患,排除万难。给予我们非常好的购物体验。
评分书还不错了,印刷质量那行也好,应该是正版了。学习研读下,还是很好的。
Python机器学习及实践:从零开始通往Kaggle竞赛之路 mobi epub pdf txt 电子书 格式下载 2024