内容简介
本书详细介绍了大数据分析,尤其是数据分类相关算法的原理及实现细节,并给出了每个算法的编程实例。全书共计21章,内容包括十大数据分类算法、十大从二元分类到多类分类的算法、九大属性选择算法、五大数据选择算法,若干集成学习方法和不均衡数据分类算法,以及大数据分析的平台与技术。
本书可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、软件工程、地理信息系统等专业的研究生和高年级本科生的教材,也可作为科研人员、工程师和大数据爱好者的参考书。
作者简介
张重生,男,博士,教授,硕士生导师,河南大学大数据团队带头人。研究领域为大数据分析、深度学习、数据挖掘、数据库、实时数据分析。博士毕业于 INRIA,France(法国国家信息与自动化研究所)。2010年08月至2011年3月,在美国加州大学洛杉矶分校(UCLA)计算机系,师从Carlo Zaniolo教授进行流数据挖掘方面的研究。 十多年来,一直从事数据库、数据挖掘、大数据分析相关的研究,发表SCI/EI论文20篇,含Information Sciences、Neurocomputing、IEEE ICDM、PAKDD、SSDBM等国际期刊和会议论文。作为项目负责人主持 4项科研项目,出版学术专著3部,获得3项国家发明专利,指导硕士研究生12名。
目录
第1章数据分析绪论
1.1理解数据中字段的类型是数据分析的重要前提
1.2进行数据分析时数据的表示形式
1.3数据分类——数据类别的自动识别
1.4数据分类问题与回归问题的区别与联系
1.5数据分析算法简介
1.6交叉验证
1.7一个最简单的分类器-K近邻分类器
1.8后续章节组织
第2章SVM算法
2.1算法原理
2.2工具包简介
2.3实例详解
第3章决策树算法
3.1信息熵值
3.2决策树的构建目标
3.3 ID3决策树算法
3.4 C4��5决策树算法
3.5 CART决策树算法
3.6 ID3、C4��5、CART算法的终止条件
3.7C4��5算法的参数介绍
3.8实例详解
第4章随机森林算法
4.1算法原理
4.2工具包介绍
4.3实例详解
第5章梯度提升决策树算法
5.1算法原理
5.2工具包介绍
5.3实例详解
第6章AdaBoost算法
6.1算法原理
6.2工具包介绍
6.3实例详解
第7章朴素贝叶斯分类器
7.1朴素贝叶斯分类的问题定义
7.2朴素贝叶斯算法原理
7.3一种常见的朴素贝叶斯模型的错误计算方法
7.4朴素贝叶斯算法对连续型属性的处理
第8章极限学习机器算法
8.1算法原理
8.2算法参数介绍
8.3实例详解
第9章逻辑回归算法
9.1 Logistic Regression算法流程
9.2 Logistic Regression算法原理推导
第10章稀疏表示分类算法
10.1算法原理
10.2 SRC工具包及算法参数介绍
10.3 SRC算法实例详解
第11章不同数据分类算法性能的大规模实验对比分析
11.1为什么要比较不同数据分类算法的性能?
11.2不同数据分类算法性能比较的相关工作
11.3最新数据分类算法性能的大规模实验对比分析结果
11.4结论
第12章从二分类到多分类——OVA
12.1 OVA 聚合规则的核心思想
12.2 MAX聚合规则
12.3 DOO聚合规则
12.4调用示例
第13章从二分类到多分类——OVO
13.1 OVO 聚合规则的核心思想
13.2 WV聚合规则
13.3 VOTE聚合规则
13.4 PC聚合规则
13.5 PE聚合规则
13.6 LVPC聚合规则
13.7调用示例
第14章从二分类到多分类——ECOC
14.1 ECOC的核心思想
14.2 ECOC 编码
14.3 ECOC 译码
14.4 ECOC多类分类调用示例
第15章三种从二分类到多分类聚合策略的实验对比分析
15.1 OVA策略的实验结果
15.2 OVO策略的实验结果
15.3 ECOC策略的实验结果
第16章多个分类算法的集成方法研究
16.1差异性(Diversity)的原理与技术
16.2集成学习方法
16.3本章小结
第17章属性选择算法
17.1 fspackage和LibSVM的使用
17.2信息增益算法
17.3卡方分布算法
17.4基于Fisher Score的属性选择算法
17.5基于基厄系数的属性选择算法
17.6基于T检验的属性选择算法
第18章高级属性选择算法
18.1线性前向选择算法
18.2顺序前向选择算法
18.3基于稀疏多项式逻辑回归的属性选择算法
18.4 Our——多个属性选择算法的集成策略
18.5属性选择算法的大规模实验对比分析
第19章数据选择算法
19.1衡量不均衡数据分类质量的常用方法
19.2 RUS算法
19.3 CNN算法
19.4 SMOTE算法
19.5 ADASYN算法
19.6 OSS算法
19.7本章小结
第20章不均衡数据分类算法及大规模实验分析
20.1 C4.5 CS算法
20.2使用Random Forests和GBDT进行不均衡数据分类
20.3BalanceCascade不均衡数据分类算法
20.4其他不均衡数据分类算法及不均衡分类器的集成算法
20.5结合属性选择和数据选择的不均衡数据分类实验
第21章大数据分析
21.1 Spark平台简介
21.2基于Ambari的Spark及Spark集群的安装与配置
21.3 Ambari集群扩展
21.4基于Spark平台的分布式编程示例
21.5 MLlib——Spark平台上的机器学习库
前言/序言
大数据分析,尤其是数据分类与预测是数据挖掘中最重要的分支领域,也是企业需要最多且应用最广泛的技术。本书专注于大数据分析和数据分类技术。本书的目标有三:
一是成为我国“最接地气的”、最实用的、最完整、最专业的数据分析专著,成为数据挖掘爱好者、研究生、科研人员、工程师在解决数据分类和大数据分析相关问题时的首选之作。
二是成为理论与实践并重的专业书籍。本书的特点是采用示例驱动的方式讲解原理和相关实验。在讲解算法原理时,本书通过举例子的方式,详解算法的每个步骤及对应示例的结果,使得一些晦涩的公式和原理变得直接、具体、易理解。笔者翻阅了很多数据挖掘和机器学习专著,鲜有书籍能做到在原理部分示例驱动。而且,本书十分注重对于算法的应用的实战能力的培养,在讲解算法原理之后,给出具体例子,引导读者进行相关的实验,获得实践能力、解决实际问题的能力。
三是成为传播大数据分析和数据分类技术的重要媒介、培养大数据人才的首选教材。最近几年,国内外的大数据人才供不应求,其薪资通常是普通IT从业人员的两倍以上。而绝大多数国内高校在培养大数据人才时,都遇到了各种瓶颈和问题。究其原因,合适中文教材的匮乏是极为重要的一个原因。因为,大数据人才不能只是泛泛地了解数据挖掘的相关原理介绍,他们更应该深入理解算法的原理且掌握解决实际数据挖掘问题的动手能力和实战经验。而现有的教材大多是泛泛教授数据挖掘相关原理的书籍。
本书采用平民化、“接地气”的原理讲解方式,及原理与应用实践并重的思路。普通读者(本科及以上学历的读者,甚至是大三以上的学生)很容易理解、掌握本书介绍的相关算法的原理,并切实掌握相关的应用开发技能和解决实际问题的能力。这对于大数据分析、数据分类技术在我国的广泛传播,对于大数据分析人才的大规模培养,具有重要意义。
全书共21章,可以分为六个部分:第一部分包括第1~11章,此部分将讲述12个主流的数据分类算法;第二部分包括12~15章,此部分讲述从二分类(只能对两类数据进行分类)到多分类的三种主流技术及其实验对比分析;第三部分包括第16章,主要讲述若干集成学习相关的算法;第四部分包括第17~18章,主要讲述属性选择相关的原理和算法;第五部分包括第19~20章,主要讲述数据选择和不均衡数据分类相关的原理和技术;第六部分包括第21章,主要讲述大数据分析相关的平台与开发技术。
研究生毕璟君、刘畅畅、张愿承担了本书相关实验部分的程序实现与撰写的工作。
针对数据挖掘领域的初学者,建议选择第1~7章、第12章、第16~17章、第19章、第21章作为主要学习内容。如果读者是数据挖掘方向的专家、工程师、研究生、科研人员,则建议通读全书。在遇到具体问题时,请仔细阅读、理解相关章节,必要时,可以去查阅参考文献中列出的原始英文论文,进行深入的推敲和探究。
由于笔者水平有限,书中错谬之处在所难免,如蒙读者赐教,本人将感激之至。
张重生2016年10月于河南大学
大数据分析:数据挖掘必备算法示例详解 下载 mobi epub pdf txt 电子书 格式
评分
☆☆☆☆☆
这本书的内容真的不错,受益匪浅。
评分
☆☆☆☆☆
内容很详细,有基础学习也有实战部分。不过书中错误也有一些,所以学习的时候还是需要自己学会分辨。
评分
☆☆☆☆☆
大家推荐的,应该不错,等看看再来评价吧
评分
☆☆☆☆☆
这本书写得不错 推荐购买
评分
☆☆☆☆☆
这是一本深入浅出,非常适合学习大数据,里面的案例非常典型,有代表性。这是一本最实用,最专业,最完整的数据分析专著,面向所有基础不等的学生,印刷也非常用心,推荐所有人学习。
评分
☆☆☆☆☆
非常好
评分
☆☆☆☆☆
老师同学推荐买的。正在学习大数据,大致翻了一下,讲的例子比较多,对于大数据学习很有帮助。推荐准备学习或者正在学习的同学购买使用!
评分
☆☆☆☆☆
sgdasgasgds
评分
☆☆☆☆☆
书收到了,非常好!学大数据的必备教材!一定要好好看看~~