编辑推荐
多位资深数据挖掘专家10余年实战经验结晶,深入讲解数据挖掘各个环节的各项技术通过10余个真实的案例为10余个行业的数据挖掘提供了解决方案,并提供相关的建模文件和源代码
内容简介
《大数据技术丛书:MATLAB数据分析与挖掘实战》共16章,共三篇。基础篇(第1~5章),第1章的主要内容是数据挖掘概述;第2章对《大数据技术丛书:MATLAB数据分析与挖掘实战》所用到的数据挖掘建模工具MATALB进行了简明扼要的说明;第3章、第4章、第5章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。实战篇(第6~15章),重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,《大数据技术丛书:MATLAB数据分析与挖掘实战》是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,在建模过程关键环节,穿插程序实现代码。最后通过上机实践,加深数据挖掘技术在案例应用中的理解。提高篇(第16章),介绍了基于MATLAB二次开发的数据挖掘应用软件——TipDM数据挖掘建模工具,并以此工具为例详细介绍了基于MATLAB接口完成数据挖掘二次开发的各个步骤,使读者体验到通过MATLAB实现数据挖掘二次开发的强大魅力。
作者简介
张良均,资深大数据挖掘专家和模式识别专家,有10多年的大数据挖掘应用、咨询经验,10余年数据仓库系统管理与实施经验,超过10年的系统开发与设计经验。为电信、电力、互联网、生产制造、零售、银行、生物、化工、医药等多个行业上百家大型企业提供过数据挖掘应用与咨询服务,实践经验非常丰富。此外,他精通JavaEE企业级应用开发,是广东工业大学和华南师范大学兼职教授,著有《神经网络实用教程》、《数据挖掘:实用案例分析》等畅销书。
目录
基础篇
第1章 数据挖掘基础
1.1 某知名连锁餐饮企业的困惑
1.2 从餐饮服务到数据挖掘
1.3 数据挖掘的基本任务
1.4 数据挖掘的建模过程
1.4.1 定义挖掘目标
1.4.2 数据取样
1.4.3 数据探索
1.4.4 数据预处理
1.4.5 挖掘建模
1.4.6 模型评价
1.5 常用的数据挖掘建模工具
1.6 小结
第2章 MATLAB数据分析工具箱简介
2.1 MATLAB的安装
2.2 MATLAB使用入门
2.2.1 MATLAB R2014a操作界面
2.2.2 MATLAB常用操作
2.3 MATLAB数据分析工具箱
2.4 配套附件使用设置
2.5 小结
第3章 数据探索
3.1 数据质量分析
3.1.1 缺失值分析
3.1.2 异常值分析
3.1.3 一致性分析
3.2 数据特征分析
3.2.1 分布分析
3.2.2 对比分析
3.2.3 统计量分析
3.2.4 周期性分析
3.2.5 贡献度分析
3.2.6 相关性分析
3.3 MATLAB主要数据的探索函数
3.3.1 统计特征函数
3.3.2 统计作图函数
3.4 小结
第4章 数据预处理
4.1 数据清洗
4.1.1 缺失值处理
4.1.2 异常值处理
4.2 数据集成
4.2.1 实体识别
4.2.2 冗余属性识别
4.3 数据变换
4.3.1 简单的函数变换
4.3.2 规范化
4.3.3 连续属性离散化
4.3.4 属性构造
4.3.5 小波变换
4.4 数据规约
4.4.1 属性规约
4.4.2 数值规约
4.5 MATLAB主要的数据预处理函数
4.6 小结
第5章 挖掘建模
5.1 分类与预测
5.1.1 实现过程
5.1.2 常用的分类与预测算法
5.1.3 回归分析
5.1.4 决策树
5.1.5 人工神经网络
5.1.6 分类与预测算法评价
5.1.7 MATLAB主要分类与预测算法函数
5.2 聚类分析
5.2.1 常用的聚类分析算法
5.2.2 K-Means聚类算法
5.2.3 聚类分析算法评价
5.2.4 MATLAB主要聚类分析算法函数
5.3 关联规则
5.3.1 常用的关联规则算法
5.3.2 Apriori算法
5.4 时序模式
5.4.1 时间序列算法
5.4.2 时间序列的预处理
5.4.3 平稳时间序列分析
5.4.4 非平稳时间序列分析
5.4.5 MATLAB主要时序模式算法函数
5.5 离群点检测
5.5.1 离群点的检测方法
5.5.2 基于统计模型的离群点的检测方法
5.5.3 基于聚类的离群点的检测方法
5.6 小结
实战篇
第6章 电力企业的窃漏电用户自动识别
6.1 背景与挖掘目标
6.2 分析方法与过程
6.2.1 数据抽取
6.2.2 数据探索分析
6.2.3 数据预处理
6.2.4 构建专家样本
6.2.5 构建模型
6.3 上机实验
6.4 拓展思考
6.5 小结
第7章 航空公司的客户价值分析
7.1 背景与挖掘目标
7.2 分析方法与过程
7.2.1 数据抽取
7.2.2 数据探索分析
7.2.3 数据预处理
7.2.4 模型构建
7.3 上机实验
7.4 拓展思考
7.5 小结
第8章 中医证型关联规则挖掘
8.1 背景与挖掘目标
8.2 分析方法与过程
8.2.1 数据获取
8.2.2 数据预处理
8.2.3 模型构建
8.3 上机实验
8.4 拓展思考
8.5 小结
第9章 基于水色图像的水质评价
9.1 背景与挖掘目标
9.2 分析方法与过程
9.2.1 数据预处理
9.2.2 构建模型
9.2.3 水质评价
9.3 上机实验
9.4 拓展思考
9.5 小结
第10章 基于关联规则的网站智能推荐服务
10.1 背景与挖掘目标
10.2 分析方法与过程
10.2.1 数据抽取
10.2.2 数据预处理
10.2.3 构建模型
10.3 上机实验
10.4 拓展思考
10.5 小结
第11章 应用系统负载分析与磁盘容量预测
11.1 背景与挖掘目标
11.2 分析方法与过程
11.2.1 数据抽取
11.2.2 数据探索分析
11.2.3 数据预处理
11.2.4 构建模型
11.3 上机实验
11.4 拓展思考
11.5 小结
第12章 面向网络舆情的关联度分析
12.1 背景与挖掘目标
12.2 分析方法与过程
12.2.1 数据抽取
12.2.2 数据预处理
12.2.3 构建模型
12.3 上机实验
12.4 拓展思考
12.5 小结
第13章 家用电器用户行为分析及事件识别
13.1 背景与挖掘目标
13.2 分析方法与过程
13.2.1 数据抽取
13.2.2 数据探索分析
13.2.3 数据预处理
13.2.4 模型构建
13.2.5 模型检验
13.3 上机实验
13.4 拓展思考
13.5 小结
第14章 基于基站定位数据的商圈分析
14.1 背景与挖掘目标
14.2 分析方法与过程
14.2.1 数据抽取
14.2.2 数据探索分析
14.2.3 数据预处理
14.2.4 构建模型
14.3 上机实验
14.4 拓展思考
14.5 小结
第15章 气象与输电线路的缺陷关联分析
15.1 背景与挖掘目标
15.2 分析方法与过程
15.2.1 数据抽取
15.2.2 数据探索分析
15.2.3 数据预处理
15.2.4 模型构建
15.3 上机实验
15.4 拓展思考
15.5 小结
提高篇
第16章 基于MATLAB的数据挖掘二次开发
16.1 混合编程应用体验——TipDM数据挖掘平台
16.1.1 建设目标
16.1.2 模型构建
16.1.3 模型发布
16.1.4 模型调用
16.1.5 模型更新
16.2 二次开发过程
16.2.1 接口算法编程
16.2.2 用Library Compiler创建Java组件
16.2.3 安装MATLAB运行时环境
16.2.4 JDK环境及设置
16.2.5 接口函数的调用
16.3 小结
参考文献
精彩书摘
决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本进行拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下分而治之的过程。 本节将详细介绍ID3算法,其也是最经典的决策树分类算法。 1.ID3算法简介及基本原理 ID3算法基于信息熵来选择最 佳的测试属性,它选择当前样本集中具有最大信息增益值的属性作为测试属性;样本集的划分则依据测试属性的取值进行,测试属性有多少个不同的取值就将样本集划分为多少个子样本集,同时决策树上相应于该样本集的节点长出新的叶子节点。ID3算法根据信息论的理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量不确定性:信息增益值越大,不确定性越小。因此,ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性,这样可以得到当前情况下最纯的拆分,从而得到较小的决策树。 ……
前言/序言
为什么要写这本书LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,在目前最炙手可热的25项技能中,数据挖掘人才需求排名第一。那么数据挖掘是什么?数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,以及提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。
但和国外相比,我国由于信息化程度不太高,企业内部信息不完整,所以零售业、银行、保险、证券等行业对数据挖掘的应用并不太理想。但随着市场竞争的加剧,各行业对数据挖掘技术的意愿越来越强烈,可以预计,未来几年,各行业的数据分析应用一定会从传统的统计分析发展到大规模的数据挖掘应用。在大数据时代,数据过剩、人才短缺,数据挖掘专业人才的培养又需要专业知识和职业经验的积累。所以,本书注重数据挖掘理论与项目案例实践相结合,可以让读者获得真实的数据挖掘学习与实践环境,更快、更好地学习数据挖掘知识与积累职业经验。
总的来说,随着云时代的来临,大数据技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素,人们对于海量数据的运用预示着新一轮生产率增长和消费者激增浪潮的到来。大数据分析技术将帮助企业用户在合理的时间内攫取、管理、处理、整理海量数据,也为企业经营决策提供积极的帮助;大数据分析作为数据存储和挖掘分析的前沿技术,广泛应用于物联网、云计算、移动互联网等战略性的新兴产业。虽然大数据目前在国内还处于初级阶段,但是其商业价值已经显现出来,特别是有实践经验的大数据分析人才更是各企业争夺的热门。为了满足日益增长的大数据分析人才的需求,很多大学开始尝试开设不同程度的大数据分析课程。“大数据分析”作为大数据时代的核心技术,必将成为高校数学与统计学专业的重要课程之一。
本书特色本书作者从实践出发,结合大量数据挖掘工程案例及教学经验,以真实案例为主线,深入浅出地介绍数据挖掘建模过程中的有关任务:数据探索、数据预处理、分类与预测、聚类分析、时序预测、关联规则挖掘、智能推荐、偏差检测等。因此,本书的编排以解决某个应用的挖掘目标为前提,先介绍案例背景并提出挖掘目标,再阐述分析方法与过程,最后完成模型构建,在介绍建模的过程中穿插操作训练,把相关的知识点嵌入相应的操作过程中。为方便读者轻松地获取一个真实的实验环境,本书使用大家熟知的MATLAB工具对样本数据进行处理以进行挖掘建模。
大数据技术丛书:MATLAB数据分析与挖掘实战 [MATLAB Data Analysis and Data Mining] 下载 mobi epub pdf txt 电子书 格式
大数据技术丛书:MATLAB数据分析与挖掘实战 [MATLAB Data Analysis and Data Mining] 下载 mobi pdf epub txt 电子书 格式 2025
大数据技术丛书:MATLAB数据分析与挖掘实战 [MATLAB Data Analysis and Data Mining] 下载 mobi epub pdf 电子书
评分
☆☆☆☆☆
最近开始学习python,用于数据挖掘
评分
☆☆☆☆☆
非常感谢京东商城给予的优质的服务,从仓储管理、物流配送等各方面都是做的非常好的。送货及时,配送员也非常的热情,有时候不方便收件的时候,也安排时间另行配送。同时京东商城在售后管理上也非常好的,以解客户忧患,排除万难。给予我们非常好的购物体验。
评分
☆☆☆☆☆
学习学习,质量看着不错,送货速度快,还是纸质学习比较有感觉
评分
☆☆☆☆☆
完美,书本质量非常好,推荐给大家。
评分
☆☆☆☆☆
买了好多书,还没来得及看,一贯好评
评分
☆☆☆☆☆
质量非常好,与卖家描述的完全一致,非常满意,真的很喜欢,完全超出期望值,发货速度非常快,包装非常仔细、严实,物流公司服务态度很好,运送速度很快,很满意的一次购物
评分
☆☆☆☆☆
概念较多,但原理讲解阐述较少。作为工程参考较合适。
评分
☆☆☆☆☆
轰轰烈烈了不回家就被这首单曲庄村内主干道均为未硬化的路面施工企业管理的通知。我
评分
☆☆☆☆☆
对于初学者来说回你不错的一本书,开始进入quant行列了,怀挺
大数据技术丛书:MATLAB数据分析与挖掘实战 [MATLAB Data Analysis and Data Mining] mobi epub pdf txt 电子书 格式下载 2025