《数据挖掘导论(完整版)》全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时,还能够了解更多重要的高级主题。《数据挖掘导论(完整版)》是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。《数据挖掘导论(完整版)》特色与许多其他同类图书不同,《数据挖掘导论(完整版)》将重点放在如何用数据挖掘知识解决各种实际问题。
只要求具备很少的预备知识——不需要数据库背景,只需要很少的统计学或数学背景知识。
书中包含大量的图表、综合示例和丰富的习题,并且使用示例、关键算法的简洁描述和习题,尽可能直接聚焦于数据挖掘的主要概念。
教辅内容极为丰富,包括课程幻灯片、学生课题建议、数据挖掘资源(如数据挖掘算法和数据集)、联机指南(使用实际的数据集和数据分析软件,《数据挖掘导论(完整版)》介绍的部分数据挖掘技术提供例子讲解)。
目录
第1章 绪论 1
1.1 什么是数据挖掘 2
1.2 数据挖掘要解决的问题 2
1.3 数据挖掘的起源 3
1.4 数据挖掘任务 4
1.5 本书的内容与组织 7
文献注释 7
参考文献 8
习题 10
第2章 数据 13
2.1 数据类型 14
2.1.1 属性与度量 15
2.1.2 数据集的类型 18
2.2 数据质量 22
2.2.1 测量和数据收集问题 22
2.2.2 关于应用的问题 26
2.3 数据预处理 27
2.3.1 聚集 27
2.3.2 抽样 28
2.3.3 维归约 30
2.3.4 特征子集选择 31
2.3.5 特征创建 33
2.3.6 离散化和二元化 34
2.3.7 变量变换 38
2.4 相似性和相异性的度量 38
2.4.1 基础 39
2.4.2 简单属性之间的相似度和相异度 40
2.4.3 数据对象之间的相异度 41
2.4.4 数据对象之间的相似度 43
2.4.5 邻近性度量的例子 43
2.4.6 邻近度计算问题 48
2.4.7 选取正确的邻近性度量 50
文献注释 50
参考文献 52
习题 53
第3章 探索数据 59
3.1 鸢尾花数据集 59
3.2 汇总统计 60
3.2.1 频率和众数 60
3.2.2 百分位数 61
3.2.3 位置度量:均值和中位数 61
3.2.4 散布度量:极差和方差 62
3.2.5 多元汇总统计 63
3.2.6 汇总数据的其他方法 64
3.3 可视化 64
3.3.1 可视化的动机 64
3.3.2 一般概念 65
3.3.3 技术 67
3.3.4 可视化高维数据 75
3.3.5 注意事项 79
3.4 OLAP和多维数据分析 79
3.4.1 用多维数组表示鸢尾花数据 80
3.4.2 多维数据:一般情况 81
3.4.3 分析多维数据 82
3.4.4 关于多维数据分析的最后评述 84
文献注释 84
参考文献 85
习题 86
第4章 分类:基本概念、决策树与模型评估 89
4.1 预备知识 89
4.2 解决分类问题的一般方法 90
4.3 决策树归纳 92
4.3.1 决策树的工作原理 92
4.3.2 如何建立决策树 93
4.3.3 表示属性测试条件的方法 95
4.3.4 选择最佳划分的度量 96
4.3.5 决策树归纳算法 101
4.3.6 例子:Web机器人检测 102
4.3.7 决策树归纳的特点 103
4.4 模型的过分拟合 106
4.4.1 噪声导致的过分拟合 107
4.4.2 缺乏代表性样本导致的过分拟合 109
4.4.3 过分拟合与多重比较过程 109
4.4.4 泛化误差估计 110
4.4.5 处理决策树归纳中的过分拟合 113
4.5 评估分类器的性能 114
4.5.1 保持方法 114
4.5.2 随机二次抽样 115
4.5.3 交叉验证 115
4.5.4 自助法 115
4.6 比较分类器的方法 116
4.6.1 估计准确度的置信区间 116
4.6.2 比较两个模型的性能 117
4.6.3 比较两种分类法的性能 118
文献注释 118
参考文献 120
习题 122
第5章 分类:其他技术 127
5.1 基于规则的分类器 127
5.1.1 基于规则的分类器的工作原理 128
5.1.2 规则的排序方案 129
5.1.3 如何建立基于规则的分类器 130
5.1.4 规则提取的直接方法 130
5.1.5 规则提取的间接方法 135
5.1.6 基于规则的分类器的特征 136
5.2 最近邻分类器 137
5.2.1 算法 138
5.2.2 最近邻分类器的特征 138
5.3 贝叶斯分类器 139
5.3.1 贝叶斯定理 139
5.3.2 贝叶斯定理在分类中的应用 140
5.3.3 朴素贝叶斯分类器 141
5.3.4 贝叶斯误差率 145
5.3.5 贝叶斯信念网络 147
5.4 人工神经网络 150
5.4.1 感知器 151
5.4.2 多层人工神经网络 153
5.4.3 人工神经网络的特点 155
5.5 支持向量机 156
5.5.1 最大边缘超平面 156
5.5.2 线性支持向量机:可分情况 157
5.5.3 线性支持向量机:不可分情况 162
5.5.4 非线性支持向量机 164
5.5.5 支持向量机的特征 168
5.6 组合方法 168
5.6.1 组合方法的基本原理 168
5.6.2 构建组合分类器的方法 169
5.6.3 偏倚-方差分解 171
5.6.4 装袋 173
5.6.5 提升 175
5.6.6 随机森林 178
5.6.7 组合方法的实验比较 179
5.7 不平衡类问题 180
5.7.1 可选度量 180
5.7.2 接受者操作特征曲线 182
5.7.3 代价敏感学习 184
5.7.4 基于抽样的方法 186
5.8 多类问题 187
文献注释 189
参考文献 190
习题 193
第6章 关联分析:基本概念和算法 201
6.1 问题定义 202
6.2 频繁项集的产生 204
6.2.1 先验原理 205
6.2.2 Apriori算法的频繁项集产生 206
6.2.3 候选的产生与剪枝 208
6.2.4 支持度计数 210
6.2.5 计算复杂度 213
6.3 规则产生 215
6.3.1 基于置信度的剪枝 215
6.3.2 Apriori算法中规则的产生 215
6.3.3 例:美国国会投票记录 217
6.4 频繁项集的紧凑表示 217
6.4.1 极大频繁项集 217
6.4.2 闭频繁项集 219
6.5 产生频繁项集的其他方法 221
6.6 FP增长算法 223
6.6.1 FP树表示法 224
6.6.2 FP增长算法的频繁项集产生 225
6.7 关联模式的评估 228
6.7.1 兴趣度的客观度量 228
6.7.2 多个二元变量的度量 235
6.7.3 辛普森悖论 236
6.8 倾斜支持度分布的影响 237
文献注释 240
参考文献 244
习题 250
第7章 关联分析:高级概念 259
7.1 处理分类属性 259
7.2 处理连续属性 261
7.2.1 基于离散化的方法 261
7.2.2 基于统计学的方法 263
7.2.3 非离散化方法 265
7.3 处理概念分层 266
7.4 序列模式 267
7.4.1 问题描述 267
7.4.2 序列模式发现 269
7.4.3 时限约束 271
7.4.4 可选计数方案 274
7.5 子图模式 275
7.5.1 图与子图 276
7.5.2 频繁子图挖掘 277
7.5.3 类Apriori方法 278
7.5.4 候选产生 279
7.5.5 候选剪枝 282
7.5.6 支持度计数 285
7.6 非频繁模式 285
7.6.1 负模式 285
7.6.2 负相关模式 286
7.6.3 非频繁模式、负模式和负相关模式比较 287
7.6.4 挖掘有趣的非频繁模式的技术 288
7.6.5 基于挖掘负模式的技术 288
7.6.6 基于支持度期望的技术 290
文献注释 292
参考文献 293
习题 295
第8章 聚类分析:基本概念和算法 305
8.1 概述 306
8.1.1 什么是聚类分析 306
8.1.2 不同的聚类类型 307
8.1.3 不同的簇类型 308
8.2 K均值 310
8.2.1 基本K均值算法 310
8.2.2 K均值:附加的问题 315
8.2.3 二分K均值 316
8.2.4 K均值和不同的簇类型 317
8.2.5 优点与缺点 318
8.2.6 K均值作为优化问题 319
8.3 凝聚层次聚类 320
8.3.1 基本凝聚层次聚类算法 321
8.3.2 特殊技术 322
8.3.3 簇邻近度的Lance-Williams公式 325
8.3.4 层次聚类的主要问题 326
8.3.5 优点与缺点 327
8.4 DBSCAN 327
8.4.1 传统的密度:基于中心的方法 327
8.4.2 DBSCAN算法 328
8.4.3 优点与缺点 329
8.5 簇评估 330
8.5.1 概述 332
8.5.2 非监督簇评估:使用凝聚度和分离度 332
8.5.3 非监督簇评估:使用邻近度矩阵 336
8.5.4 层次聚类的非监督评估 338
8.5.5 确定正确的簇个数 339
8.5.6 聚类趋势 339
8.5.7 簇有效性的监督度量 340
8.5.8 评估簇有效性度量的显著性 343
文献注释 344
参考文献 345
习题 347
第9章 聚类分析:其他问题与算法 355
9.1 数据、簇和聚类算法的特性 355
9.1.1 例子:比较K均值和DBSCAN 355
9.1.2 数据特性 356
9.1.3 簇特性 357
9.1.4 聚类算法的一般特性 358
9.2 基于原型的聚类 359
9.2.1 模糊聚类 359
9.2.2 使用混合模型的聚类 362
9.2.3 自组织映射 369
9.3 基于密度的聚类 372
9.3.1 基于网格的聚类 372
9.3.2 子空间聚类 374
9.3.3 DENCLUE:基于密度聚类的一种基于核的方案 377
9.4 基于图的聚类 379
9.4.1 稀疏化 379
9.4.2 最小生成树聚类 380
9.4.3 OPOSSUM:使用METIS的稀疏相似度最优划分 381
9.4.4 Chameleon:使用动态建模的层次聚类 381
9.4.5 共享最近邻相似度 385
9.4.6 Jarvis-Patrick聚类算法 387
9.4.7 SNN密度 388
9.4.8 基于SNN密度的聚类 389
9.5 可伸缩的聚类算法 390
9.5.1 可伸缩:一般问题和方法 391
9.5.2 BIRCH 392
9.5.3 CURE 393
9.6 使用哪种聚类算法 395
文献注释 397
参考文献 398
习题 400
第10章 异常检测 403
10.1 预备知识 404
10.1.1 异常的成因 404
10.1.2 异常检测方法 404
10.1.3 类标号的使用 405
10.1.4 问题 405
10.2 统计方法 406
10.2.1 检测一元正态分布中的离群点 407
10.2.2 多元正态分布的离群点 408
10.2.3 异常检测的混合模型方法 410
10.2.4 优点与缺点 411
10.3 基于邻近度的离群点检测 411
10.4 基于密度的离群点检测 412
10.4.1 使用相对密度的离群点检测 413
10.4.2 优点与缺点 414
10.5 基于聚类的技术 414
10.5.1 评估对象属于簇的程度 415
10.5.2 离群点对初始聚类的影响 416
10.5.3 使用簇的个数 416
10.5.4 优点与缺点 416
文献注释 417
参考文献 418
习题 420
附录A 线性代数 423
附录B 维归约 433
附录C 概率统计 445
附录D 回归 451
附录E 优化 457
我一直认为,好的技术书籍不仅仅在于理论的深度,更在于它能否真正引领读者走向实践。而这本书在这方面做得非常出色。它并没有止步于概念的讲解,而是花了大量篇幅去探讨数据挖掘的整个流程,从数据预处理的各种挑战,到模型评估的多种指标,再到结果的解释和应用。其中关于数据清洗的章节,我简直是如获至宝。作者详细列举了缺失值、异常值、噪声等常见的数据问题,并且提出了多种行之有效的处理方法,比如插补、平滑、过滤等等,并对这些方法的优缺点进行了深入分析。此外,书中还穿插了许多实际案例的研究,虽然我还没有深入到具体代码实现的部分,但光是阅读这些案例,就能感受到数据挖掘在金融、医疗、零售等各个领域的巨大潜力,也让我对接下来的学习充满了期待。对我而言,能够在一本书中既学到“做什么”,又学到“怎么做”,还有“为什么这样做”,这才是真正有价值的学习体验。
评分作为一名对数据分析有浓厚兴趣的跨领域学习者,我常常觉得很多技术书籍要么过于晦涩难懂,要么就过于浅尝辄止。但《数据挖掘导论》这本书,却在我这里找到了一个很好的平衡点。它的语言风格非常平实,没有过多华丽的辞藻,但每一个字都透露着作者对专业知识的精准把握。书中对于一些核心概念的定义,例如“特征选择”和“特征提取”,作者都给出了非常贴切的比喻,让我这种非计算机科班出身的人也能轻松理解。而且,书中在讲解算法时,经常会穿插一些“思维导图”式的总结,或者用流程图来展示算法的步骤,这种可视化呈现方式大大降低了学习门槛,也帮助我理清了复杂的逻辑关系。此外,书中还涉及了数据挖掘在不同领域的应用前景,比如在市场营销中的客户细分、在医学诊断中的疾病预测等等,这些都让我看到了数据挖掘的实际价值,也激发了我进一步深入学习的动力。
评分我最近在读一本关于数据挖掘的书,这本书的编排方式非常值得称赞。它以一种非常系统化的方式,将数据挖掘的整个生命周期展现在读者面前,从最初的数据收集、存储,到后来的数据探索、预处理,再到核心的建模和评估,最后落脚到结果的解释和部署。这种结构清晰的书籍,对于我这样希望建立完整知识体系的学习者来说,无疑是一大福音。书中对于每一步骤的讲解都非常详尽,例如在数据预处理部分,作者详细讲解了如何处理缺失值、如何进行异常值检测,以及如何进行数据变换和规范化。更让我惊喜的是,书中还对不同数据类型的特点以及它们在预处理过程中可能遇到的问题进行了深入分析,让我意识到数据质量对于整个挖掘过程的重要性。此外,在模型评估章节,作者不仅列举了常见的评估指标,还深入分析了这些指标背后的数学原理以及它们各自的适用场景,这种由浅入深的讲解方式,让我能够更深刻地理解算法的优劣,并能根据实际需求做出更明智的选择。
评分这本书的封面设计倒是挺吸引人的,简约而不失专业感。翻开第一页,扑面而来的是一种严谨的学术气息,排版清晰,字体大小适中,阅读起来感觉很舒服。序言部分更是直接点明了数据挖掘的时代背景和重要性,用词精炼,逻辑严密,立刻就能感受到作者对于这个领域的深刻洞察和热情。让我印象深刻的是,作者在介绍数据挖掘的起源时,并没有简单罗列历史事件,而是深入分析了其背后驱动的技术革新和社会需求,这使得我对数据挖掘的产生有了更宏观的认识。书中对一些基础概念的解释也相当到位,比如“模式”和“知识”的区分,以及“可发现性”和“有用性”的权衡,这些都是我们在实际应用中常常会遇到的问题,作者能够如此清晰地阐述,无疑为读者打下了坚实的基础。而且,书中在引入复杂的算法之前,都会先给出直观的类比或者简单的例子,帮助读者理解其核心思想,这一点做得非常棒,我这类初学者能够快速跟上节奏,不至于因为一开始的理论深度而望而却步。
评分这本书在理论深度和广度上都给我留下了深刻的印象。它并没有回避那些令人头疼的数学公式和算法细节,而是以一种循序渐进的方式,将复杂的概念分解开来。我尤其喜欢作者在介绍分类算法时,对决策树、支持向量机、贝叶斯分类器等几种主流方法的比较分析。作者不仅清晰地阐述了每种算法的工作原理,还深入剖析了它们各自的优势和局限性,比如决策树的可解释性强,但容易过拟合;支持向量机在处理高维数据时表现优异,但训练过程可能耗时较长。这种多角度的审视,让我在理解算法时,不再是死记硬背,而是能够真正理解它们背后的逻辑和适用场景。更让我惊喜的是,书中对一些高级主题,比如集成学习、关联规则挖掘、聚类分析的深入探讨,也处理得恰到好处,既有理论的严谨性,又不失对概念的清晰阐释,让人在阅读过程中,能够逐渐建立起对整个数据挖掘知识体系的完整认知。
评分应该是正版的,打开后有塑膜包装,还不错,值得推荐
评分买来看看,不知道内容如何,好的话再评价。
评分可以的,不错的!!!!!!!!!!!!!!!!!!
评分刚开始看,还不错。
评分翻译的太烂了。“信达雅”连“信”字都达不到。建议买英文原版。
评分还没看,好厚
评分凑单买的,看到怀疑人生
评分书的质量很差,书都折了,很闹心,很失望
评分有意思,通俗易懂。。。。。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有