书[0名0]: | 数据挖掘:概念与技术(原书[0第0]3版)|3683062 |
图书定价: | 79元 |
图书作者: | (美)Jiawei Han;(加)Micheline Kamber;(加)Jian Pei |
出版社: | 机械工业出版社 |
出版日期: | 2012-8-1 0:00:00 |
ISBN号: | 9787111391401 |
开本: | 16开 |
页数: | 468 |
版次: | 1-1 |
作者简介 |
Jiawei Han(韩家炜)是伊利诺伊[0大0][0学0]厄巴纳-尚佩恩分校计算机科[0学0]系的Bliss教授。他因[0知0]识发现和数据挖掘研究方面的贡献而获得许多奖励,包括ACM SIGKDD创新奖(2004)、IEEE计算机[0学0][0会0]技术成就奖(2005)和IEEE W.W[0all0]ace McDowell奖(2009)。他是ACM和IEEE[0会0]士。他还担任《ACM Transactions on K[0no0]wledge Discovery from Data》的执行主编(2006—2011)和许多杂志的编委,包括《IEEE Transactions on K[0no0]wledge and Data Engineering》和《Data Mining K[0no0]wledge Discovery》。 Micheline Kamber由加拿[0大0]魁北克蒙特利尔Concordia[0大0][0学0]获计算机科[0学0](人工智能专业)硕士[0学0]位。她曾是NSERC[0学0]者,作为研究者在McGill[0大0][0学0]、西蒙-弗雷泽[0大0][0学0]和瑞士工作。她的数据挖掘背景和以易于理解的形式写作的热情使得本书更受专业人员、教师和[0学0]生的欢迎。 Jian Pei(裴健)现在是西蒙-弗雷泽[0大0][0学0]计算机科[0学0][0学0]院教授。他在Jiawei Han的指导下,于2002年获西蒙-弗雷泽[0大0][0学0]计算科[0学0]博士[0学0]位。他在数据挖掘、数据库、Web搜索和信息检索的主要[0学0]术论坛发表了[0大0]量文章,并积[0极0]服务于[0学0]术团体。他的文章被引用数千次,并获多次荣誉奖。他是多种数据挖掘和数据分析杂志的助理编辑。范明 郑州[0大0][0学0]信息工程[0学0]院教授,博士生导师。现为中[0国0]计算机[0学0][0会0]数据库专业委员[0会0]委员、人工智能与模式识别专业委员[0会0]委员。长期从事计算机软件与理论教[0学0]和研究。主要讲授的课程包括程序设计、计算机操作系统、数据库系统原理、[0知0]识库系统原理、数据挖掘与数据仓库等。1989—1990年曾访问加拿[0大0]Simon Fraser[0大0][0学0]计算机科[0学0]系,从事演绎数据库研究。1999年曾访问美[0国0]Wright State[0大0][0学0]计算机科[0学0]与工程系,从事数据挖掘研究。[0当0]前感兴趣的研究方向包括数据挖掘和机器[0学0]习。先后发表论文60余篇。除本书外,还主持翻译了Pang-Ning Tan、Michael Steinbach和Vipin Kumar的《数据挖掘导论》。孟小峰 博士,中[0国0]人民[0大0][0学0]信息[0学0]院教授,博士生导师。现为中[0国0]计算机[0学0][0会0]常务理事、中[0国0]计算机[0学0][0会0]数据库专委[0会0]秘书长,《Journal of Computer Science and Tech[0no0]logy》、《Frontiers of Computer Science》、《软件[0学0]报》、《计算机研究与发展》等编委。主持或参加过二十多项[0国0]家科技攻关项目、[0国0]家自然科[0学0]基金项目以及[0国0]家863项目、973项目,先后获电子部科技进步特等奖(1996)、北京市科技进步二等奖(1998、2001)、中[0国0]计算机[0学0][0会0]“王选奖”一等奖(2009)、北京市科[0学0]技术奖二等奖(2011)等奖励,入选“中创软件人才奖”(2002)、“教育部新世纪[0优0]秀人才支持计划”(2004)、“[0第0]三届北京市高校[0名0]师奖”(2005)。近5年在[0国0]内外杂志及[0国0]际[0会0]议发表论文120多篇,出版[0学0]术专著《Moving Objects Management: Models,Techniques,and Applications》(Springer)、《XML数据管理:概念与技术》、《移动数据管理:概念与技术》(中[0国0]计算机[0学0][0会0][0学0]术著作丛书)等。获[0国0]家发明专利授[0权0]8项。近期主要研究[0领0]域为互联网络与移动数据管理,包括Web数据集成、XML数据库系统、云数据管理、闪存数据库系统、隐私保护等。 |
内容简介 |
《数据挖掘:概念与技术(原书[0第0]3版)》完整全面地讲述数据挖掘的概念、方[0法0]、技术和新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用[0领0]域。 《数据挖掘:概念与技术(原书[0第0]3版)》是数据挖掘和[0知0]识发现[0领0]域内的所有教师、研究人员、开发人员和用户都必读的参考书,是一本适用于数据分析、数据挖掘和[0知0]识发现课程的[0优0]秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。 |
目录 |
《数据挖掘:概念与技术(原书[0第0]3版)》 出版者的话 中文版序 译者序 译者简介 [0第0]3版序 [0第0]2版序 前言 致谢 作者简介 [0第0]1章引论1 1.1为什么进行数据挖掘1 1.1.1迈向信息时代1 1.1.2数据挖掘是信息技术的进化2 1.2什么是数据挖掘4 1.3可以挖掘什么类型的数据6 1.3.1数据库数据6 1.3.2数据仓库7 1.3.3事务数据9 1.3.4其他类型的数据9 1.4可以挖掘什么类型的模式10 1.4.1类/概念描述:特征化与区分10 1.4.2挖掘频繁模式、关联和相关性11 1.4.3用于预测分析的分类与回归12 1.4.4聚类分析13 1.4.5离群点分析14 1.4.6所有模式都是有趣的吗14 1.5使用什么技术15 1.5.1统计[0学0]15 1.5.2机器[0学0]习16 1.5.3数据库系统与数据仓库17 1.5.4信息检索17 1.6面向什么类型的应用18 1.6.1[0商0]务智能18 1.6.2Web搜索引擎18 1.7数据挖掘的主要问题19 1.7.1挖掘方[0法0]19 1.7.2用户界面20 1.7.3有效性和可伸缩性21 1.7.4数据库类型的多样性21 1.7.5数据挖掘与社[0会0]21 1.8小结22 1.9习题23 1.10文献注释23 [0第0]2章认识数据26 2.1数据对象与属性类型26 2.1.1什么是属性27 2.1.2标称属性27 2.1.3二元属性27 2.1.4序数属性28 2.1.5数值属性28 2.1.6离散属性与连续属性29 2.2数据的基本统计描述29 2.2.1中心趋势度量:均值、中位数和众数30 2.2.2度量数据散布:[0极0]差、四分位数、方差、标准差和四分位数[0极0]差32 2.2.3数据的基本统计描述的图形显示34 2.3数据可视化37 2.3.1基于像素的可视化技术37 2.3.2几何投影可视化技术38 2.3.3基于图符的可视化技术40 2.3.4层次可视化技术42 2.3.5可视化复杂对象和关系42 2.4度量数据的相似性和相异性44 2.4.1数据矩阵与相异性矩阵45 2.4.2标称属性的邻近性度量46 2.4.3二元属性的邻近性度量46 2.4.4数值属性的相异性:闵可夫斯基距离48 2.4.5序数属性的邻近性度量49 2.4.6混合类型属性的相异性50 2.4.7余弦相似性51 2.5小结52 2.6习题53 2.7文献注释54 [0第0]3章数据预处理55 3.1数据预处理:概述55 3.1.1数据质量:为什么要对数据预处理55 3.1.2数据预处理的主要任务56 3.2数据清理58 3.2.1缺失值58 3.2.2噪声数据59 3.2.3数据清理作为一个过程60 3.3数据集成61 3.3.1实体识别问题62 3.3.2冗余和相关分析62 3.3.3元组重复65 3.3.4数据值冲突的检测与处理65 3.4数据归约65 3.4.1数据归约策略概述66 3.4.2小波变换66 3.4.3主成分分析67 3.4.4属性子集选择68 3.4.5回归和对数线性模型:参数化数据归约69 3.4.6直方图70 3.4.7聚类71 3.4.8抽样71 3.4.9数据立方体聚集72 3.5数据变换与数据离散化73 3.5.1数据变换策略概述73 3.5.2通过规范化变换数据74 3.5.3通过分箱离散化76 3.5.4通过直方图分析离散化76 3.5.5通过聚类、决策树和相关分析离散化76 3.5.6标称数据的概念分层产生77 3.6小结79 3.7习题79 3.8文献注释80 [0第0]4章数据仓库与联机分析处理82 4.1数据仓库:基本概念82 4.1.1什么是数据仓库82 4.1.2操作数据库系统与数据仓库的区别84 4.1.3为什么需要分离的数据仓库85 4.1.4数据仓库:一种多层体系结构85 4.1.5数据仓库模型:企业仓库、数据集市和虚拟仓库87 4.1.6数据提取、变换和装入88 4.1.7元数据库88 4.2数据仓库建模:数据立方体与OLAP89 4.2.1数据立方体:一种多维数据模型89 4.2.2星形、雪花形和事实星座:多维数据模型的模式91 4.2.3维:概念分层的作用94 4.2.4度量的分类和计算95 4.2.5典型的OLAP操作96 4.2.6查询多维数据库的星网查询模型98 4.3数据仓库的设计与使用99 4.3.1数据仓库的设计的[0商0]务分析框架99 4.3.2数据仓库的设计过程100 4.3.3数据仓库用于信息处理101 4.3.4从联机分析处理到多维数据挖掘102 4.4数据仓库的实现103 4.4.1数据立方体的有效计算:概述103 4.4.2索引OLAP数据:位图索引和连接索引105 4.4.3OLAP查询的有效处理107 4.4.4OLAP服务器结构:ROLAP、MOLAP、HOLAP的比较107 4.5数据泛化:面向属性的归纳109 4.5.1数据特征的面向属性的归纳109 4.5.2面向属性归纳的有效实现113 4.5.3类比较的面向属性归纳114 4.6小结116 4.7习题117 4.8文献注释119 [0第0]5章数据立方体技术121 5.1数据立方体计算:基本概念121 5.1.1立方体物化:完全立方体、冰山立方体、闭立方体和立方体外壳122 5.1.2数据立方体计算的一般策略124 5.2数据立方体计算方[0法0]126 5.2.1完全立方体计算的多路数组聚集126 5.2.2BUC:从[0顶0]点方体向下计算冰山立方体129 5.2.3Star-Cubing:使用动态星树结构计算冰山立方体132 5.2.4为快速高维OLAP预计算壳片段136 5.3使用探索立方体技术处理高级查询141 5.3.1抽样立方体:样本数据上基于OLAP的挖掘141 5.3.2排序立方体:top-k查询的有效计算145 5.4数据立方体空间的多维数据分析147 5.4.1预测立方体:立方体空间的预测挖掘147 5.4.2多特征立方体:多粒度上的复杂聚集149 5.4.3基于异常的、发现驱动的立方体空间探查149 5.5小结152 5.6习题152 5.7文献注释155 [0第0]6章挖掘频繁模式、关联和相关性:基本概念和方[0法0]157 6.1基本概念157 6.1.1购物篮分析:一个诱发例子157 6.1.2频繁项集、闭项集和关联规则158 6.2频繁项集挖掘方[0法0]160 6.2.1Apriori算[0法0]:通过限制候选产生发现频繁项集160 6.2.2由频繁项集产生关联规则164 6.2.3提高Apriori算[0法0]的效率165 6.2.4挖掘频繁项集的模式增长方[0法0]166 6.2.5使用垂直数据格式挖掘频繁项集169 6.2.6挖掘闭模式和[0极0][0大0]模式170 6.3哪些模式是有趣的:模式[0评0]估方[0法0]171 6.3.1强规则不一定是有趣的172 6.3.2从关联分析到相关分析172 6.3.3模式[0评0]估度量比较173 6.4小结176 6.5习题177 6.6文献注释179 [0第0]7章高级模式挖掘180 7.1模式挖掘:一个路线图180 7.2多层、多维空间中的模式挖掘182 7.2.1挖掘多层关联规则182 7.2.2挖掘多维关联规则185 7.2.3挖掘量化关联规则186 7.2.4挖掘稀有模式和负模式188 7.3基于约束的频繁模式挖掘190 7.3.1关联规则的元规则制导挖掘190 7.3.2基于约束的模式产生:模式空间剪枝和数据空间剪枝191 7.4挖掘高维数据和巨型模式195 7.5挖掘压缩或近似模式198 7.5.1通过模式聚类挖掘压缩模式199 7.5.2提取感[0知0]冗余的top-k模式200 7.6模式探索与应用202 7.6.1频繁模式的语义注解202 7.6.2模式挖掘的应用205 7.7小结206 7.8习题207 7.9文献注释208 [0第0]8章分类:基本概念211 8.1基本概念211 8.1.1什么是分类211 8.1.2分类的一般方[0法0]211 8.2决策树归纳213 8.2.1决策树归纳214 8.2.2属性选择度量217 8.2.3树剪枝222 8.2.4可伸缩性与决策树归纳224 8.2.5决策树归纳的可视化挖掘225 8.3贝叶斯分类方[0法0]226 8.3.1贝叶斯定理227 8.3.2朴素贝叶斯分类227 8.4基于规则的分类230 8.4.1使用IF-THEN规则分类230 8.4.2由决策树提取规则231 8.4.3使用顺序覆盖算[0法0]的规则归纳232 8.5模型[0评0]估与选择236 8.5.1[0评0]估分类器性能的度量236 8.5.2保持方[0法0]和随机二次抽样240 8.5.3交叉验证240 8.5.4自助[0法0]241 8.5.5使用统计显著性检验选择模型241 8.5.6基于成本效益和ROC曲线比较分类器243 8.6提高分类准确率的技术245 8.6.1组合分类方[0法0]简介245 8.6.2装袋246 8.6.3提升和AdaBoost247 8.6.4随机森林249 8.6.5提高类不平衡数据的分类准确率250 8.7小结251 8.8习题251 8.9文献注释253 [0第0]9章分类:高级方[0法0]255 9.1贝叶斯信念网络255 9.1.1概念和机制255 9.1.2训练贝叶斯信念网络257 9.2用后向传播分类258 9.2.1多层前馈神经网络258 9.2.2定义网络拓扑259 9.2.3后向传播260 9.2.4黑盒内部:后向传播和可解释性263 9.3支持向量机265 9.3.1数据线性可分的情况265 9.3.2数据非线性可分的情况268 9.4使用频繁模式分类270 9.4.1关联分类270 9.4.2基于有区别力的频繁模式分类272 9.5惰性[0学0]习[0法0](或从近邻[0学0]习)275 9.5.1k-近邻分类275 9.5.2基于案例的推理277 9.6其他分类方[0法0]277 9.6.1遗传算[0法0]277 9.6.2粗糙集方[0法0]278 9.6.3模糊集方[0法0]278 9.7关于分类的其他问题280 9.7.1多类分类280 9.7.2半监督分类281 9.7.3主动[0学0]习282 9.7.4迁移[0学0]习283 9.8小结284 9.9习题285 9.10文献注释286 [0第0]10章聚类分析:基本概念和方[0法0]288 10.1聚类分析288 10.1.1什么是聚类分析288 10.1.2对聚类分析的要求289 10.1.3基本聚类方[0法0]概述291 10.2划分方[0法0]293 10.2.1k-均值:一种基于形心的技术293 10.2.2k-中心点:一种基于代表对象的技术295 10.3层次方[0法0]297 10.3.1凝聚的与分裂的层次聚类298 10.3.2算[0法0]方[0法0]的距离度量300 10.3.3BIRCH:使用聚类特征树的多阶段聚类301 10.3.4Chameleon:使用动态建模的多阶段层次聚类303 10.3.5概率层次聚类304 10.4基于密度的方[0法0]306 10.4.1DBSCAN:一种基于高密度连通区域的基于密度的聚类307 10.4.2OPTICS:通过点排序识别聚类结构309 10.4.3DENCLUE:基于密度分布函数的聚类311 10.5基于网格的方[0法0]312 10.5.1STING:统计信息网格312 10.5.2CLIQUE:一种类似于Apriori的子空间聚类方[0法0]314 10.6聚类[0评0]估315 10.6.1估计聚类趋势316 10.6.2确定簇数317 10.6.3测定聚类质量317 10.7小结319 10.8习题320 10.9文献注释321 [0第0]11章高级聚类分析323 11.1基于概率模型的聚类323 11.1.1模糊簇324 11.1.2基于概率模型的聚类326 11.1.3期望[0大0]化算[0法0]328 11.2聚类高维数据330 11.2.1聚类高维数据:问题、挑战和主要方[0法0]330 11.2.2子空间聚类方[0法0]331 11.2.3[0[0双0]0]聚类332 11.2.4维归约方[0法0]和谱聚类337 11.3聚类图和网络数据339 11.3.1应用与挑战339 11.3.2相似性度量340 11.3.3图聚类方[0法0]343 11.4具有约束的聚类345 11.4.1约束的分类345 11.4.2具有约束的聚类方[0法0]347 11.5小结349 11.6习题349 11.7文献注释350 [0第0]12章离群点检测351 12.1离群点和离群点分析351 12.1.1什么是离群点351 12.1.2离群点的类型352 12.1.3离群点检测的挑战354 12.2离群点检测方[0法0]354 12.2.1监督、半监督和无监督方[0法0]355 12.2.2统计方[0法0]、基于邻近性的方[0法0]和基于聚类的方[0法0]356 12.3统计[0学0]方[0法0]357 12.3.1参数方[0法0]357 12.3.2非参数方[0法0]360 12.4基于邻近性的方[0法0]361 12.4.1基于距离的离群点检测和嵌套循环方[0法0]361 12.4.2基于网格的方[0法0]363 12.4.3基于密度的离群点检测364 12.5基于聚类的方[0法0]366 12.6基于分类的方[0法0]368 12.7挖掘情境离群点和集体离群点369 12.7.1把情境离群点检测转换成传统的离群点检测369 12.7.2关于情境对正常行为建模370 12.7.3挖掘集体离群点371 12.8高维数据中的离群点检测371 12.8.1扩充的传统离群点检测372 12.8.2发现子空间中的离群点373 12.8.3高维离群点建模373 12.9小结374 12.10习题375 12.11文献注释375 [0第0]13章数据挖掘的发展趋势和研究前沿377 13.1挖掘复杂的数据类型377 13.1.1挖掘序列数据:时间序列、符号序列和生物[0学0]序列377 13.1.2挖掘图和网络381 13.1.3挖掘其他类型的数据383 13.2数据挖掘的其他方[0法0]385 13.2.1统计[0学0]数据挖掘385 13.2.2关于数据挖掘基础的观点386 13.2.3可视和听觉数据挖掘387 13.3数据挖掘应用391 13.3.1金融数据分析的数据挖掘391 13.3.2零售和电信业的数据挖掘392 13.3.3科[0学0]与工程数据挖掘393 13.3.4入侵检测和预防数据挖掘395 13.3.5数据挖掘与推荐系统396 13.4数据挖掘与社[0会0]397 13.4.1普适的和无形的数据挖掘397 13.4.2数据挖掘的隐私、安全和社[0会0]影响399 13.5数据挖掘的发展趋势400 13.6小结402 13.7习题402 13.8文献注释403 参考文献406 索引435 |
编辑推荐 |
数据挖掘出现于20世纪80年代后期,20世纪90年代有了突飞猛进的发展,并可望在新千年继续繁荣。《数据挖掘(概念与技术原书[0第0]3版)》全面展示该[0领0]域,介绍有趣的数据挖掘技术和系统,并讨论数据挖掘的应用和研究方向。写本书的重要动机是需要建立一个[0学0]习数据挖掘的有组织的框架——由于这个快速发展[0领0]域的多[0学0]科特点,这是一项具有挑战性的任务。我们希望本书有助于具有不同背景和经验的人交换关于数据挖掘的见解,为进一步促进这个令人激动的、不断发展的[0领0]域的成长做出贡献。本书由韩家炜等*。 |
评分
评分
评分
评分
评分
评分
评分
评分
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有