内容介绍
本书主要论述了智能聚类分析的相关理论、方法和典型应用。内容由浅入深,涵盖智能聚类分析的基本概念、基本理论和主要聚类算法,并从基于信息熵粗糙集理论、信息熵自适应并行免疫遗传算法、向量空间模型、有偏观测模糊C均值等视角系统阐述了智能聚类分析方法及其典型应用。
目录
目录
前言
第1章 绪论1
1.1引言1
1.2聚类分析的研究进展3
1.2.1聚类分析的基本方法3
1.2.2聚类分析的典型应用5
1.2.3聚类分析方法面临的挑战7
13用于聚类分析的智能算法8
1.4遗传算法的发展10
1.5免疫算法的发展14
1.5.1生物免疫系统14
1.5.2人工免疫系统16
1.5.3免疫遗传算法20
16粗糙集理论的发展21
1.7本章小结23
参考文献23
第2章 智能聚类分析的基本方法29
2.1智能聚类分析与数据挖掘的关系29
2.2智能聚类分析与分类的关系31
2.3智能聚类分析的过程及典型要求33
2.3.1聚类分析的基本过程33
2.3.2聚类分析的典型要求36
2.4主要聚类算法及比较37
2.4.1聚类算法评价准则37
2.4.2常见的距离函数38
2.4.3聚类分析中的聚类准则函数38
2.4.4主要聚类算法分析及比较40
2.5聚类效果的评估46
2.5.1评估的难点46
2.5.2常用的评估方法47
2.6智能聚类分析方法的研究热点49
2.7本章小结51
参考文献51
第3章 基于信息熵粗糙集理论的智能聚类分析算法55
3.1粗糙集理论基础55
3.1.1知识表达系统与决策系统55
3.1.2知识的依赖性57
3.1.3约简与核58
3.1.4知识的重要性59
3.1.5属性约简与规则约简60
3.2基于粗糙熵的智能聚类分析属性约简61
3.2.1粗糙熵61
3.2.2基于粗糙熵的智能聚类属性约简算法63
3.2.3实验验证65
3.3改进的属性约简算法在智能聚类分析中的应用67
3.4本章小结69
叁考文献69
第4章 基于信息熵自适应并行免疫遗传算法的智能聚类分析及其应用72
4.1遗传算法基础72
4.1.1基本遗传算法基本概念72
4.1.2遗传算法的实现流程73
4.2遗传算法的关键实现技术75
4.2.1遗传编码75
4.2.2初始种群的设定77
4.2.3适应度函数及尺度变换77
4.2.4遗传算子80
4.2.5遗传算法的特点85
4.2.6遗传算法的不足86
4.3改进的免疫遗传算法87
4.3.1生物免疫系统87
4.3.2免疫遗传算法基本原理88
4.3.3改进的免疫遗传算法90
4.3.4实验验证97
4.4 K均值聚类算法存在的问题IOO
4.5基于信息熵自适应并行免疫遗传算法(IPAICKA)的智能聚类分析102
4.5.1 IPAIGKA算法的基本思想102
4.5.2基于信息熵的自适应并行免疫遗传算法的K均值聚类算法103
4.6文本聚类分析应用104
4.6.1比较测试实验一105
4.6.2比较测试实验二106
4.7本章小结108
参考文献108
第5章 基于向量空间模型的智能聚类分析算法及其应用111
5.1信息检索111
5.2向量空间模型112
5.3蚁群算法的基本原理113
5.4向量空间模型的基本原理115
5.5基于路径相似度的蚁群算法117
5.5.1路径相似度118
5.5.2基于路径相似度的“信息素”更新规则120
5.6基于路径相似度的蚁群遗传算法120
5.7本章小结121
参考文献121
第6章 基于有偏观测模糊C均值智能聚类分析算法及其应用123
6.1模糊C均值智能聚类分析算法123
6.2基于有偏观测模糊C均值智能聚类分析算法124
6.3智能聚类分析在轴承故障诊断中的应用126
6.3.1实验装置127
6.3.2特征计算128
6.3.3基于熵的特征选择130
6.4实验测试结果131
6.4.1特征选择结果131
6.4.2故障识别结果132
6.4.3多故障分类133
6.5本章小结134
参考文献134
在线试读
第1章 绪论
随着互联网的迅速普及,企业信息量的急速膨胀,如何从众多纷繁的数据中按照某种规则获得一些有用的数据,在一定程度上对于企业的存活起着至关重要的作用。数据挖掘( Data Mining,DM)就是从大量的数据库、数据仓库或其他信息储存库中获取新颖的、有效的、潜在有用的、*终可理解模式的过程。
由于各种信息资源呈指数形式增长,面对如此庞大的数据量,人们的需求已经不是简单的数据查询统计,而是需要从大量信息中挖掘可以得到决策的模式、规则或规律等。因此,如何从中得到自己需要的信息显得尤为重要,由此,数据挖掘技术应运而生。数据挖掘一般是指从大量数据中通过相关算法得到隐藏的信息的过程[1]。
数据挖掘这一概念*早由美国计算机协会( Association for Computing Machinery,ACM)于1995年提出。在提出数据挖掘概念之前,国际联合人工智能学术会议上提出了数据库知识发现这一概念。知识发现的过程一般包括3个步骤,即数据准备、数据挖掘及对结果的评价解释。其中,数据准备包括数据选择、数据预处理和数据转换3个步骤:数据挖掘是知识发现的核心,在得到良好的挖掘效果之前,需要事先对各神数据挖掘技术进行全面了解[2]。
聚类分析是数据挖掘[3,4]的一个重要研究内容,它涉及诸如数据挖掘、统计学、经济学、机器学习及生物工程等研究领域[5]。“所谓聚类分析就是根据各样本自身的不同,将数据集划分为不同的簇,使数据源之间用相似性来衡量,即一些基本相似的个体尽可能划分在同一簇中,而一些相差较大的个体划分在不同簇,从而整个数据集就可以用少数的几个簇来描述(当然,尽管数据集中的一些细节信息可能会丢失,但它却将数据集进行了概化,节省了数据集的内存)。”[6]正因为聚类分析具有如此强大的功能,通过聚类分析,人们可以或可能会发现数据集中所蕴涵的某种信息或知识,并为人们所用。从孩提时代开始,人类就从未停止过进行聚类分析。通过对所见、所闻的一切事物经过某种下意识的分析后,随着知识的积累和不断发现,不断改进聚类模式而对事物进行某种聚类,从而达到分类的目的。目前,聚类分析已广泛应用于商业、生物、地理、保险业、电子商务及互联网等很多方面。常见的聚类分析方法有:K均值聚类算法、模糊C均值智能聚类分析算法、*大似然估计算法和基于图论的算法。
K均值聚类算法是基于规则的聚类算法中的一种简单常用算法。首先,该算法选择一个特定距离度量作为模式间的相似度,然后由所选择的聚类准则函数来评价聚类划分结果。在给定初始聚类中心点后,采用迭代的方法找出取决于聚类准则函数的*佳聚类分区。这种算法的一个缺点就是初始聚类中心点的选择不当可能寻致早收敛的问题。在K均值聚类算法的基础上,模糊C均值智能聚类分析算法有效集成了模糊技术进行聚类分析。*大似然估计算法是以概率论为基础的一种聚类算法,它根据事先所假设的某种先验概率分布计算出后验概率来实现数据分类。基于图论的算法主要是根据所估计的每个点的密度梯度值生成方向树,然后通过求出的谷点密度函数对数据进行分类[7]。
为了提高聚类分析的效果,可以将遗传算法、进化算法、粗糙集理论、模糊理论等智能技术与聚类分析结合起来,形成智能聚类分析方法。本书通过对智能聚类分析方法的介绍,将其应用到文本分析、故障诊断等典型案例中。
1.2 聚类分析的研究进展
1.2.1 聚类分析的基本方法
聚类是数据挖掘的一个重要方法,也是人类一种基本的认知活动。聚类分析是指将未知分布的一组数据,利用数据对象之间的关系,尽可能将具有相似性质的数据聚集成一类,使类间相似性尽可能小,而同类中数据的相似性尽可能大,这种方式实际上是一种无标签分类,因此,聚类也属于无监督学习方法。同时,聚类和分类之间又存在明显的区别。聚类的*终目的是找到数据的特征及潜在的数据类别的分布情况:而分类则是对已经标记好的数据集进行训练,并通过学习预先获得数据的特征以建立一个分类模型,进而利用该分类模型对数据的类别进行预测。聚类算法作为一种有效的数据分析方法,目前已在数据挖掘、语音识别、机器学习及生物信息处理等领域广泛应用。同时,聚类分析还可以将聚类算法应用于商业分析,区分消费者数据库中的不同消费人群,以帮助市场决策人员归纳总结出每一类消费者的消费习惯或者消费模式。目前聚类算法主要有以下几种:基于谱的聚类算法,基于支持向量机的聚类算法,基于密度的聚类算法,基于遗传算法的聚类算法,等等。
国外学术研究中比较著名的具有聚类分析功能的系统主要有WEKA、CLUTO等。WEKA足来自新西兰怀卡托大学的一款开源软件,是到目前为止功能*为完备的数据挖掘工具之一,被誉为数据挖掘学习史上的里程碑[8]。WEKA中集成了多种数据挖掘算法,不仅包括数据的预处理,而且还包括数据的分类和回归、聚类及关联规则等可视化界面。用户还可以通过JAVA语言进行二次开发。
CLUTO是由美国明尼苏达大学的Karypis教授团队开发的一款聚类工具,该工具不仅可以处理低维数据,还能够处理高维数据,而且,针对不同聚类的结果可以对结果的类簇进行分析[9]。CLUTO软件包中包括多个独立可执行的程序和库文件,它可以应用于多种领域,如信息检索、生物学及商业等。CLUTO软件包含多种聚类算法及聚类准则函数,不仅可以辨别出各类别的特征属性,还能够根据所识别的特征属性对类别中的对象提供总结。
由于聚类分析强大的功能,其潜在的应用也对聚类算法提出了更高的要求,主要要求如下[10]。
(1)可伸缩性。一般来说,常用的聚类算法在处理较小数据集时效果较好,但面对海量数据处理对象的时候,效果则没那么好。虽然可以通过海量数据进行抽样聚类,但总体来说,这种抽样聚类的效果并不理想,往往会与实际值存在很大偏差。因此,这就要求聚类算法在处理不同特征数据集时,具有一定的可伸缩性。
(2)能够聚类任意形状的类簇。目前,常用的确定类簇的方法主要是基于欧氏距离等相似性度量方法,但这类方法只能发现具有类似大小和密度的圆形或球状的类簇。事实上,每一个类簇的形状可能是任意的,那么,如何设计有效的聚类算法来处理任意形状的类簇就显得尤为重要。
(3)多类型数据的处理能力。聚类算法需要对多种类型的数据进行聚类,而不仅限于某一类型的数据,如枚拳型数据、二值型数据等。
(4)对异常数据处理的能力。真实数据中往往存在很多孤立点、缺失的数据甚至错误的数据等,而这些异常数据对聚类结果的影响较大,聚类算法如何处理这些异常数据也是需要考虑的问题。
(5)对高维数据处理的能力。大多数聚类算法能够较好地处理低维数据,而对于如文本数据等高维数据的聚类效果则并不是很理想,这也是聚类算法研究中面临的一项巨大挑战。
1.2.2 聚类分析的典型应用
随着科技的发展,聚类分析已经在各种领域得到广泛应用,如文本分析、语言识别、图像处理、故障诊断等方面。
以文本分析为例,统计表明,一个组织中约有80%的信息存储都以文本形式存在,主要有新闻报纸、学术论文和专著、历史资料存档、门户网站、论坛、博客、电子邮件和Office文档等。由于文本数据固有的特点,大多数是结构化或者半结构化的数据,并且数据又存在维度高和稀疏的特点,因此,基于传统的结构化数据挖掘技术常常不能够直接应用于文本挖掘,从而,如何从大量的文本信息中发掘出有用信息受到越来越多学者的关注,具体内容包括对文本信息的分析和组织、如何提取文档中所隐含的规则和模式等。文本挖掘需要多种技术相结合来实现,如机器学习、信息处理、信息检索及数据挖掘等。文本挖掘的主要目标在于文本的结构分析、信息提取、关联和预测分析、文本的分类和聚类等。文本挖掘这一概念于1995年由Feldman正式提出[11],自此之后,国内外很多学者就文本挖掘的理论及应用进行了许多研究。据调查发现,文本挖掘技术已经成为数据挖掘分支中一个日益重要的领域。文本聚类的流程图如图1.1所示。
图1.1 文本聚类流程图
文本聚类技术是一种无监督的学习方法,是对文本信息进行分析、组织和分类的重要手段。如前所述,文本聚类就是在对文本信息没有标记任何类别的情况下,白动识别出文本类别的过程。通常的聚类方法是采用明确的定量方法处理结构化数据,而文本聚类处理的是非结构化的文本信息,对此,文本聚类就需要采用一系列文本分析的处理技术,如文本分词、特征选择、降维及文本表示等。
文本聚类的应用主要在以下几个方面。
(1)自然语言的预处理。通过聚类分析技术可以加快用户在文本浏览系统中寻找有效信息的速度,为用户提供了很大方便。聚类分析技术还可以用于多文档摘要的自动生成,可以从互联网上搜集许多当天重要的文本新闻来聚类,然后对每个聚类后的文本集的主要内容聚集成简单的摘要以供用户浏览。
(2)对搜索引擎结果聚类。为方便用户及时、迅速定位到所需的有效信息,需要采用聚类分析技术对搜索引擎的结果进行聚集分类。
(3)发现并追踪热点主题。如何从每天海量的互联网信息中获得有效的热点主题并进行追踪,对于研究热点和维护社会的稳定都具有重要的意义。通过聚类分析及聚类相关算法不仅可以找出目前已经关注的主题信息,而且还能发现新热点。
(4)改善文本分类的性能。通过文本聚类技术可以从海量数据中选择出特征空间,从而使文本分类的性能得以改善。
(5)优化网站结构和挖掘用户感兴趣的模式。利用文本聚类技术可以从互联网中大型数据中聚集用户感兴趣的模式,以实现对信息的自动过滤和推荐。
国内外许多研究机构和公司对文本聚类和挖掘技术进行了研究,并取得一定的成果。例如,IBM公司针对文本聚类技术开发了一款数据挖掘软件Text Miner,其主要功能是实现对文本信息的特征提取、文档聚类和分类、检索。Text Miner支持十几种语言,采用深层次的文本分析和索引实现对多种文本格式的数据检索。Bow是一个专门用
[按需印刷] 智能聚类分析方法及其应用 下载 mobi epub pdf txt 电子书 格式