一种基于扩展熵信息瓶颈理论的聚类方法

文档序号:6466047阅读:176来源:国知局

专利名称::一种基于扩展熵信息瓶颈理论的聚类方法
技术领域
:本发明涉及数据挖掘领域,特别涉及聚类分析。
背景技术
:聚类分析是数据挖掘领域的重要研究内容,旨在将数据集合划分为若干类的过程,使得类内差异小,类间差异大。通常用数据之间的距离来描述相似度,距离越大,相似度越小,反之则越大。聚类分析应用在模式识别、数据分析、图像处理、智能交通、医学等领域,用途相当广泛。已经形成了很多有效的聚类方法,常用的有K-均值法、k中心点法、自组织神经网络、Bayes神经网络、Fisher聚类等。不同的聚类方法出发点不同,主要体现在度量样本或变量之间的距离测度上,K-均值聚类法与k中心点法度量两个变量之间的距离都是用欧几里德距离,或者用加权的欧几里德距离。这种聚类方法只是以简单的欧氏距离不适合变量之间存在复杂的非线性关系的问题。自组织神经网络都是以非线性的空间距离来度量样本或变量之间的相关性,通过不断调整聚类中心达到聚类目的,但这些方法没有考虑变量的统计特性。Bayes神经网络聚类是将隐含单元看作聚类数,通过分析特征变量与隐含单元的条件概率对数据进行聚类,该分类方法适用的范围比较广,在不同领域都得到了广泛的应用。但该方法需要一定的先验经验确定其先验概率分布,而且运算量非常大,当变量很多的情况下很难得到最优的聚类结果。信息瓶颈理论是由Tishby等人在1999年根据Shannon熵信息失真率理论提出的数据压縮方法,接下来的几年里,基于信息瓶径理论的无监督聚类方法得到了广泛的研究,该方法是从变量合并前后信息损失量一个全新的角度来分析变量的聚类问题,是一种适合于复杂聚类问题的一种新方法,现已被用于图像、文本、星系等复杂的聚类问题,得到了令人满意的结果。由于该方法是基于Shannon熵的,因此必须通过统计分析得到变量的概率分布情况,当特征变量只是一个数值而无法统计出其概率时,该方法无法使用,针对这种情况,本发明提出了基于扩展熵信息瓶颈理论的聚类方法。扩展熵是基于数值比值的一种熵的定义形式,适合于分析数值集合的不确定性问题。基于扩展熵信息瓶颈理论的聚类方法可应用于交通流的时间段划分,从交通流的马鞍型很大的区别,如果将所有数据同时考虑,将很难建立精确的交通流预测模型。根据交通流的不同模式将时间进行分段,对每个时段来建立相应的交通流预测模型将会提高相应的预测精度。如何对一天的交通流进行时间分段是个关键的问题,不能只根据交通流曲线主观划分。目前常用的划分方法是Fisher在1958年提出的有序样本聚类方法,但由于在该方法中通常选择的距离测度为欧几里德距离,很难体现交通流数据的非线性复杂关系,而且,在该方法中将一天划分成几段,没有一个客观的标准,需要人为的判断。基于扩展熵信息瓶颈理论的聚类方法可用于中医的辨证。中医是中华的瑰宝,拥有3000多年的历史。辨证是中医的核心理论,证侯要素是中医辨证的基本要素。辨证通常依赖于医生的经验,缺乏一定的客观基础,因此很多研究人员开始用现代技术来研究中医。因此用客观的方法来确定证侯要素是中医现代化急需解决的问题。这就需要我们只根据中医临床收集的病人症状数据,根据其数据内在的相关性,将相关性大的症状组合找出来,结合中医专家经验,对这些有意义的相关症状组合进行命名,作为症状要素。由于事先没有任何的目标作为参照,因此该问题属于无监督聚类分析问题。该问题是对特征变量进行聚类,因此基于扩展熵信息瓶颈理论的聚类方法非常适合该问题的分析。关于基于扩展熵信息瓶颈理论的聚类方法,聚类数组的扩展熵计算是基础,目前熵的定义有多种形式,Shannon熵是目前常用的一种熵的定义形式,可以度量变量之间的任意统计相关性。基于扩展熵信息瓶颈理论的聚类方法与其它聚类方法相比主要有以下优点1)信息熵可以度量变量之间的任意统计相关性,用它作为相关测度进行聚类,能够真实体现系统变量之间的相关性;2)扩展熵是以比值代替概率,不受统计特性的限制,而且在信息损失量计算过程中,可以体现两组变量对应位置之间的相关性;3)基于扩展熵信息瓶颈理论的聚类方法可以提供一个聚类的客观截尾准则,而现有的方法中的截尾准则通常是人为指定聚类个数
发明内容本发明的目的之一在于提出一种基于扩展熵信息瓶颈理论的聚类方法,该方法以比例代替概率计算信息熵,可以不受概率特性的限制,而且可以为聚类提供一个客观的聚类截尾准则,避免由主观指定聚类个数的弊端。为达到上述目的,本发明采用的技术方案为该基于扩展熵信息瓶颈理论的聚类方法,包括步骤-根据样本确定聚类数组及数组的取值,计算每个取值的比值;用比值代替概率计算数组的扩展熵;确定数组合并后联合扩展熵的计算形式;根据信息瓶颈理论选择信息损失量最小的聚类数组进行合并,生成一个新的数组;以聚类产生的信息损失量变化率作为确定聚类截尾准则,即获得最终的聚类结果。图1为本发明的基于扩展熵信息瓶颈理论的聚类方法流程图;图2为本发明实施例中医辨证中由每步合并产生的信息损失量;图3为本发明实施例交通流时间段划分中道路分布图4为本发明实施例交通流时间段划分中由每步合并产生的信息损失量;图5为本发明实施例交通流时间段划分中聚类结果;图6为本发明实施例交通流时间段划分中由Fisher聚类结果。具体实施例方式为了更好地理解本发明,下面结合附图和具体实施方式对本发明作详细说明。聚类是通过分析变量之间的相关性将数据集合划分为若干类的过程,使得类内差异小,类间差异大。聚类过程重要的是如何度量数据集合之间的相关性,并且能够给聚类一个客观的聚类标准。本发明提出了一种基于扩展熵信息瓶颈理论的聚类方法,该方法的具体操作方法介绍如下信息瓶颈理论首先介绍一下信息瓶颈理论。在给定一个目标集合,基于瓶颈原理的聚类方法是寻找在所有的聚类中使目标类与特征之间的信息损失达到最小。设在目标空间义和特征空间y上的联合概率分布为p(x,力,信息瓶颈理论是找一个聚类i在给定聚类质量的约束条件下使信息损失y)-/(^;y)达到最小。i)是Z和1之间的互信息信息瓶颈理论源于Shannon的率失真理论,它提供了在给定失真约束的条件下分类数的下线,给定一个随机变量l和失真测度^/(x"x》,Shannon的率失真理论是指在使平均失真最小的情况下可以仅用i个字节表示变量Z,失真率函数表示为Z)(i)=minS)其中S)=ZpW户(SI力d(X仝)。由聚类f而导致的变量;r与y之间互信息损失可看作平均的失真测度dOc,;)=/(X;y)-/(i;}04,少pO)pO)=五")||由|幼其中D(/IIg)=~1ogC/7g)是K-L散度。可得到失真函数为Z)(i)=min(/(Z;r)—/(i;r))它正是信息瓶颈理论提出的最小化标准,即找到一个聚类使目标空间与特征空间的互信息损失最小。设q和^是聚成的两个类,由于两个类聚到一起而导致的信息损失可表示为o(c!,c2)=/(q;r)+/(c2;r)-/(c,,c2;7)通过标准的信息论运算可得d(Cl,c2)=Z水,力log*,力-Z难uc2,力log*uc2,力其中/7(。)=^,|/|1|,lc」表示类c/的势,pTl表示目标空间的势,/7(qUC2)—C,UC2l/prl。在基于信息熵的概率合并中,假定两类是相互独立的,因此,并后的概率形式为两类概率分布的和可以看出,两类的合并只能体现各组中的y值总体概率分布的叠加,无法体现由于对应位置取值不同而产生的距离,该方法无法解决对于需要考虑位置对应的聚类问题。因此,本发明利用扩展熵的概念,将每个对应点看作变量y的取值,将该点对应的少值与该样本所有y值和的比值作为该点的概率,这样可以充分体现对应点的对应关系。基于扩展熵信息瓶颈理论的聚类方法设有W组数据《,/=1,2,…,iV,每组数据都对应"个正实数值_yn,,…,_ym,/=1,2,…,W,每个数值与该组所有数值总和的比值为<formula>formulaseeoriginaldocumentpage8</formula>l",)相当于上面提到的条件概率,显然满足1>"l《)=i,且K力l",)^o,/",2,…,"。这时,基于比值的扩展熵定义为产i设q,^为目前聚成的两类数据,两类数据合并后的每个数值所对应的比值为<formula>formulaseeoriginaldocumentpage8</formula>根据扩展熵的定义,两组数据聚在一起而产生的信息损失定义为化,<formula>formulaseeoriginaldocumentpage8</formula>基于扩展熵信息瓶颈理论的聚类问题可以通过贪婪法由底向上合并的方式得到解决,该方法起始于最小的聚类集,即每一类只包括一个点,为了使聚类产生信息损失达到最小,每一步聚类都要使该聚类所产生的互信息损失最小。该方法即可以对样本进行聚类,也可以对特征变量进行聚类。该方法可以有效避免基于信息瓶颈理论中无法体现对应位置相关性的问题,例如,两组数据:c={1,1,2,2}和^={2,2,1,1},其概率分布分别为=0.5,;,(2)=0.5,;^(1)=0.5,&(2)=0.5。当用信息瓶颈理论时,联合概率为/^(1)=0.5,p砂(2)-0.5,x与y合并产生的信息损失为0.当用扩展熵信息瓶颈理论时,每组数据都有4个变量,用1,2,3,4表示,每个变量的比值分别为&(1)=^(2)=1/6,a(3)=a(4)=1/3,&(1)=;^(2)=1/3,&(3)=^(4)=1/3,联合比值为~(1)=~(2)=&(3)=~(4)=1/4。合并产生的信息损失为0.1634。因此,信息瓶颈理论不适合有位置对应的聚类问题。参考图1,用基于扩展熵信息瓶颈理论的聚类过程的步骤总结如下-步骤一、首先将要聚类的对象看成最小的聚类集合,即每组数据都是一类;步骤二、对每对数据组都计算其合并所产生的信息损失量,选择信息损失量最小的一对数据组,将两数组并,合并后将其看作一个数组;步骤三、对合并后的数组对象重新按照步骤2进行聚类,直到所有数组合并成一类为止;步骤四、根据每一步聚类的信息损失量的变化率来确定聚类数,由于随着聚类步骤的增加,信息损失量会逐渐增加,确定聚类数的一个客观标准就是两步之间的信息损失量有显著变化,说明接下来聚类信息损失量太大而不能代表原数据对象。结合中医的辨证论治问题,本发明基于扩展熵信息瓶颈理论的聚类方法,用于对从人体观测到的中间症状信息进行处理,通过聚类分析,得到证候所对应的症状组合,包括如下具体步骤步骤一、根据样本的模式,确定聚类数组,并将每个聚类数组看作一类,样本数即为每个聚类数组的取值个数(数组的维数)。分析600份有关血瘀证病人的临床数据,根据中医理论可知,血瘀证中包含多种中医证候要素,通过用客观的数据挖掘方法来分析这些证候要素的症状组合,为证侯要素的制定提供客观依据。数据收集的是中医四诊信息,都用类型变量表示,0、l分别表示该症状的无、有,共记录了65个症状。步骤二、计算每个聚类数组的比值,计算扩展熵。每个聚类数组对应600个取值,利用rCy,|《)=-^-计算每个取值与600个乂l+乂2+"'+乂力取值之和的比。然后利用S(乂,…,凡I《)=-|>"1《)1nK力l",)计算相应的扩展熵。步骤三、计算任意两个聚类数组合并后的比值,并计算扩展熵。根据K^huc2)=Z^^K^lc,)计算两个症状集合合并后的各取值的比值。然后利用5(乂,'.',;;^1^^2)=—^>O0kuc2)lnK^Ic,uc2)计算联合熵。步骤四、计算任意两个聚类数组合并后产生的信息损失,选择信息损失量最小的一组进行合并,然后重复步骤三,直至聚类结束。根据J(C,,C2):^SZ2K^l")l0g,;、计算任意两组症状合并后产生的信息损,=1,2—乂=1Kj^lqUC2)失,通过计算将损失量最小的一组进行合并,接下来的聚类步骤将其看作一个聚类数组,并将该信息损失量保存。由于在中医辨证实际应用中,当一类中症状个数大于7个时,通常没有实际意义,因此我们在聚类过程中,需要加一定的限制,当一类中的聚类数组个数大于7个时,不能再与其它类进行合并。步骤五、根据每步产生的信息损失量,选择变化显著的一步作为聚类的最终结果。图2为每步产生的信息损失量。表l为聚类结果,从结果可以看出,通过本发明的聚类方法的聚类结果可以看出,有13类的聚类结果与中医临床经验相符,有明确的中医意义。通过对比,本发明的聚类结果要好于以往的聚类结果。表l<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table>本发明另一实例为利用本发明对交通流时间序列进行时间段划分。该实例是要实现根据交通流数据间的相关性,将一天的交通流分成不同的时间段,然后针对不同时间段对交通流数据进行分析,以提高分析的正确性。在时间序列聚类中,只有相邻的数组才能够进行合并。利用本发明基于扩展熵信息瓶颈理论的聚类方法对交通流时间序列时间段划分。步骤一、根据样本的模式,确定聚类数组,并将每个聚类数组看作一类,样本数即为每个聚类数组的取值个数(数组的维数)。以采集的2007年6月1日到2007年7月1日济南市经十路与山师东路和环山路交叉口交通流数据为研究对象,道路的分布情况参考图3。数据采集设备为线圈检测器,采集的交通流参数主要为流量、车速、时间占用率三个参数,数据采集的时间间隔是5分钟。从图3可以看出,每个交叉口都有4个位置安装了线圈检测器,分别用1、2、3、4标出,这里我们对经十路与山师东路交叉口的第2个位置所在车道的流量参数进行预测,该交叉口上游路口为经十路与环山路的交叉口,与研究路口相关的参数为该交叉口第2个位置测得的流量参数。利用经十路与山师东路交叉口第2个检测器2007年1月1日到2007年7月1日采集的流量数据进行时间段分段,在该段时间内采集的数据有一些缺失数据,为了不影响分析,将这些缺失数据的天数剔除,最后用来分析的有146天的交通数据,每天有288个数据采集点。以时间采集点为聚类变量,每个变量对应146个取值。步骤二、计算每个聚类数组的比值,计算扩展熵。每个聚类数组对应146个取值,利用<formula>formulaseeoriginaldocumentpage11</formula>计算每个取值与146个取值之和的比。然后利用<formula>formulaseeoriginaldocumentpage11</formula>计算相应的扩展熵。步骤三、计算任意两个相邻聚类数组合并后的比值,并计算扩展熵。由于该聚类属于有序样本聚类,只有相邻数组可以进行合并,根据kuc2)=S^JL^K^k,)计算两个相邻时间点合并后的各取值的比值。然后利用S(^,...,yIc)uc2)=r1quc2)Inr(力|c,uc2)计算联合熵。步骤四、计算任意两个相邻聚类数据合并后产生的信息损失,选择信息损失量最小的一组进行合并,然后重复步骤三,直至聚类结束。根据d(q,C2)-ZZtK力l力log/(力W)、计算任意相邻两组数据合并后产生的信息损失,通过计算将损失量最小的一组进行合并,接下来的聚类步骤将其看作一个数组,并将该信息损失量保存。步骤五、根据每步产生的信息损失量,选择变化显著的一步作为聚类的最终结果。将一天288个时间点当作聚类点,每点由146个数据组成,由聚类产生的信息损失量参见图4,当聚类到283步即将一天分成5段时信息损失量有显著变化,因此我们选择将一天分成5个时间段,分段结果和该路口一个月的交通数据参见图5。当用Fisher有序样本聚类方法进行聚类时,将一天分成5段的结果参见图6。为了验证聚类方法结果的好坏,我们针对聚类方法划分的时间段进行交通流预测分析。用支持向量机进行交通流预测将要预测时间点流量用变量r表示,作为支持向量机的输出,用变量《,…,X,表示预测点前6个时间点流量,变量17为上游相关路口前一个时间点流量,变量Z8,…,《。表示当前路口前3天当前时间点的流量。变量A,…,^。作为支持向量机的输入。预测结果的评价方法有很多指标,这里采用平均绝对百分比误差作为评价标准夕,一乂少,其中,w为测试样本数,j),为样本预测值,乂.为样本测量值。分别对用基于扩展熵信息瓶颈理论的聚类和Fisher聚类得到的5个时间段进行分析,针对每个时间段,分别训练支持向量机,选取每段中75%的数据作为训练样本,25%的数据作为测试样本。用支持向量机进行预测的MAPE(平均绝对百分比误差)如表2。从预测的结果可以看出,本发明提出的聚类方法获得的结果更好。12M4户五二丄t表2<table>tableseeoriginaldocumentpage13</column></row><table>本发明基于扩展熵信息瓶颈理论的聚类方法,主要是数组之间关系复杂而又无法用统计概率描述的数组集合聚类问题,该方法既可以体现数组之间复杂的关系,又可以体现数组对应位置之间的相关性,而且聚类方法可以提供一个客观的聚类截尾准则。该聚类方法可以广泛应用于医学、药学、智能交通、模式识别等领域的聚类问题。权利要求1、一种基于扩展熵信息瓶颈理论的聚类方法,其特征在于,包括步骤根据样本确定聚类数组及数组的取值,计算每个取值的比值;用比值代替概率计算聚类数组的扩展熵;确定数组合并后联合扩展熵的计算形式;根据信息瓶颈理论选择信息损失量最小的聚类数组进行合并,生成一个新的数组;以聚类产生的信息损失量变化率作为确定聚类结束的标准,即获得最终的聚类结果。2、根据权利要求1所述的基于扩展熵信息瓶颈理论的聚类方法,其特征在于,所述的聚类数组为一天中交通流釆集的时间点,有多少天的样本,每个聚类数组就有多少个取值,每个取值的比值为该天在当前采集时间点的数值与所有天的数值和的比;或者,所述的聚类数组为中医中的症状,每个病人看作该症状的取值,有多少个病人样本就有多少个取值,每个取值的比值为每个病人该症状的取值与所有病人该症状取值和的比,其中病人的症状通常为类型变量。3、根据权利要求1所述的基于扩展熵信息瓶颈理论的聚类方法,其特征在于,用比值代替概率计算扩展熵,其计算公式为比值r表示为<formula>formulaseeoriginaldocumentpage2</formula>扩展熵为4、根据权利要求1所述的基于扩展熵信息瓶颈理论的聚类方法,其特征在于,确定联合扩展熵的计算形式联合比值为<formula>formulaseeoriginaldocumentpage2</formula>其中,c,,q为已经生成的两个类,lc,.l为类c,包含数组的个数;联合扩展熵为S(JIuc2)=-》0,Iquc2)logr(>,Iquc2)。5、根据权利要求1所述的基于扩展熵信息瓶颈理论的聚类方法,其特征在于,根据信息瓶颈理论,两组数组合并所产生的信息损失量为<formula>formulaseeoriginaldocumentpage3</formula>其中,<formula>formulaseeoriginaldocumentpage3</formula>6、根据权利要求1所述的基于扩展熵信息瓶颈理论的聚类方法,其特征在于,聚类过程可分为以下几步a.将每个聚类数组看作最初的类;b.选择合并后产生的信息损失量最小的一组进行合并,生产新的数组;C.重复步骤b直至所有数组合并成一个类;d.根据信息损失量的变化率,选择变化显著的一步作为最后的聚类结果。7、根据权利要求1和权利6所述的基于扩展熵信息瓶颈理论的聚类方法,其特征在于,聚类有一个客观的截尾准则来确定最终的聚类个数,其确定过程为根据各步合并产生的信息损失量画出一条曲线,在曲线斜率有显著变化时,表示接下来的聚类由于信息损失太大而不能代表原始数据所包含的信息,可以将该步作为最终的聚类结果。全文摘要本发明公开了一种基于扩展熵信息瓶颈理论的聚类方法,主要是针对数据挖掘中无监督聚类问题,当聚类数组之间关系复杂而又无法用统计概率描述的数组集合聚类问题,该方法既可以体现数组之间复杂的相关性,又可以体现数组对应位置之间的对应关系,而且该聚类方法可以提供一个客观的聚类截尾准则,有效避免由主观指定聚类个数的缺陷。该聚类方法可以广泛应用于医学、智能交通、模式识别等领域的聚类问题。文档编号G06F17/30GK101655847SQ20081013954公开日2010年2月24日申请日期2008年8月22日优先权日2008年8月22日发明者孙占全申请人:山东省计算中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1