基于典型相关性分析的图像优化聚类方法

文档序号:6551500阅读:487来源:国知局
基于典型相关性分析的图像优化聚类方法
【专利摘要】本发明属于跨媒体信息【技术领域】,具体为一种基于典型相关性分析的图像优化聚类方法。本发明主要是采用典型相关性分析,同时考虑媒体数据不同模态下的内容特征,通过子空间映射算法,将媒体数据不同模态下的特征同时映射到一个统一维数的同构子空间,然后通过优化聚类算法得到最终聚簇结果。本发明克服多媒体领域中只是使用数据的单模态特征限制,有效解决不同模态下媒体数据在底层特征上的异构性问题,实现不同模态之间媒体对象信息的统一度量,并在大规模图像数据集中得到更准确、更有效、更加符合需求的图像聚类结果,在跨媒体信息处理与检索领域中具有广泛的应用价值。
【专利说明】基于典型相关性分析的图像优化聚类方法

【技术领域】
[0001]本发明属于跨媒体信息【技术领域】,具体涉及一种基于典型相关性分析的图像优化聚类方法。

【背景技术】
[0002]随着Internet和信息化的发展,数字图像的容量和数量都在高速增长,每天都有海量图像数据产生。图像的增多虽然提供更多资源,但人们发现想要获得自己所需要的图像信息却变得越来越困难,这就意味着给网络上图像组织、管理、处理带来一个越来越难以解决的难题。在这样的一个背景下,通过有效算法对大量图像进行组织和管理,并为人们提供有效获取图像服务的途径显得尤为重要[1]。
[0003]现在网络上的图像组织和管理体系中,可获得两类不同的信息,即基于图像标注的语义信息和基于图像底层视觉特征的视觉信息[2’3]。这两类信息从不同角度对图像进行描述,只利用其中任何一种信息都只是从单一视角去理解图像,很难对图像有一个整体上的认识,综合多类信息和跨越多个模态去对图像认知,能对图像形成一个更好的、整体性的理解,很好地利用这两类信息毫无疑问对于处理图像的相关工作都能带来很好的效果[4’5’
6]
O
[0004]然而,图像标注的语义信息和图像的底层视觉信息是在两个不同视角上描述图像的信息,又考虑到两类信息对图像描述的异构性存在,很难为语义信息和视觉信息直接建立相应的对应关系,这就迫切需要研究一种算法能够在对图像的相关处理时很好地将两类信息都应用起来。支持不同模态的跨媒体信息表示方法,能够同时有效的顾及地图像标注得到的语义信息和从图像中提取得到的底层视觉信息,突破传统的只是基于单模态数据的限制te’7]。
[0005]采用图像底层的多模态信息,即图像的语义特征和视觉特征来表示图像的内容[8’9’1(1’11],需要建立一种统一的数据模型,以反映数据集之间的潜在关系[12’13]。如果不同类别的数据集被映射到一个统一的表达框架中,但破坏数据集之间的相互关系,那么在此基础上得到的跨媒体数据集将受到严重影响。因此,在用统一的模型来表达不同类别的信息时,应尽可能地发现和保持数据之间潜在相关性[14]。
[0006]在当前的跨媒体聚类方法中,都通过建立一个数据模型框架来很好的表达多类信息。如ZhenyongFu等利用图像数据的成对约束这种弱化的监督关系,通过建立多图上的映射关系,利用多图上的随机游走算法来传递少量的成对约束关系到每个数据节点,得到多模态下成对约束传递后的相似度矩阵,再通过利用谱聚类算法得到最终的聚簇结果[15’16]。ManjeetRege等通过三部图建立语义信息、图像和视觉信息之间的映射关系,然后通过等周图分割算法得到最终的聚簇结果[17’18’19]。上述方法都是通过寻找视觉信息、语义信息及图像之间的相关性,建立它们之间的映射关系,。但图的建立和保存都会要求大量的内存支持,随着数量的增多、维数的增大都会给当前问题带来新的困难和影响。
[0007]典型相关性分析(Canonical Correlat1n Analysis, CCA)是一种用于多视角信息数据维数约减的方法,被广泛的应用于跨媒体信息处理与检索领域的相关问题研究中。如在文献[20]中,作者采用图像的标注信息生成文本特征空间特征,从而通过CCA的方法来优化图像分类结果;而文献[21]则采用一种有监督的CCA方法,该方法利用图像标注信息来实现图像检索。事实上,CCA算法在很多方面与PCA算法有相似之处,但PCA算法只能解决单一视角信息的空间降维问题,而CCA算法则能够应用在两个或多个数据空间的组合维数约减问题中。因此,对于多模态图像信息融合而言,CCA是一个更好的办法[22’23’24]。
[0008]聚类分析是一个应用很广泛的无监督学习方法,在机器学习、模式识别、数据挖掘等领域中,数据的聚类分析是一个极其重要的工具[25’26’27’28]。因为聚类分析是不需要任何的监督信息就可识别出数据的主要模式和类的总体分布,早期对于图像的聚类被看作为一个文本聚类问题,图像的语义信息用来参与聚类,但是图像并非实实在在的文本文档,所以这并不是一个很好的解决方案。因而,跨模态的数据聚类应运而生,开始崭露头角,对于跨模态数据的聚类研究也越来越受到领域内各专家学者的重视。
[0009]对于跨模态数据的聚类分析除要建立一个符合跨媒体特性的数据表达机制,建立统一的数据模型,聚类的技术和方法也异常重要。因为在现实生活当中,数据的爆炸性增长迫切要求能在可接受的时间和空间复杂性内尽量快地得到聚簇结果。
[0010]聚类算法所使用的两种不同基本策略,可以将聚类算法分成以下两类。
[0011 ] (I) 一类称为层次或凝聚式算法,这类算法一开始将每一个点看成一个簇,簇与簇之间按照接近度来组合,而接近度可以基于“接近”的不同含义采用不同的定义。当进一步的组合导致多个原因之一下的非期望结果时,上述组合过程就接受。如当达到预先给定的簇数目时就停止聚类,或者也可以使用簇的紧密度测度方法,一旦两个小簇组合后得到簇内点分散区域较大就停止簇的构建。
[0012](2)另一类算法涉及点分配过程,即按照某个顺序依次考虑每个点,并将它分配到最适合的簇中。该过程通常都有一个短暂的初始簇估计阶段,一些变形算法允许临时的簇合并或分裂过程,或者当点为离群点(离当前任何簇的距离都很远的点)时允许不将该点分配到任何簇中。
[0013]聚类算法也可以按照如下方式来分类。
[0014](a)是否假定在欧式空间下的聚类?或者算法是否在任意距离测度下都有效?
[0015](b)算法是否假设数据足够小能够放入内存?或者是否必须主要存放在二级存储器?
[0016]传统的k-means算法是一个假定在欧式空间下,并假定最终簇的数目k事先已知的经典聚类算法,k-means算法在聚类算法中是一种速度较快的算法,但在数据规模极其巨大的情况下,其执行效率依然会因为大量的重复计算而显得低下。
[0017]因此,非常有必要借鉴当前已有的相关成熟技术,同时从各方面考虑当前一些跨媒体融合信息表示方法与聚类技术。


【发明内容】

[0018]为了克服现有技术的不足,本发明从聚类的有效性、信息的利用性及时间空间的复杂性出发,使用典型相关性分析和优化聚类方法,进而对跨媒体信息处理与检索领域的图像聚类进行改进优化。本发明的目的在于提出一种能够同时利用图像的多模态信息进行图像优化聚类的方法。
[0019]本发明提出的图像多模态信息优化聚类方法,首先基于典型相关性分析寻找图像的多模态信息相关性。其核心思想是寻找两个变量场V、S对应的两组基向量P、Q,使V、S在P、Q上投影后的结果最大程度地保持与V、S之间的相关性一致;然后,通过基于三角不等式规则的优化聚类方法得到最终的聚簇。其具体步骤为:
[0020](I)从多媒体数据集中采集不同模态的数据对象,即得到图像和图像标注数据,整理图像标注数据中不常出现或者无用的标注词;
[0021](2)提取图像底层视觉特征,并通过视觉特征构建方法将高维视觉特征映射到一个低维空间中,得到特征向量的稀疏表示;
[0022](3)提取图像标注的语义特征,利用语义特征构建方法将图像语义特征映射到一个统一维度空间中,得到特征向量的稀疏描述;
[0023](4)采用典型相关性分析算法,得到图像视觉特征和语义特征的典型相关性;
[0024](5)构建跨模态融合特征,将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态融合特征,实现媒体数据不同模态信息的统一表示;
[0025](6)采用优化聚类算法高效地对同构子空间下的数据信息进行聚类。
[0026]较之当前已有的相关跨媒体多模态聚类而言,本发明所提出的方法在聚类中存在三大优势,即相关性高、适用性强、聚类速度快。其相关性高体现在典型相关性分析过程中通过最大限度地提取两个模态之间的相关性,经由基向量进行投影后的结果最大程度地保持与原向量之间的相关性一致。适用性强表现在典型相关性分析是一种用于多视角信息数据维数约减的方法,能够应用于两个或多个数据空间中的组合维数约减问题中,使得映射后的同构子空间中具有较低的维数,这样在那些数据量较大、维数较高的数据集中能更好地适用。聚类速度快在于优化聚类算法中利用了三角不等式规则很好地避免一些不必要的重复运算,使得数据在较快的时间内得到传统聚类算法相同的结果。本发明在不同的数据规模中都取得了较好效果。本发明的算法还可利用到图像的检索和推荐中,聚类的结果会直接影响图像的检索和推荐效果。
[0027]下面详细介绍本发明在针对跨媒体信息聚类中所进行的多模态信息融合与优化聚类的整体流程框架及涉及的核心算法。
[0028](I)从多媒体数据集中采集不同模态的数据对象,即得到图像和图像标注数据,整理图像标注数据中不常出现或者无用的标注词。
[0029]在取得的多媒体数据集中,图像标注数据存在着很多噪音信息,为能够让文本标注很好表达图像的内容,必须将其中一些没有意义的标注进行去除处理,如单词中夹杂数字的无用标注。一个图像标注可能还涉及十几个或者几十个的标注,数量多并且有些标注其实对于图像并没有太大的意义,所以通过统计整个数据集中的标注,在统计中将相同标注的单词数加1,统计完整个数据集后会得到每个单词在数据集中出现的次数,最后去除那些低频出现的单词,留下那些在数据集中单词出现频度较高的单词作为图像最后的图像标注。
[0030](2)提取图像底层视觉特征,并通过视觉特征构建方法将高维视觉特征映射到一个低维空间中,得到特征向量的稀疏表示。
[0031]尺度不变特征转换(SIFT)是一种描述图像的局部性特征的算法,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,这些特征点与图像的大小、旋转无关。利用SIFT方法提取出的特征点具有一些很好的抗干扰性,对噪声、光线变化、仿射变化也具有很强的鲁棒性。对每幅图像通过SIFT算法提取出128维的SIFT描述子,得到图像的底层视觉特征,然后采用矢量量化(VQ)编码方式将每个图像的视觉特征表示为一个视觉特征向量。
[0032](3)提取图像标注的语义特征,利用语义特征构建方法将图像语义特征映射到一个统一维度空间中,得到特征向量的稀疏描述。
[0033]图像标注中包含着图像中存在实体的语义概念,获取准确的语义特征有利于增加图像跨模态聚类的准确性,能更加有利于图像高层含义的表达,基于标注文本构建的关联网络能够表征图像标注中的重要关联关系。基于共现频率层次内的关联关系不仅有利于表达图像标注中的关联关系,又有利于语义特征的相似性度量。两个标注概念之间没有明显的语义关系,但是两者经常同时出现在同一张图像中,则仍然认为两者之间具有较强的关联关系。基于共现关系关联网络中的节点可以与其他任意节点相关联。但是,一些标注语义之间的共现频率很低,则认为其共现关系很弱,因此可不出现在关联网络中。消除弱的共现关联关系可专注于语义标注之间较强的共现关联关系,从而使所构建的跨模态聚类模型更加准确有效。
[0034]为获得对语义特征的更好度量,引入TF-1DF统计方法来构造语义特征的优化编码模型。为进一步获得更加准确的语义特征表示,设计一种基于共现关系的编码方法。共现关系由共现关联网络获得。
[0035](4)采用典型相关性分析算法,得到图像视觉特征和语义特征的典型相关性。
[0036]将⑵中得到的图像底层视觉特征向量拼成一个视觉特征矩阵将⑶中得到的图像语义特征向量拼成一个语义特征矩阵SrlXPs,其中数据集中共η个样本图像。令Pd, Xiv为视觉特征空间的基向量矩阵,Qds _为语义特征空间的基向量矩阵,通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间基向量矩阵。空间基向量矩阵最大化地保持图像视觉特征和语义特征的相关性,并提供其映射到同构子空间的映射关系O
[0037](5)构建跨模态融合特征,将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态融合特征,实现媒体数据不同模态信息的统一表示。
[0038]通过典型相关性分析得到两组空间基向量矩阵P(即ArXBr)和Q(即),然后通过线性加权方式来对视觉特征与语义特征组合并得到最终的跨模态融合特征矩阵。
[0039](6)采用优化聚类算法高效地对同构子空间下的数据信息进行聚类。
[0040]优化聚类算法主要在于利用三角不等式规则来避免传统k-means算法的一些不必要重复计算,从而减少聚类所花费的时间,其基本的思想与传统的k-means —致,所以优化聚类算法对数据的聚类在迭代次数和每轮迭代得出的结果与传统k-means算法一致。其优越性就在于聚类时所花费的时间。
[0041]三角不等式规则是几何不等式中最基础的结论,将向量X和聚类中心b、c作为空间的三个点,则都存在d(x, c) ( d(x, b)+d (b, c),如果能得到d(x, c)必定是小于或等于d(x,b)即d(x,c) ( d(x,b)的关系,那么就能够避免对d(x,b)的计算。所以,在三角不等式规则的基础上进行以下两个推论:
[0042]推论I让X为数据集中的一个向量,b、c分别为聚类中心,如果d(b,c)彡2d(x,c),那么必定 d(x, c) < d(x, b)。
[0043]推论2让X为数据集中的一个向量,b、c分别为聚类中心,d(x, b) ^ max {O, d(x,c) _d (b, c)}。
[0044]基于三角不等式规则的优化聚类算法依然会具有传统的k-means的特性,即
[0045](I)初始中心的选择仍然没有k-means算法要求的其他以外特意条件;
[0046](2)对于选择与k-means同样的初始点与聚类个数,加速k-means得到的结果应与其一样;
[0047](3)能用任意的距离度量标准,不局限于欧几里德距离空间。

【专利附图】

【附图说明】
[0048]图1为基于典型相关性分析的图像优化聚类系统的基本流程图示。
[0049]图2为共现关联网络的可视化表示及关联实例。
[0050]图3为数据集Corel30K中的两张图像及其图像标注相关展示。
[0051]图4为基于典型相关性分析的优化聚类方法在数据集Corel30K中应用的部分聚类结果。
[0052]图5为数据集NusWide中的两张图像及其图像标注相关展示。
[0053]图6为基于典型相关性分析的优化聚类方法在数据集NusWide中应用的部分聚类结果。

【具体实施方式】
[0054]下面结合附图,详细介绍本发明基于典型相关性分析的图像优化聚类方法。
[0055](一 )采集数据对象
[0056]采集数据对象,即得到图像和图像标注数据,整理图像标注数据中在整个数据集里不常出现或者无用的标注词。一股在取得的数据集中,其中带有很多的噪音数据,所以在使用这些数据进行特征提取之前就应该对其进行适当的处理和过滤。对于图像而言,得到的图像都是统一的JPG格式,不需要做任何变换。对于图像的文本标注而言,得到的图像标注含有很多的无意义单词,如单词加数字没有任何含义的单词。有些图像标注多至几十个,为了让图像标注很好地描述图像的主要信息,应舍弃那些无用的、无意义的标注。因此,所采取的处理方法步骤如下:
[0057]步骤1:统计数据集标注中所有单词在数据集中出现的频率;
[0058]步骤2:过滤掉那些单词中带有数字的无意义单词;
[0059]步骤3:对于每个图像标注中在整个数据集中出现频率较少的单词,将其认为是图像中比较次要的信息,并允以删除。
[0060]通过上述步骤,便可得到处理后的图像标注。对于步骤3中去除频率较少的单词,其理由在于图像聚类里同一类图像的标注还是存在很多相同、意义相近的单词。因此按照出现频率来对其进行过滤完全合理。
[0061]( 二)提取图像底层视觉特征
[0062]提取图像的底层视觉特征采用SIFT局部特征提取方法,SIFT特征对抗干扰性,噪声、光线变化、仿射变化具有很强的鲁棒性。提取得到的图像SIFT特征是一组128维的SIFT描述子,考虑到高维并且占用大量存储空间的矩阵之间计算相似度消耗资源较大,直接将SIFT特征应用到聚类中显然不合适。所以,需要将高维的特征矩阵进行编码降维,易于稍后的处理。矢量量化(VQ)是基本的编码方法,应用也是相当广泛,因而这里采用VQ编码将SIFT特征映射到codebook中以达到降维目的。
[0063]假设图像的SIFT特征矩阵为:R = (r1;r2,...,rm),其中为128维的SIFT描述子,码矢量:B = (b1; b2,..., bn).则最终的特征向量表示为A = (a1; a2,..., an)。矢量量化(VQ)步骤如下:
[0064]步骤1:对于图像SIFT的每一个描述子ri,找出其与码矢量bj之间欧式距离算法下最近的矢量bk,将最终特征向量相应位置k的值ak加I ;
[0065]步骤2:对其得到的特征向量A进行归一化。
[0066](三)提取图像语义特征
[0067]图像标注包含着图像中存在的一些实体的语义概念,获取一个更加准确的语义特征,对于图像聚类具有重要作用。通过基于共现关系的关联网络和语义特征优化编码可得到更加准确的语义特征。
[0068]基于共现关系的关联网络主要由以下两个部分组成:
[0069](I)与数据集标注相关的语义概念集;
[0070](2)语义概念之间的共现关系。
[0071]关联网络中的语义概念不仅需要反映图像的语义特征,还需要长期稳定地在图像标注中出现,高频标注对于图像而言意味着人们对于图像物体或者场景形象具有高度而集中关注。因此,这里共现网络中的语义概念集合即选为图像数据集中的高频语义标注。
[0072]实现跨模态聚类需要构建语义特征的相似性度量方法,而层次间关联关系是一种固有关联,很难进行量化。所以,主要考虑基于共现频率进行度量层次内共现关联关系。即使两个标注概念之间没有明显的语义关系,但是两者经常同时出现在同一张图像中,也仍然认为两者之间具有较强的关联关系,比如boat和river。因而,图像数据集中两个语义标注Ci和Cj之间的共现概率可以通过公式(10)来计算:

【权利要求】
1.一种基于典型相关性分析的图像优化聚类方法,其特征在于具体步骤如下: (1)从多媒体数据集中采集不同模态的数据对象,得到图像和图像标注数据,整理图像标注数据集中不常出现或者无用的标注词; (2)提取图像底层视觉特征,并通过视觉特征构建方法将高维视觉特征映射到一个低维空间中得到特征向量的稀疏表示; (3)提取图像标注的语义特征,利用语义特征构建方法将图像语义特征映射到一个统一维度空间中得到特征向量的稀疏描述; (4)采用典型相关性分析算法,得 到图像视觉特征和语义特征的典型相关性; (5)构建跨模态融合特征,将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态融合特征,实现媒体数据不同模态信息的统一表示; (6)采用优化聚类算法高效地对同构子空间下的数据信息进行聚类。
2.根据权利要求1所述的方法,其特征在于:步骤(2)中,所述提取图像底层视觉特征采用SIFT局部特征提取方法,提取得到的图像SIFT特征是一组128维的SIFT描述子;将每一个SIFT特征描述子看作一个视觉关键字,然后基于codebook通过矢量量化VQ编码方法将其分配到一个或几个codebook下的特征点; 假设图像的SIFT特征描述子:R = (r1;r2,..., rm),码矢量:B = (b1;b2,..., bn),最终的特征向量表示为A = (a1; a2,..., an), VQ的过程描述为: (1)对于图像SIFT的每一个描述子&找出其与码矢量I3i在欧式距离算法下最近的码矢量bk,将最终特征向量相应位置k的值ak加I ; (2)对特征向量A进行归一化。
3.根据权利要求1所述的方法,其特征在于,步骤(3)中,所述提取图像标注的语义特征,是通过提取图像标注,并将图像标注通过基于共现关系的关联网络和语义特征优化编码来构建准确的语义特征,所述基于共现关系的关联网络主要由以下两个部分组成: (1)与数据集标注相关的语义概念集; (2)语义概念之间的共现关系; 共现网络中的语义概念集为图像数据集中的高频语义标注,图像数据集中两个语义标注Ci和Cj之间的共现概率可以通过式(I)来计算:
P(IMGCi, IMGcj)表示共同包含Ci和Cj的图像与仅包含其中一个语义标注的数目比值,其中,IMGci表示包含Ci的图像数据集,IMGcj表示包含Cj的图像数据集; 为获得对语义特征的更好度量,引入TF-1DF统计方法来构造语义特征的优化编码模式; 假设S是一个规模数量为N的图像数据集,共包含D个不同的语义标注,Ql表示第i个语义标注Tag(i)在第j张图像Image (j)中的度量结果;考虑到在不同的图像中语义标注往往具有不同的重要性,令P =0如果否则如果Tag(i) e Image(j),式(2)来实现对于语义标注的编码过程;
其中,当Tag⑴属于Image (j)时,挞(.Tfl翁)的值为I,否则權)的值为O ; 为进一步获得更加准确的语义特征表示,设计一种基于共现关系的编码优化方法;共现关系可通过上述的共现关联网络获得,公式(3)描述编码优化的具体算法:
其中,$是最终的编码优化结果,《ik表示两个语义标注Ci和Ck在共现关联网络中的权重,如公式(4)所示:
其中,τ是一个预 先设定的阈值,便可完成对语义特征的构建过程。
4.根据权利要求1所述的方法,其特征在于,步骤(4)中,采用典型相关性分析算法,得到图像视觉特征和语义特征之间的典型相关性;典型相关性分析同时学习视觉特征矩阵和语义特征矩阵,以最大限度提取V和S之间相关性的主要特征为准则,从V中提取组合变量L,从S中提取组合变量Μ,如公式(5)所示:
其中,P,Q为线性变换,又称为空间基向量;V表示一个nXDv的图像的视觉特征矩阵,S表示一个nXDs的语义特征矩阵,η为样本的个数;L表示视觉特征在子空间的特征矩阵,维数为Dy M表示语义特征在子空间的特征矩阵,维数也为^ ;子空间的维数均比视觉特征的维数和语义特征的维数要小,P为相关系数,即表示特征矩阵L和M的相关性r(L,M) ;CVV、Cvs> Csv、Css 的映射关系为 Cvv = VTV, Cvs = VTS, Csv = STV, Css = STS, T 表示矩阵的转置; 最大限度提取V和S之间的相关性,转化为在式(5)和式(6)的约束下对P最优化:
V(L) = LtL = PtVtVP = I V(M) = MtM = QtStSQ = I(6) 其中,V(L)和V(M)表示空间特征矩阵L、M的变换后的矩阵,增加此约束在于避免P和Q同时扩大η倍(η表示任意实数)仍然符合条件的解情况出现,此时对P的最优化用拉格朗日公式构造G函数,得公式(7): G = T(UM)-A1(LtL-1)-A2(MtM-1) (7)
求解公式(7)并根据 r (L,M) = r (M, L),证明 λ i = λ 2,得到方程 CvsCs^1CsvP = λ 2CvvP,求取这一方程的特征根即得到空间基向量矩阵P和Q。
5.根据权利要求1所述的方法,其特征在于:步骤(5)中,构建跨模态融合特征,将图像的特征向量和语义特征向量同时映射到一个同构子空间中并进行组合,实现统一表示的方法在于在典型相关性分析基础上得到同维子空间,使得在这一子空间能最大限度的保持图像视觉特征和语义特征的相关性,通过线性加权方法如公式(8)构造这些同构子空间下的特征向量得到最终的跨模态融合特征: CF = aV*P+(l_a )S*Q(8) 其中,α为线性组合中对于视觉特征的权重。
6.根据权利要求1所述的方法,其特征在于,步骤(6)中,利用三角不等式的基础理论,减少一些不必要的计算来缩短聚类的时间,使得数据较大的情况下也能在较短的时间内得到与传统k-means聚类相同的结果;优化聚类算法如下: 步骤1:初始化聚类中心点,对于每一个向量X划分给最近的中心点c(x) = argmind(x, c),其中使用推论避免冗余的计算,每当d(x, c)计算时,上界u(x) = mind(x, c);重复直到收敛: 步骤2:对于所有中心c和c ',计算d(c, c ' ) ο对于所有的中心c,计算s(c) = \ rm'w d(c, c!); 步骤3:识别出所有满足u(x) ^ s(c(x))的数据向量X ; 步骤4:计算d(x, c(x)),对所有剩下的向量X与中心c ; 对于条件Hx)同时满足:
条件 I:c ^ c (X)
条件 2:u (X) > d (X, c (X)) 条件 3: > |d(e(—y).c) (i)如果r(X)为真,则计算d (X, c (X)),并更新上界u (X) = d (x, c (x)),置 r (X) = false ;
否则 d(x, c(x)) = u(x); (ii)如果rf(:l4A').)>y(dx),c.)为真,计算 d(x,c);
如果 d (X, c) < d (X, c (X)), c (X) =c,u (x) = d (x, c).步骤5:对于所有的中心点C,m(C)为以c为中心的所有向量的平均值;
步骤 6:对每个向量 X,置 u(x) = u(x)+d(m(c(x)), c(x)), r (X) = true ; 步骤7:将每个中心c以m(c)替换。
【文档编号】G06T7/00GK104166982SQ201410304578
【公开日】2014年11月26日 申请日期:2014年6月30日 优先权日:2014年6月30日
【发明者】张玥杰, 毛文辉, 朱勤恩, 李杨, 金城, 薛向阳, 张涛 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1