一种多维特征向量的聚类方法

文档序号:6598543阅读:695来源:国知局
专利名称:一种多维特征向量的聚类方法
技术领域
本发明属于模式识别领域,具体涉及一种对多维特征向量聚类的方法。
背景技术
对特征空间中的样本数据进行聚类是模式识别、计算机视觉、数据挖掘等领域内 的一项重要的信息处理手段。对数据进行聚类之后,不但可以减少所需处理的数据量,同时 从聚类结果中,也可发现数据之间的相似性规律。 一个鲁棒性良好的聚类方法应该能够将 特征空间中的数据点分割成为一些不相交的子集(每一个子集视为一类),属于同一子集 (类)中的数据点之间的距离尽可能的小,而属于不同子集(类)的数据点之间的距离尽可 能的大。本发明将上述鲁棒性良好的性质称为空间一致性(spatiallycoherent)。
目前,经典的聚类方法有,K-means聚类算法(参考J. MacQueen, "SomeMethods for Classification and Analysis of Multivariate Observations", Proc. Fifth Berkeley Symp. Math. , Statistics, and Probability,1967 :281-297), Normalized Cut 聚类算法(参考J. Shi and J. Malik, "Normalized cuts andimage segmentation,,, IEEE Trans. Pattern Anal. Mach. Intell. , 2000, 22 (8) :888-905),以及均值漂移聚类算法(参 考D.Comaniciu and P.Meer,"Meanshift:A robust approach toward feature space analysis", IEEE Trans. PatternAnal. Mach. Intell. ,2002,24(5) :603-619)等。通常,给定 待聚类的特征向量,在使用K-means聚类算法和Normalized Cut聚类算法时,通过指定希 望产生的类别个数,即可得到一个聚类结果。而在使用均值漂移聚类算法时,需要指定一个 特征带宽参数(feature bandwidth),通过该参数,均值漂移聚类算法通过非参数密度估计 不断寻找特征空间中的局部高密度区域,将属于某个局部高密度区域内的特征向量归为同 一类别。如果待聚类的数据在特征空间中呈现出分散的团状分布(scattering blob-like distribution),即每一个数据点都分布在某一个高密度区域( 一个团),并且这些高密度 区域之间数据点非常稀疏(高密度区域之间出现密度不连续),在这种情况下,上述经典聚 类算法能够有效地输出一个具有空间一致性的聚类结果(事实上,具有分散的团状分布的 数据本身已具有空间一致性了 )。然而,在实际应用中,待聚类的数据集合在特征空间中往 往并非呈现出分散的团状分布,例如,在计算机视觉领域内,从图像中提取的特征向量往往 呈现出复杂的流型分布。直接用上述经典聚类方法对这些呈现复杂分布的数据进行聚类, 往往无法得到具有空间一致性的结果。 一个最主要的原因就是,在这些呈现复杂分布的实 际数据中,高密度区域之间往往没有一个明显的边界,高密度区域之间仍存在一些相对密 度较低的数据点,这些低密度数据点并没有达到足够的稀疏。目前,在模式分类与机器学习 领域,人们对于聚类的研究已达成共识,即,聚类结果的不确定性往往出现在特征空间中低 密度区域的数据点上。 此外,如果特征向量在原有特征空间中很难得到良好的聚类结果时,将特征向量 转换到另外一个新的特征空间上再进行聚类不失为一种很好的思路。目前现有技术中出现 了一禾中半监督判别算法(参考D. Cai,X. He,and J. Han. "Semi—supervised discriminantanalysis, in Proc. IEEE Int. Conf. Computer Vision, Rio de Janeiro, Brazil", J皿.2007.),采用该算法对原始特征空间进行转换后,特征向量在新的特征空间中往往具 有良好的可分离性,这将非常有利与特征向量的聚类。

发明内容
本发明的目的在于提供一种多维特征向量的聚类方法,由该方法得到的聚类结果 更具有空间一致性,即聚类结果更加鲁棒。从而,更为客观的描述特征向量之间的类别所属 情况。 (2)对上述特征向量集合X建立一个k-近邻图Gk,其中,采用欧式距离l|Xi-Xj||2 来度量X中的任意两个特征向量Xi和Xj之间的距离远近关系; (3)求出步骤(2)中k-近邻图Gk的邻接矩阵A,其中矩阵A的每个元素Aij由下
述公式(1)计算得到
J 一 / 如果》eiV*(^)或
="i 0 (1) aff(ij)是特征向量Xi与特征向量Xj邻接程度,Nk(Xj)表示向量Xj的k个邻居, Nk(Xi)表示向量&的k个邻居,其中aff(ij)由下述公式(2)计算 其次,将新的种子集合Xseedsn 中的当前种子集合Xseeds视为已具有类别标识的数 据,A X视为没有类别标识的数据,对所述X_ds,应用半监督判别式分析方法求出X_ds, 的一个最优投影空间的基U。Dt,并将X_ds,投影到U。Dt生成的空间中,投影后的数据为义=.=,其中u。ptT标识矩阵u。pt的转置; 然后,利用均值漂移算法对XseedsSDA进行聚类,将所得到的类别标识赋给Xseedsn 中 对应的数据,Xseedsn 的类别标识集合记为Lseeds,,并更新Xseeds和Lseeds,即令A^ =C ,
鄉t/s 一 h咖t/j o 循环上述过程,直至AX = 0 ,循环停止,得到更新的当前种子集合X_ds和聚类结 果L^ds,其中0为空集。
(8)获取X的类别标识集合L,完成聚类 如果{1-《^} * 0 ,那么将{X-Xsrads}中的数据共同赋予一个新的类别标识lMst, 类别标识集合Z = Z,ws U {、 }, j , n G {1 ,. . . , m},其中、=活则,类别标识集合L
Ls66ds o


图1为本发明方法的流程图; 图2为1071个三位特征向量,其中3种颜色的标识,代表了 3个类别,一个有效的
聚类算法得到的聚类结果应与图2中三个类别的分布一致。 图3为K-means算法的聚类结果。 图4Normalized Cut算法的聚类结果。 图5均值漂移算法的聚类结果。 图6本发明中聚类算法的聚类结果。
具体实施例方式
下面结合附图和具体实施例对本发明作进一步详细的说明。
在本实施例中,如图1所示,具体过程为 (1)将m个待聚类的特征向量记为特征向量集合X = {Xl, x2, . . . , xj,其中Xi为 一个特征向量,i = 1, . . . , m。通常特征向量的个数m的取值范围在102 103数量级上。 图2中示出的是m = 1071, Xi为一个3维特征向量时的空间分布图。 (2)对特征向量集合X建立一个k-近邻图Gk, k取值一般为5-7 ,本实施例中k取 值为7。在建立图Gk时,对于X中的任意两个特征向量Xi和Xj,采用欧式距离||&-^.||2来 度量二值的距离远近关系。 (3)求出步骤(2)中k-近邻图Gk的邻接矩阵A。其中矩阵A的每个元素、.由公
式(1)计算:
J — J 如果、e^(x,)或勺eA^(x,)
4/ =i 0 (1)
aff(ij)是特征向量Xi与特征向量Xj邻接程度,Nk(Xj)表示向量Xj的k个邻居, Nk(Xi)表示向量Xi的k个邻居。其中aff(ij)由公式(2)计算《)=exp{—"2} (2) o为常数,其取值根据特征向量的类型不同而不同,通常其取值范围比特征向量的取值范围小两个数量级。本实施例中,特征向量Xi取值范围为0-255,我们选取o =3。
(4)计算X = {Xl, x2, . . . , xj中每个特征向量的密度den(Xi),计算公式如下
附 选取所有特征向量密度{(161100}1 = 1,..., 1的第96个百分位(96th-perCentile)的 密度值,记为阈值Tge。 (5)选取种子集合Xseeds,其中Xseeds = {Xi I den (x》> T96, Xi G X}。 (6)利用均值漂移算法(参考:D. Comaniciu and P. Meer, "Mean shift :A
robustapproach toward feature space analysis,,, IEEE Trans. Pattern Anal. Mach.
Intell. ,2002,24(5) :603-619)对当前种子集合Xsrads进行聚类,得到当前种子集合的类别
标识集合1^i,其中L_ds中的每个元素为属于当前种子集合X_ds中的特征向量的类别标
识,通常用自然数区分。 (7)增量迭代聚类 首先,从步骤(2)的k-近邻Gk中选取当前种子集合X_ds的所有k近邻数据,其定 义为AX = {Xi|Xi G Nk(Xj),或,Xj G Nk(Xi),其中Xj G XyJ,将当前已具有类别标识的种 子集合Xsrads与没有类别标识的A X合并为一个新的种子集合,记为X:二 = Ximfc U AX 。
其次,对Xsradsn 应用半监督判别式分析方法(参考D. Cai, X. He, and J.Han. "Semi_supervised discriminant analysis, in Proc. IEEE Int.Conf. Computer Vision,Rio de Janeiro,Brazil", Jun. 2007.),求出Xseedsnew的一个最优投影空间的基U。pt。 并将X^^投影到U。pt生成的空间中,投影后的数据为J=f =f/iC ,其中U标识矩 阵U一的转置。 然后,利用均值漂移算法对XseedsSDA进行聚类,将所得到的类别标识赋给Xseedsn 中 对应的数据。将Xsradsn 的类别标识集合记为Lsradsn 。
更新Xseeds和Lseeds,令义鄉A.=《=,,丄鄉A = Z:必。 循环上述过程,直至AZ = 0 ,循环停止,得到最终的种子集合Xseeds和聚类结果
Ls66ds o (8)获取X的类别标识集合L,完成聚类如果{"-%鄉力} * 0 ,那么将{X_XseedJ 中的数据共同赋予 一 个新的类别标识lMst,类别标识集合丄=丄ww U仏 }^(x-x_sl , n G {1, . . . , m},其中4 =/re ;否则,类别标识集合L = Lsrads。 图6是由本发明算法得到的聚类结果,图3-5是其它3种经典聚类算法得到的聚 类结果,可以看出本发明的到结果与图2中原本的类别分布更为一致,从而说明了本发明 的有效性。 本发明中根据具体特征向量的数值范围选取均值漂移算法中的特征带宽 (feature bandwidth)参数、,通常其取值范围比特征向量的取值范围小一个数量级。在 上述实施例中,选取的特征带宽参数hr = 10. 5。 根据本发明的典型实施例,用于实现本发明的计算机系统可以包括,特别是,中央 处理器(CPU)、存储器和输入/输出(1/0)接口。计算机系统通常通过I/0接口与显示器和 诸如鼠标和键盘此类的各种输入设备相连,配套电路可以包括像高速缓存、电源、时钟电路 和通信总线这样的电路。存储器可以包括随机存储器(RAM)、只读存储器(R0M)、磁盘驱动
6器、磁带机等,或它们的组合。计算机平台还包括操作系统和微指令代码。此处所述各种过 程和功能可以是通过操作系统执行的微指令代码或应用程序(或它们的组合)的一部分。 此外,各种其他外围设备可以连接到该计算机平台,如附加数据存储设备和打印设备。
还应理解,因为附图中所述的某些构成系统的组件和方法步骤可以软件形式来实 现,所以系统组件(或过程步骤)之间的实际连接可能有所不同,具体视本发明的编程方式 而定。基于此处提出的本发明原理,相关领域的普通专业人员可以设想本发明的这些以及 类似实施方案或配置。
权利要求
一种多维特征向量的聚类方法,包括如下步骤(1)将m个待聚类的特征向量记为特征向量集合X={x1,x2,...,xm},其中xi为一个特征向量,i=1,...,m;(2)对上述上述特征向量集合X建立一个k-近邻图Gk,其中,采用欧式距离‖xi-xj‖2来度量X中的任意两个特征向量xi和xj之间的距离远近关系;(3)求出步骤(2)中k-近邻图Gk的邻接矩阵A,其中矩阵A的每个元素Aij由下述公式(1)计算得到aff(ij)是特征向量xi与特征向量xj邻接程度,Nk(xj)表示向量xj的k个邻居,Nk(xi)表示向量xi的k个邻居,其中aff(ij)由下述公式(2)计算 <mrow><msub> <mi>aff</mi> <mrow><mo>(</mo><mi>ij</mi><mo>)</mo> </mrow></msub><mo>=</mo><mi>exp</mi><mo>{</mo><mfrac> <msub><mrow> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>-</mo> <msub><mi>x</mi><mi>j</mi> </msub> <mo>|</mo> <mo>|</mo></mrow><mn>2</mn> </msub> <msup><mrow> <mn>2</mn> <mi>&sigma;</mi></mrow><mn>2</mn> </msup></mfrac><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo></mrow> </mrow>其中σ为常数;(4)计算X={x1,x2,...,xm}中每个特征向量的密度den(xi),计算公式如下 <mrow><mi>den</mi><mrow> <mo>(</mo> <msub><mi>x</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><msub> <mi>A</mi> <mi>ij</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo></mrow> </mrow>选取所有特征向量密度{den(xi)}i=1,...,m的第96个百分位(96th-percentile)的密度值,记为阈值T96;(5)获取种子集合Xseeds,其中Xseeds={xi|den(xi)>T96,xi∈X};(6)利用均值漂移算法对当前种子集合Xseeds进行聚类,得到当前种子集合的类别标识集合Lseeds,其中Lseeds中的每个元素为属于当前种子集合Xseeds中的特征向量的类别标识,通常用自然数区分;(7)对当前种子集合Xseeds进行增量迭代聚类首先,从步骤(2)的k-近邻图Gk中选取当前种子集合Xseeds的所有k近邻数据ΔX,其定义为ΔX={xi|xi∈Nk(xj),或,xj∈Nk(xi),其中xj∈Xseeds},将当前种子集合Xseeds与ΔX合并为一个新的种子集合,记为其次,将新的种子集合Xseedsnew中的当前种子集合xseeds视为已具有类别标识的数据,ΔX视为没有类别标识的数据,对所述Xseedsnew应用半监督判别式分析方法求出Xseedsnew的一个最优投影空间的基Uopt,并将Xseedsnew投影到Uopt生成的空间中,投影后的数据为其中UoptT标识矩阵Uopt的转置;然后,利用均值漂移算法对XseedsSDA进行聚类,将所得到的类别标识赋给Xseedsnew中对应的数据,Xseedsnew的类别标识集合记为Lseedsnew,再更新Xseeds和Lseeds,即令循环上述过程,直至循环停止,得到更新的当前种子集合Xseeds和聚类结果Lseeds,其中为空集。(8)获取X的类别标识集合L,完成聚类如果那么将{X-Xseeds}中的数据共同赋予一个新的类别标识lrest,类别标识集合n∈{1,...,m},其中否则,类别标识集合L=Lseeds。FSA00000045056300011.tif,FSA00000045056300021.tif,FSA00000045056300022.tif,FSA00000045056300023.tif,FSA00000045056300024.tif,FSA00000045056300025.tif,FSA00000045056300026.tif,FSA00000045056300027.tif,FSA00000045056300028.tif,FSA00000045056300029.tif
全文摘要
本发明公开了一种对多维特征向量聚类的方法,基于对特征空间数据分布的观察,本发明从最容易聚类并产生空间一致性结果的高密度区域数据入手,提出了一种增量迭代方式下的聚类方法,每一步迭代选取密度较高的数据作为种子集合,通过种子生长的过程,对数据进行组织,使得迭代过程中每一步的聚类都在密度相对最高的数据上完成。结果显示,本发明的聚类方法能够产生经典聚类算法无法得到的良好结果。
文档编号G06K9/62GK101777126SQ201010114138
公开日2010年7月14日 申请日期2010年2月10日 优先权日2010年2月10日
发明者唐奇伶, 桑农, 高俊, 高常鑫, 黄锐 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1