一种基于k均值和奈斯特龙逼近的图像分割方法

文档序号:10613310阅读:208来源:国知局
一种基于k均值和奈斯特龙逼近的图像分割方法
【专利摘要】本发明属于图像分割技术领域,具体涉及一种基于K均值和奈斯特龙逼近的图像分割方法。本发明包括:将图像矩阵A0的各个行向量进行归一化处理;对矩阵H进行特征值分解并对角化;由奈斯特龙逼近方法计算未被抽取的像素间的嵌入逼近矩阵;利用边缘检测算法得到图像的轮廓,实现分割。本发明设计的方法的计算复杂度和存储复杂度都是线性的,所以该方法可以满足图像分割等大规模样本聚类的需要,避免了相似度图中尺度因子的精确设置问题;此外,在计算图像像素之间的相似度的过程中,本发明设计的方法回避了计算较耗时的指数运算,从而使得方法在执行效率上得到较大的提升。
【专利说明】
一种基于K均值和奈斯特龙逼近的图像分割方法
技术领域
[0001] 本发明属于图像分割技术领域,具体涉及一种基于Κ均值和奈斯特龙逼近的图像 分割方法。 技术背景
[0002] 聚类集成算法通常分为两步,首先使用一种或多种聚类算法,对指定数据集进行 聚类,得到多个聚类结果(也称聚类成员);然后把得到的多个聚类成员作为新的输入,通过 一致性函数约束对它们进行组合,输出最终的聚类结果。在生成聚类成员过程中,通常采取 的方法是使用Κ均值算法,随机选择初始点运行m次以获得m个聚类标签,并以此作为集成的 成员。使用该方法的优点在于其计算复杂度低,实现起来简单快捷,适合于大规模数据集应 用。该方法方便快捷的特点使之能够适应大规模图像数据的分割要求,所以在本发明的图 像分割算法中使用了该方法。
[0003] 2001年,Fred提出一种基于共生矩阵(Co-association Matrix)的集成方法,该方 法通过计算两个样本点在各聚类成员中被分在同一个类别中的次数来实现集成的目的。这 种方式类似投票,当两个样本点被聚在同一个类别中的次数超过聚类成员总数的一半时, 也就说明有一半以上的聚类成员认为这两个样本点属于同一个类别,所以在集成结果中应 该将它们划为一类。2002年,Fred和Jain对上述算法进行了改进,他们将两个样本点的相似 度定义为各聚类成员中分到同一类的次数占聚类成员总数的比例,然后以此相似度为基 础,通过最小生成树算法MST(Minimum Spanning Tree)或单链层次聚类算法SL(Single Link)来完成划分,得到聚类集成的最终结果。基于共生矩阵的集成方法存在一个缺点,它 的计算和存储复杂度都是都为〇(n 2),所以在处理大规模数据的聚类问题时会陷入困境。
[0004] Strehl和Ghosh基于超图划分的思想提出了三种新的聚类集成算法CSPA、HGPA和 MCLA算法。CSPA通过聚类成员的共生矩阵构造超图,再由图划分算法METIS给出聚类结果; HGPA算法先构造一个超图,再由超图划分算法HMETIS进行聚类,进而得到最终的聚类结果; MCLA算法通过计算二元Jaccard系数来度量超边间的相似度,再由METIS算法对超边进行断 裂缩减操作,以获得最终的簇划分。此外,Fern和Brodley使用二部图模型建模对点和簇同 时建模,提出了HBGF算法。上述四种算法在聚类过程中都使用了图划分算法,图划分算法虽 对簇的结构不做强的假设限制,但是为了避免算法收敛到平凡解和孤立点,图划分算法对 簇的规模做了潜在的平衡性约束,即假定每个簇内样本点数大致相等,所以当数据集的平 衡性不理想时,图划分算法的聚类性能很难得到保证。
[0005] 谱聚类算法对数据集的簇结构不做强的假设,且算法不会陷入局部最优,是解决 非凸数据集聚类问题的较为有效的算法。由于上述优点,近几年来谱聚类已经成为非常热 门的聚类算法之一。但是谱聚类算法在处理高维大规模数据数据时有两个明显的不足:(1) 其核心问题是权值矩阵的特征值分解问题,其计算复杂度高达〇(n 3),这种计算代价限制了 其在大规模数据上的应用;(2)谱聚类要求对相似度图的参数精确设置,而目前在参数设置 方面缺乏相应的理论指导,当数据集为高维数据时,由于无法实现数据空间分布的可视化, 也就不能根据经验来设置参数,只能依靠大量实验获取适当的参数设置,这使得算法在实 际应用中费时费力。
[0006] 在研究中发现,上述算法在对谱分解得到的数据低维嵌入的聚类过程中使用了 K 均值算法,由于K均值算法对初始点的敏感性会导致最终的聚类结果不稳定。针对该问题, 为提高聚类集成谱算法的聚类质量,保证算法的稳定性,本发明在聚类集成谱算法的低维 嵌入聚类过程中引入了近邻传播聚类算法,并设计了一种新的聚类集成谱算法,该算法避 免了谱聚类中使用K均值算法时因初始点的随机选择性导致算法出现不稳定现象的问题。

【发明内容】

[0007] 本发明的目的在于提供一种基于K均值和奈斯特龙逼近的图像分割方法。
[0008] 本发明的目的是这样实现的:
[0009] -种基于K均值和奈斯特龙逼近的图像分割方法,包括如下步骤:
[0010] (1)将图像矩阵Ao的各个行向量进行归一化处理,随机从η个像素点中抽取m个像 素点,则这m个像素点对应的矩阵为Am= [ai,a2, · . ·,am]T,图像Ια= {xi,X2, · . ·Χη}包含的像 素点的个数为η,对每个像素 Xi对应一个d维的向量ai,其中31£1^,1<1<11未被抽取的像素 对应的矩阵为An- m=[m,a2,. . .,an-m]T,定义抽样点的相似度矩阵H=AmA mTeRmXl^^Jlj余像素 点的相似度矩阵B=AmA n-mT e RmX ;
[0011] (2)对矩阵H进行特征值分解并对角化,得到特征向量矩阵U= [ui,U2, . . .,Um]及对 角阵Λ zdiagRA,…,Am],其中ui,U2,…,Um为特征值λι,λ2,…,Am对应的特征向量;
[0012] (3)由奈斯特龙逼近方法计算未被抽取的像素间的嵌入逼近矩阵,记为 ?λ - = fn1,合并嵌入矩阵
,其中取反的前k列向 量,再进行归一化处理后得到仄;
[0013] (4H5yieRk为矩阵尻的第i个行向量,则Y={yi|i = l,...,n}描述为图像矩阵A 经谱映射后的低维嵌入,用K均值聚类算法对新的数据元素集合Y={yi| i = l,. . .,n}进行 聚类,利用边缘检测算法得到图像的轮廓,实现分割。
[0014]所述的图像矩阵Ao为:给定的图像^={>142,...&}包含像素个数为11,每个像素 用一个d维的向量&1进行描述,其中aieRd,l彡i< n,该图像用一个矩阵AeRnXd来描述,这 里A = [ ai,a2,· · ·,an] 〇
[00?5] 所述的特征向量矩阵中,Ul,U2, . . .,Um为特征值λ?,λ2,...入对应的特征向量,且 . . .
[0016] 本发明的有益效果在于:
[0017]本发明设计的方法的第(1)步需要计算mXd的矩阵A^dXm的矩阵AmT之积以及矩 阵AAdX (n-m)的矩阵An-mT之积,其计算复杂度为0(k2+kn),存储复杂度为0(nm);第⑵步m 阶方阵Q的特征值分解所需的计算复杂度为〇(m3),存储复杂度为0(m2),抽样数m通常很小, 一般m<100;第(3)步求解Uk的计算复杂度为0(nmk),存储复杂度为0(nk);第(4)步中完成 一次K均值方法,其计算复杂度为0(k 2In),存储复杂度为0(k2+kn),其中I为K均值方法的循 环迭代次数,通常有1<<η。显然,本发明设计的方法的计算、存储复杂度都是关于η的一次 表达式,即本发明设计的方法的计算复杂度和存储复杂度都是线性的,所以该方法可以满 足图像分割等大规模样本聚类的需要。
[0018] 此外,在计算相似度矩阵的过程中,本发明采用了余弦相似度来计算矩阵Η和矩阵 Β。设被抽取的像素矩阵为Am= [ai,a2,. . .,am]T,未被抽取的像素矩阵为An-m= [bi,b2,..., bn-m]τ,则矩阵Η=AmAm T,矩阵B = AmAn-mT,由此避免了相似度图中尺度因子的精确设置问题; 此外,在计算图像像素之间的相似度的过程中,本发明设计的方法回避了计算较耗时的指 数运算,从而使得方法在执行效率上得到较大的提升。
【附图说明】
[0019] 图1为本发明设计的方法的流程图。
【具体实施方式】
[0020] 下面结合附图对本发明做进一步描述。
[0021] 本发明设计了一种基于K均值和奈斯特龙逼近的图像分割方法。结合K均值方法和 奈斯特龙方法的优点进行图像分割。一方面,利用K均值算法对图像进行多次预划分,生成 多个初始分割结果。另一方面,在初始分割结果上而不是直接在原始图像上利用奈斯特龙 算法进行聚类分析取得了更优越的分割效果。此外,为了解决谱聚类的计算复杂度问题,本 发明采用了奈斯特龙逼近方法。结果表明,本发明设计的方法可以得到较好的图像分割效 果。
[0022] 聚类分析包括多元数据分析,如数据挖掘,分类,全文检索和模式分类。图像分割 是许多研究领域的一项重要技术。在过去的半个世纪中,一些学者提出了多种聚类算法,如 K均值及其变种。然而,这些算法的数据集利用了一个凸的球形样本空间,当样本空间不是 凸的时候,会获得局部最优解。一致性函数的设计将直接影响到集群集成的聚类质量,它在 这一步中起到重要的作用。由于谱聚类算法的优点,现已广泛应用于如计算机视觉和信息 检索等多种领域。此外,谱聚类算法利用数据的成对的相似性,已被证明是在获得集群方面 比传统的聚类算法更有效的方法。然而,当数据对象数量(由η表示)巨大时计算η个数据对 象间的成对的相似性,谱聚类算法将遇到一个二次资源的瓶颈。为了利用谱聚类的优点并 克服谱聚类计算复杂度高的缺点,本发明设计了一种基于Κ均值和奈斯特龙逼近的图像分 割方法,该方法利用谱聚类技术在聚类集成的第二个阶段中整合了所有的划分结果。
[0023] 田铮等指出,将以权矩阵的前k个特征向量为列向量组成的矩阵的行向量作为原 数据集经谱映射得到的低维嵌入,各低维嵌入之间的夹角可作为聚类的依据,由此得到的 聚类标签即为原数据集的对应样本的聚类标签。本发明引入了该思想,在余弦相似度的框 架下,设计了一种基于K均值和奈斯特龙逼近的图像分割方法,该方法采用余弦相似度构造 图像像素的相似度矩阵,以此相似度矩阵作为谱分解的权矩阵,并采用奈斯特龙逼近的策 略来提高算法的谱分解的效率,使谱聚类算法在计算复杂度和存储消耗上能够满足图象分 割中大规模样本聚类的要求。
[0024] 为提高图像分割算法的性能,通常在进行图像分割前需要对图像进行适当的预处 理。本发明重点研究聚类的应用问题,这里对图像的预处理不做具体介绍。本发明在算法中 采用简单的四邻点加权,加权算子Θ如下式所示:
[0025]
[0026] 该加权预处理能够对图像起到一定的平滑作用,去掉图像中较为细小的噪点,当 然这里也可采用其它加权方法如基于中心加权的方法等进行平滑处理。
[0027] 本方法中用于谱分析的权矩阵是通过余弦相似度构造得到的,而余弦相似度以样 本在样本空间中夹角的余弦值度量样本间的相似性。本发明指出采用单一的颜色空间描述 像素特征是不合适的,以RGB颜色空间为例进行说明,R、G、B值为(10,20,30)的像素点i和值 为(40,80,120)的像素点j在样本空间中落在同一方向上,当由余弦相似度来衡量时,这两 个像素点是完全一样的,但是实际情况是这两个像素在亮度上存在明显的差别。在本发明 中,为了使图像矩阵A能更好的表达像素信息,并方便余弦相似度的表达,每个像素由RGB、 LUV和HSV三个颜色空间同时进行描述,此时,上述在单一颜色空间中的同一方向上的像素 点间的差异就可以在余弦相似度中得到体现。此外,本发明在描述像素特征时还添加了灰 度描述,这样一个像素点就由一个10维的行向量来描述。
[0028] 传统的谱聚类算法大多采用高斯核计算像素点间的相似度矩阵,设图像的相似度 矩阵可表示为W= [Wij ]nXn,对每个像素 Xi都有一个d维的向量ai来描述它,其中ai e Rdl < η,σ为高斯核尺度因子,则wij = exp(- I I ai-aj I 12/2σ2)。由高斯核计算像素点间的相似度时 存在两点不足:第一,高斯核函数中的尺度因子σ需要人工依照经验精确设置,且单一的尺 度因子σ不能很好地捕捉多重尺度数据的类别分布信息;第二,计算机进行指数运算消耗巨 大,实验证明计算机完成一次指数运算的时间消耗约为一次乘法运算的30倍,在图像这种 大规模数据上,这种计算消耗极大的影响了算法的效率。为避免相似度图的参数精确设置 问题以及提高算法的执行效率,本发明采用余弦相似度来计算图像像素点间的相似度矩 阵。
[0029] 设给定的图像ΙΑ={Χ1,Χ2, . . .&}包含的像素点的个数为η,对每个像素 xdP有一个 d维的向量&1来描述它,其中aieRd,l$i彡n,因此该图像可用一个矩阵AeR nXd来描述,这里 A=[ai,a2,.. .,an]T。由矩阵A构造权图G(A,E,W),这里相似度采用余弦相似度,则图像的相 似度矩阵可表不为W = [Wij]nXn,其中:
[0030]
[0031]样本经归一化后,有I I ai I I = I I aj I I = 1,此时顶点Xi到Xj的权值可简化为Wij = ai · a」,此时相似度矩阵即为W=[Wij]nXn = AAT。由此,图像的权矩阵可由归一化后的图像矩 阵A及其转置矩阵相乘得到,借助高效的矩阵处理软件Matlab,可快速地得到相似度矩阵W。 [0032]给定图像Ιο经上述预处理后得到的矩阵,记为A〇eR nXd,且为了使算法更加简单, 这里假定图象的分割类别数k已知。下面给出本发明所设计的算法的主要步骤:
[0033] (1)将图像矩阵Ao的各个行向量(即图像中一个像素的向量表示)进行归一化处理 得到矩阵A=[ai,a2, . . .,an]TeRnXd,随机从n个像素点中抽取 m个像素点,其对应的矩阵为 Am= [ai,a2,· · ·,am]T,未被抽取的像素矩阵为An-m = [ai,a2,·…,an-m]T,计算相似度矩阵H = AmAmT e RmXm 和相似度矩阵 B=A丄-mT e RmX(n-
[0034] (2)对矩阵Η进行特征值分解并对角化,得到特征向量矩阵U=[ui,U2, . . .,Um]及其 对角阵Λ zdiagl^A,…,Am],其中ui,U2,…,Um为特征值λι,λ2,…,Am对应的特征向量, 且有λι^λ2^ . . . Am ;
[0035] (3)由奈斯特龙逼近方法计算未被抽取的像素点间的嵌入逼近矩阵
Γ并嵌入矩時
是矩阵α的前k列向 量构成的矩阵,归一化处理该矩阵可以得到矩阵…,即为权矩阵w的前k个最 大特征值对应的特征向量的逼近矩阵;
[0036] (4)若指定yieR1^仏的第i个行向量,贝ljY={yi| i = l,…,n}即为图像矩阵A经谱 映射后的低维嵌入;
[0037] (5)用K均值聚类算法对新的样本集¥={71|1 = 1,...,11}进行聚类,得到聚类标 签,经边缘检测算法得到图像的分割轮廓,从而完成图像分割。
[0038] 设给定η个数据点集合X= {X1,X2,. . . xn},h e Rd,1彡i彡n。谱聚类会构建一个相似 度矩阵,记为W,WGRnXn,其中100反映两个点 XjPXj之间的相似关系。本发明利用余弦函 数来表征这个相似度。
[0039]
[0040] 样本经归一化后,有I I Xi I I = I I Xj I I = 1,此时顶点Xi到Xj的权值可简化为Wij = Xi ·幻,此时相似度矩阵即为Ι=[?υ]ηΧη=ΧΧτ。由此,图像的权矩阵可由归一化后的图像矩 阵X和其转置矩阵相乘得到,借助高效的矩阵处理软件Matlab,可快速得到相似度矩阵W。 [0041 ]对于奈斯特龙谱聚类算法,从输入数据中随机抽取m个数据点,令B表示一个维度 为m X (n-m)的相似度矩阵,这个相似度矩阵是m个样本点和(n-m)个剩余数据点之间的相似 度矩阵。令C表示(n-m)个剩余数据点间的相似度矩阵。令A表示一个维度为mXm的相似度矩 阵,这个相似度矩阵是m个样本点间的相似度矩阵,且存在特征值分解,A = UAUT。这样,通 过重新调整矩阵W的各行和各列,存在,
[0042]
[0043] 根据奈斯特龙逼近方法,矩阵W的近似特征值向量可写成,
[0044]
[0045] 这样,矩阵W的近似矩阵r可以记为,
[0046]
[0047] 奈斯特龙谱聚类算法的详细步骤可以归纳如下:
[0048] 输入:数据集合X={X1,X2, . . .,Xn},m和k分别是样本点的数目,期望的聚类类别 数,m>k
[0049] 步骤1):利用公式(1)计算数据集合X的相似度矩阵;
[0050] 步骤2):构建子矩阵AeRmXm和BeRmX(n-m)
[0051 ] 步骤3):计算矩阵A的特征值分解,A = UAUT,
[0052] 步骤4):利用公式(3)计算矩阵W的近似特征值分解;
[0053] 步骤5):利用K均值算法将矩阵?的所有行划分为k类。
[0054]本发明利用三个颜色空间,RGB,LUV and HSV去描述一个向量,以便更准确地构造 图的特征向量。在描述图像的像素时,本发明也利用像素的灰度信息和位置信息,其中,位 置信息包括像素的横纵坐标,如此一个像素又可以用一个12维的向量来描述。
[0055] 给定一幅图像,令P= {pi,p2, . . .,pr}表示图像X的多个划分结果的一个集 合。本发明利用构造超图的思想构建P的一个超图,记为,. .,hr},这个超图有η 个顶点和1:条超边,且七=4(1:<<11)。
[0056] 至此,基于Κ均值和奈斯特龙谱聚类的聚类集成算法的主要步骤可以归纳为:
[0057] 输入:一个图像矩阵紅iT'm和k分别是样本点的数目,期望的聚类类别数,m>k
[0058] 1)调用K均值算法将图像X划分成k类,得到一个划分结果,记为,p1;
[0059] 2)调用K均值算法r次,得到划分结果的一个集合,记为P={Pl,p2, . . .,pr},构建这 个集合的一个超图,记为H={hi,h2,. . .,hr};
[0060] 3)调用算法1,奈斯特龙逼近方法,将超图Η划分成k类;
[0061] 4)根据这k类结果,利用边缘检测算法获取原始图像的轮廓。
[0062]输出:最终的分割结果。
【主权项】
1. 一种基于κ均值和奈斯特龙逼近的图像分割方法,其特征在于,包括如下步骤: (1) 将图像矩阵Αο的各个行向量进行归一化处理,随机从η个像素点中抽取m个像素点, 则运m个像素点对应的矩阵为Am=[ai,a2, . . .,am]T,图像Ia={xi,X2, . . .Xn}包含的像素点的 个数为n,对每个像素 XI对应一个d维的向量曰1,其中aieRd,l《i《n未被抽取的像素对应的 矩阵为An-m=[ai,a2, . . .,an-m]T,定义抽样点的相似度矩阵H = AmAmTeRmXm和剩余像素点的相 似度矩阵B = AmAn-mTe RmXb-m;; (2) 对矩阵Η进行特征值分解并对角化,得到特征向量矩阵U=[U1,U2, . . .,Um]及对角阵 八=diag|>i,A2, . . . ,λη],其中山,112, . . .,Um为特征值λ?,λ2, . . . ,λη对应的特征向量; (3) 由奈斯特龙逼近方法计算未被抽取的像素间的嵌入逼近矩阵,记为= sTuA-1, 合并嵌入矩^其中,知W =仍/Λ-1取技的前k列向量,再进行归一化 处理后得質(4) 设yiGRk为矩阵抗的第i个行向量,贝化={yi| i = l,. . .,n}描述为图像矩阵A经谱映 射后的低维嵌入,用K均值聚类算法对新的数据元素集合Y={yi| 1 = 1,...,n}进行聚类,利 用边缘检测算法得到图像的轮廓,实现分割。2. 根据权利要求1所述的一种基于K均值和奈斯特龙逼近的图像分割方法,其特征在 于:所述的图像矩阵A日为:给定的图像lA={xi,X2,...Xn}包含像素个数为n,每个像素 XI用一 个d维的向量曰1进行描述,其中aieRd,i《i《n,该图像用一个矩阵AERDXd来描述,运里A = [ai,日2,. ..,an]T。3. 根据权利要求1所述的一种基于Κ均值和奈斯特龙逼近的图像分割方法,其特征在 于:所述的特征向量矩阵中,山,U2, . . .,Um为特征值λ?,λ2, . . .,λη对应的特征向量,且λι>λ2 ^ . · · ^ λ皿 〇
【文档编号】G06K9/62GK105975996SQ201610429116
【公开日】2016年9月28日
【申请日】2016年6月16日
【发明人】王蕾, 张国印, 刘晨, 高伟
【申请人】哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1