图像聚类方法和系统的制作方法

文档序号:6497147阅读:1360来源:国知局
专利名称:图像聚类方法和系统的制作方法
图像聚类方法和系统
技术领域
本发明涉及模式识别领域,尤其涉及一种图像聚类方法和系统。背景技术
聚类是指把一个没有类别标记的样本集按照某种准则划分成若干个子集或类别, 使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类分析是多元 统计分析的一种,也是非监督模式识别的一个重要分支。作为一种无监督分类方法,聚类分 析已经被广泛地应用于模式识别、数据挖掘、计算机视觉和模糊控制等许多领域。传统的聚 类方法,如K-means方法,EM方法(期望值最大方法)都是建立在凸球形的样本空间上,但 当样本空间不为凸时,方法会陷入局部最优。谱聚类方法能在任意形状的样本空间上聚类,且收敛于全局最优解。该方法具有 实现简单,与维数无关、及全局寻优的良好特性,因此得到了越来越广泛的应用。谱聚类方 法仅仅考虑所有样本的权值矩阵,也叫相似性矩阵,它将聚类问题转换为无向图划分问题。 虽然基于图的谱聚类方法取得了一定成功,但使用固定带宽的基于高斯核的谱聚类方法在 许多自然场景的图像样本集上不能得到令人满意的聚类结果,即使仔细调节参数,这些方 法也不能很好地处理多尺度的样本集,不能有效反应图像数据的局部概率密度分布。

发明内容基于此,有必要提供一种能有效反应图像数据局部概率密度分布的图像聚类方 法。同时,还有必要提供一种能有效反应图像数据局部概率密度分布的图像聚类系 统。一种图像聚类方法,包括如下步骤S1、对提供的图像样本集使用变带宽非参数核 密度估计法创建有向图;S2、对所创建的有向图使用随机游走等周分割方法进行有向图的 分割,将有向图分割成至少两个不相交的子图;S3、提取子图中的图像样本,该子图中的图 像样本即归为一类。优选的,步骤Sl中变带宽非参数核密度估计法使用的函数fb(x)为其中,η为图像样本集中样本的数量,j为有向图中的第j个顶点,Xj为有向图中 第j个顶点代表的图像样本,hj为第j个顶点代表的图像样本的带宽,K为核函数,χ为待 计算概率密度的图像样本。优选的,还包括使用交叉验证方法选择参数k,计算带宽hj的步骤,hj为Xj到与Xj 距离最近的第k个图像样本的距离。优选的,步骤Sl中创建的有向图的边的权重值Wu为
权利要求
一种图像聚类方法,其特征在于,包括如下步骤S1、对提供的图像样本集使用变带宽非参数核密度估计法创建有向图;S2、对所创建的有向图使用随机游走等周分割方法进行有向图的分割,将所述有向图分割成至少两个不相交的子图;S3、提取所述子图中的图像样本,该子图中的图像样本即归为一类。
2.如权利要求1所述的图像聚类方法,其特征在于,步骤Sl中所述变带宽非参数核密 度估计法使用的函数fb(x)为
3.如权利要求2所述的图像聚类方法,其特征在于,还包括使用交叉验证方法选择参 数k,计算带宽Iij的步骤,hj为Xj到与所述Xj距离最近的第k个图像样本的距离。
4.如权利要求2或3所述的图像聚类方法,其特征在于,步骤Sl中创建的有向图的边 的权重值Wii为
5.如权利要求4所述的图像聚类方法,其特征在于,步骤S2中使用随机游走等周分割 方法进行有向图的分割还包括计算所述有向图中所有顶点的转移概率矩阵P的步骤,P = [PijIij, i,j = 1,...,Iv|,其中,P是不可简的,Pi = ι,ι是所有元素为ι的向量,ν为所 述有向图的顶点集,Pu为第i个顶点到第j个顶点的转移概率,Pu = WijMjCli第i个顶点 的度,Cli = Σ jWij。
6.如权利要求5所述的图像聚类方法,其特征在于,步骤S2中还包括对P的对应于特 征值为1的左特征向量做归一化处理获得稳态分布向量π,使JItI = 1的步骤,其中,π = [Jlji,i = 1,..., |V|, JItP= JIt,、为随机游走过程达到稳态时,第i个顶点被访问的概率。
7.如权利要求4所述的图像聚类方法,其特征在于,步骤S2中使用随机游走等周分 割方法进行有向图的分割还包括计算分割过程中的等周常量h (G)的步骤;所述等周常量 h(G)的计算公式为
8.如权利要求7所述的图像聚类方法,其特征在于,步骤S2中所述有向图的分割的步 骤具体是获得子集S,使得等周常量h (G)最小,具体包括如下步骤S21、二值定义一指标向量ye {0,1}η,使得
9.如权利要求8所述的图像聚类方法,其特征在于,所述顶点g为子集S中稳态概率最 大的顶点。
10.如权利要求9所述的图像聚类方法,其特征在于,还包括采用迭代方法对分割得到 的等周常量h(G)最小的子图再次进行随机游走等周分割以得到多类聚类结果的步骤。
11.一种图像聚类系统,其特征在于,包括有向图创建模块、随机游走等周分割模块及 类别提取模块;所述有向图创建模块对提供的图像样本集使用变带宽非参数核密度估计法 创建有向图;所述随机游走等周分割模块对所创建的有向图使用随机游走等周分割方法进 行有向图的分割,将所述有向图分割成至少两个不相交的子图;所述类别提取模块提取所 述子图中的图像样本,该子图中的图像样本即归为一类。
12.如权利要求11所述的图像聚类系统,其特征在于,所述变带宽核密度估计的函数 fb(x)为
13.如权利要求12所述的图像聚类系统,其特征在于,有向图创建模块包括交叉验证 模块,所述交叉验证模块使用交叉验证方法选择参数k计算带宽hp hj为\到与所述Xj距 离最近的第k个图像样本的距离。
14.如权利要求12或13所述的图像聚类系统,其特征在于,所述有向图边的权重值Wij其中,i为有向图中的第i个顶点,Xi为有向图中第i个顶点代表的图像样本,hi为第 i个顶点代表的图像样本的带宽。
15.如权利要求14所述的图像聚类系统,其特征在于,所述有向图创建模块还包括转 移概率矩阵计算模块,所述转移概率矩阵计算模块计算所述有向图中所有顶点的转移概率 矩阵P,P = [PijIij, i,j = 1,...,I V|,其中,P是不可简的,Pl = 1,1是所有元素为1的 向量,V为所述有向图的顶点集,Pij为第i个顶点到第j个顶点的转移概率,Pij = W13Zd1, 屯第1个顶点的度,Cli =Σ JWij-0
16.如权利要求15所述的图像聚类系统,其特征在于,所述有向图创建模块还包括归 一化处理模块,所述归一化处理模块对P的对应于特征值为1的左特征向量做归一化处理 获得 JI,使 JItI = 1,其中,JI = [JIiIi, i = 1,... , |V|, JI1P = JIt, JI 随机游走过程 达到稳态时,第i个顶点被访问的概率。
17.如权利要求14所述的图像聚类系统,其特征在于,所述有向图创建模块还 包括等周常量计算模块,所述等周常量计算模块计算分割过程中的等周常量h(G),h(G) = infs ^^ = mins Σ ^πιν };其中,s为所述有向图顶点集V的子集,VoL(^b)LiEsnIdS = Ieij\ E S,j G勻,eij为连接第i个顶点和第j个顶点的有向边,Vol⑶和KW(^S) 分别为子集S和^的边界的容量,Voi(M) =Siesjd VVip Vol⑶=Σ ies,Jevwij; Pij 为第i个顶点到第j个顶点的转移概率。
18.如权利要求17所述的图像聚类系统,其特征在于,所述随机游走等 周分割模块包括指标向量定义模块、优化求解模块及分割模块;所述指标向量定义模块二值定义一指标向量y e {0,1}η,使得力=gI ^ f ,从而Vol(dS) = Yiesjes^iPij = 2yTlJ(I - P)y,Vol(S) =^ = yT Π 1, h(G)=infs ^^ = rnins其中,Π = diag(π),ι为单位矩阵,P为转移概率矩阵;所述优化求解模块中设定1的二值定义为1可以取任意数值且设定任意顶点g包含于S中, 使用拉格朗日乘子法将h(G)最小问题转化为获得Lciytl = 1解的问题,其中,yg = 0,Ltl为去 除矩阵L的第g行和第g列所得到的矩阵,y0为去除y的第g行得到的向量,L = I-P ;所 述分割模块对%进行线性搜索获得最优阈值,并将Ii小于最优阈值的对应的第i个顶点放 入S中,将yi大于或等于最优阈值的对应的第i个顶点放入S中而完成有向图的分割,S或 5中顶点即构成所分割的子图。
19.如权利要求18所述的图像聚类系统,其特征在于,所述顶点g为子集S中稳态概率 最大的顶点。
全文摘要
本发明涉及一种图像聚类方法,包括如下步骤对提供的图像样本集使用变带宽非参数核密度估计法创建有向图;对所创建的有向图使用随机游走等周分割方法进行有向图的分割,将有向图分割成至少两个不相交的子图;提取子图中的图像数据,该子图中的图像数据即归为一类。该图像聚类方法充分地考虑了图像数据分布的局部概率密度信息,可以对分布极度不均匀的数据进行有效的聚类,且由于使用的是非参数聚类方法,因而可以处理非规则形状分布的图像数据。此外,本发明还涉及一种图像聚类系统。
文档编号G06K9/62GK101976348SQ20101051716
公开日2011年2月16日 申请日期2010年10月21日 优先权日2010年10月21日
发明者刘健庄, 汤晓鸥, 陈默 申请人:中国科学院深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1