用于图形图像的k近邻局部搜索遗传自动聚类方法

文档序号:6378872阅读:290来源:国知局
专利名称:用于图形图像的k近邻局部搜索遗传自动聚类方法
用于图形图像的k近邻局部搜索遗传自动聚类方法技术领域
本发明属于图像处理技术领域,可用于对形状特征明显图像的自动聚类。
背景技术
科学技术的不断发展,促使人们的研究对象越来越复杂。视觉作为人类认识和观察世界的主要手段之一,其信息不仅数量巨大而且比较复杂。颜色、形状、纹理和事物的空间关系都等是视觉信息的构成要素,可以作为研究的着眼点。形状是物体在视觉感知意义下具有的最基本特征之一,这方面的研究已经成为计算机视觉和模式识别的重要方面,而利用形状特征对事物进行识别和分类也成为了计算机视觉和模式识别研究的主要工具之一。对形状的研究有形状提取、形状匹配等。形状提取就是从图像中提取出形状信息,这方面比较著名的方法有canny等,形状匹配可分为描述、匹配等两方面。近年来有多种形状描述和匹配的方法被提出。形状描述方法有基于形状边缘轮廓的,有基于形状区域的等等。这些方法均各有优缺点。形状匹配按照一定的度量准则来衡量形状间的相似性。一对一的形状匹配没有任何先验信息,往往不能区分重要的和非重要的形状差异,无论如何设计更优良的形状描述子,都无法解决这一问题,这就需要设计更好的算法去找到形状相似度距离空间中同类形状的内在关系。
聚类分析,作为数据挖掘的重要研究方向之一,其目的是让人们识别数据集中密集和稀疏的区域,发现数据的全局分布模式,以及数据属性之间的相互关系。聚类分析已经广泛的应用到各个领域,包括数据分析、图像处理和市场分析、数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。传统的聚类算法,是提前给定聚类数的,但是现实生活中受诸多因素影响很多数据的聚类数是不可预知的,在这个时候自动聚类的作用凸显而出,诸多学者提出了各种各样的方法,试图解决自动聚类问题。但这些方法往往存在着缺陷算法常常会陷入局部最优,得不到正确的聚类数。有人利用梯度下降的思想来解决自动聚类问题,并将其用于图形图像的聚类,但这种方法依旧存在着上述所说的缺陷,算法容易陷入局部最优,不能得到正确的聚类数。发明内容
本发明的目的在于针对上述已有的技术不足,提出一种用于图形图像的k近邻局部搜索遗传自动聚类方法,以提高图像的聚类效果。
本发明的技术思路是通过canny算子检测图像的轮廓,通过shape context方法描述图像的轮廓信息,通过dynamic programming方法、procrustes analysis方法及edit 距离结合计算图像集的距离矩阵,对图像的自动聚类通过k近邻局部搜索遗传自动聚类算法来实现。其具体实现步骤如下
(I)输入待聚类的N幅图像Si, i = I,…,N,利用canny算子分别对每幅图像进行边缘检测,得到各幅待聚类图像的轮廓图像Ii ;
(2)对各轮廓图像Ii沿其轮廓线进行均匀采样,并以笛卡尔坐标表示采样得到的轮廓点Pij= (Xij,Yij), i=l, ···, N, j=l,…,Μ,其中,Pij表示采样得到的第i幅轮廓图像的第j 个点,Xij, Yij分别为轮廓点Pu位置的横纵坐标,M为采样点的个数;
(3)计算待聚类的任意两幅图像间的距离
(3a)用shape context方法描述轮廓图像Ii,得到轮廓图像Ii的每个轮廓点的近邻点位置分布直方图,并对该直方图进行归一化;
(3b)将归一化的近邻点位置分布直方图,用X2统计方法,计算轮廓图像Ii轮廓点的匹配代价矩阵;
(3c)根据匹配代价矩阵,用dynamic programming方法,去除两幅轮廓图像的离群点,得到轮廓图像的对应匹配点;
(3d)对所得到的对应匹配点,用procrustes analysis方法进行变换;
(3e)将变换后的对应匹配点转换为字符串;
(3f)经过步骤(3a)到(3e)得到两幅待聚类图像Si, Sj的字符串;
(3g)对得到的待聚类图像Si和Sj的字符串,用Edit距离测量这两个字符串间的 Edit距离E(Si,Sj),然后计算待聚类图像Si和Sj之间的距离
(!(Si, Sj) = A uXE (Si, Sj)/L,
其中λ =1. 03为常数,u为待聚类图像Si的轮廓图像的离群点个数,L为待聚类图像31的字符串的长度;
(3h)对得到的待聚类图像的距离(!(Si, Sj),进行归一化
(4)令进化代数t=0,初始化种群
(4a)随机产生P个大于等于2小于等于ζ的整数k” i = 1,…,p,作为p条染色体的聚类数,P为种群规模, =15为最大聚类数;
(4b)对每条染色体随机产生N个大于等于I小于等于Iii的整数j=l,…,N,作为该染色体的各个基因位Bj的值,组成该染色体Hi ;
(5)计算所有染色体的适应度值fi;找出适应度值最大的染色体作为当前最佳染色体H,其中
^=1/ Θ iI k-
O =axk + [χΣ;ω'
<°s =— ΣtlS St,S eCs,k<h
其中,α =0. 5为控制参数,Ici为所计算染色体的聚类数,d(Sk,Sh)为待聚类图像Sk 和Sh的距离,ns为第s类聚类图像所含的待聚类图像副数,Cs为第s类待聚类图像的集合, Sk和Sh为第S类待聚类图像中的待聚类图像;
(6)根据所得到的染色体的适应度值fi;用轮盘赌选择法对所有染色体Hi进行选择,选出要进行遗传操作的中间代染色体H' i;
(7)对得到的中间代染色体H' y以概率σ P σ i e
进行单点交叉操作;
(8)对经过单点交叉操作后所有中间代染色体H" i;以概率σ 2,σ 2 e
进行单点变异操作;
(9)计算经过单点交叉操作后所有中间代染色体H",的适应度值& ;5
(10)对每条中间代染色体H" i,产生一个随机数r,r e
,如果r〈0. 5,执行步骤(11),否则执行步骤(12);
(11)对中间代染色体H" i的每个基因位Bj,产生随机数V,ψ古Cj,I彡ψ彡ki; ki为中间代染色体H" i的聚类数,Cj为基因位Bj的值,将基因位Bj的值Cj改为Ψ ,计算此时中间代染色体H" ' i的适应度值f/,并与改动前的中间代染色体适应度值A比较, 若f, Pfi,则基因位Bj的值设置为Ψ,执行步骤(13),否则基因位Bj的值设置为Cj,执行步骤(13);
(12)对中间代染色体H" i进行k近邻局部搜索
(12a)将中间代染色体H",的每个基因位Bj所对应的待聚类图像Sj,与其它待聚类图像S1的距离d(Sy S1)从小到大进行排序;
(12b)从排好序的距离中,选取前K=5个距离所对应的待聚类图像,作为K副最近邻图像S' ν ;
(12c)对所选出的K副最近邻图像S' v对应的基因位Bv,统计不同基因位值的个数,找到个数最多的基因位值τ,若T=Cj,Cj为待聚类图像Sj对应的基因位Bj的值,则执行步骤(13);
(12d)将中间代染色体H" 1的基因位Bj的值改为τ,计算此时中间代染色体 H" ' i的适应度值f" i,将改变前中间代染色体H" i的适应度值fi;若f" Afi,则基因位 Bj的值设置为τ,否则基因位B]的值设置为Cj ;
(13)比较所有中间代染色体的适应度值fi;找出适应度值最大的染色,将该染色体与当前最佳染色体H比较,若该染色体的适应度值大于当前最佳染色体H的适应度值,则将该染色体复制到当前最佳染色体H,若当前最佳染色体H的适应度值大于该染色体的适应度值,则将当前最佳染色体H复制到该染色体;
(14)对进化代数t值加1,此时若t小于最大进化代数T=100,则返回步骤(6),否则,将当前最佳染色体H的每一个基因位Bi的值Ci作基因位Bi所对应待聚类图像Si的类标,将所有类标相同的待聚类图像分为一个类,输出分类后的待聚类图像和当前最佳染色体H的聚类数。
本发明与现有技术相比具有以下优点
I、本发明由于在遗传操作之后加入局部搜索算子,故可在小范围内调整种群的进化进程,增加了种群的多样性,有利于克服陷入局部最优的缺陷,提高了图像的聚类效果。
2、本发明由于根据图像的近邻信息进行局部搜索,改善了种群进化的方向,加快了收敛速度。


图I是本发明的总流程图2是测试图像集kimia216中的其中4副图像示例;
图3是用本发明对测试图像集kimia216中的30副图像的聚类仿真效果图4是用对比算法对测试图像集kimia216中的30副图像的聚类仿真效果图。
具体实施方式
参照图1,本发明的实现包括如下步骤步骤一输入待聚类的N幅图像Si, i = 1,…,N,利用canny算子分别对每幅图像 进行边缘检测,得到各幅待聚类图像的轮廓图像Ii,本实例中N取30但不局限于30,canny 算子由John Canny于1986年提出。步骤二 对各轮廓图像^沿其轮廓线进行均匀采样,并以笛卡尔坐标表示采样得 到的轮廓点PfUij,yij), i = 1,N, j=l,…,M,其中,Pij表示采样得到的第i幅轮廓图像 的第j个点,Xij, Yij分别为轮廓点Pu位置的横纵坐标,M=100为采样点的个数。步骤三计算待聚类的任意两幅图像间的距离。3. 1)用shape context方法描述轮廓图像1^,得到轮廓图像Ii的每个轮廓点的近 邻点位置分布直方图,并对该直方图进行归一化3. 1. 1)对轮廓图像Ip计算所有轮廓点之间的最大距离
权利要求
1.一种用于图形图像的k近邻局部搜索遗传自动聚类方法,包括如下步骤(1)输入待聚类的N幅图像Si,i = I,…,N,利用canny算子分别对每幅图像进行边缘检测,得到各幅待聚类图像的轮廓图像Ii ;(2)对各轮廓图像Ii沿其轮廓线进行均匀采样,并以笛卡尔坐标表示采样得到的轮廓 APij=(Xuyij), i = l, ···, N, j=l,…,Μ,其中,Pij表示采样得到的第i幅轮廓图像的第j个点,Xij, Yij分别为轮廓点Pu位置的横纵坐标,M为采样点的个数;(3)计算待聚类的任意两幅图像间的距离;(4)令进化代数t=0,初始化种群(4a)随机产生P个大于等于2小于等于ζ的整数ki,i = I,···, P,作为P条染色体的聚类数,P =30为种群规模,ζ =15为最大聚类数;(4b)对每条染色体随机产生N个大于等于I小于等于Ici的整数h j=l,…,N,作为该染色体的各个基因位B]的值,组成该染色体Hi ;(5)计算所有染色体的适应度值fi;找出适应度值最大的染色体作为当前最佳染色体H;(6)根据所得到的染色体的适应度值fi;用轮盘赌选择法对所有染色体Hi进行选择,选出要进行遗传操作的中间代染色体H' i ;(7)对得到的中间代染色体H'i,以概率σ i,σ i e
进行单点交叉操作;(8)对经过单点交叉操作后所有中间代染色体H"i;以概率σ 2,σ 2 e
进行单点变异操作;(9)计算经过单点交叉操作后所有中间代染色体H",的适应度值&;(10)对每条中间代染色体H"i,产生一个随机数r,r e
,如果r〈0. 5,执行步骤(11),否则执行步骤(12);(11)对中间代染色体H"i的每个基因位B」,产生随机数V,ψ古Cj,l彡ψ彡ki; Iii 为中间代染色体H" i的聚类数,Cj为基因位Bj的值,将基因位Bj的值Cj改为Ψ,计算此时中间代染色体H" , i的适应度值Γ i,并与改动前的中间代染色体适应度值A比较,若 Γ Pfi,则基因位h的值设置为Ψ,执行步骤(13),否则基因位B」的值设置为Cp执行步骤(13);(12)对中间代染色体H"i进行k近邻局部搜索(12a)将中间代染色体H" i的每个基因位B」所对应的待聚类图像Sp与其它待聚类图像S1的距离(!(Sj, S1)从小到大进行排序;(12b)从排好序的距离中,选取前K=5个距离所对应的待聚类图像,作为K副最近邻图像 S' ν ;(12c)对所选出的K副最近邻图像S' v对应的基因位Bv,统计不同基因位值的个数, 找到个数最多的基因位值τ ,若T=Cj,Cj为待聚类图像Sj对应的基因位Bj的值,则执行步骤(13);(12d)将中间代染色体H" 1的基因位h的值改为τ,计算此时中间代染色体H" ' i 的适应度值f" i,将改变前中间代染色体H" i的适应度值fi;若f" Afi,则基因位Bj的值设置为τ,否则基因位B]的值设置为Cj ;(13)比较所有中间代染色体的适应度值fi;找出适应度值最大的染色,将该染色体与当前最佳染色体H比较,若该染色体的适应度值大于当前最佳染色体H的适应度值,则将该染色体复制到当前最佳染色体H,若当前最佳染色体H的适应度值大于该染色体的适应度值,则将当前最佳染色体H复制到该染色体;(14)对进化代数t值加1,此时若t小于最大进化代数T=100,则返回步骤(6),否则,将当前最佳染色体H的每一个基因位Bi的值Ci作基因位Bi所对应待聚类图像Si的类标,将所有类标相同的待聚类图像分为一个类,输出分类后的待聚类图像和当前最佳染色体H的聚类数。
2.根据权利要求I所述的用于图形图像的k近邻局部搜索遗传自动聚类方法,其中步骤(3)所述的计算待聚类的任意两幅图像间的距离,按如下步骤进行(3a)用shape context方法描述轮廓图像Ii,得到轮廓图像Ii的每个轮廓点的近邻点位置分布直方图,并对该直方图进行归一化;(3b)将归一化的近邻点位置分布直方图,用X 2统计方法,计算轮廓图像Ii轮廓点的匹配代价矩阵;(3c)根据匹配代价矩阵,用dynamic programming方法,去除两幅轮廓图像的离群点, 得到轮廓图像的对应匹配点;(3d)对所得到的对应匹配点,用procrustes analysis方法进行变换;(3e)将变换后的对应匹配点转换为字符串;(3f)经过步骤(3a)到(3e)得到两幅待聚类图像Si和Sj的字符串;(3g)根据得到的待聚类图像Si和Sj的字符串,计算待聚类图像Si和Sj之间的距离 (KSijSj) = AuXE(SilSj)ZL,其中E (Si, Sj)为待聚类图像Si和Sj的字符串间的Edit距离,λ =1. 03为常数,u为待聚类图像Si的轮廓图像的离群点个数,L为待聚类图像Si的字符串的长度;(3h )对得到的所有待聚类图像间的距离,进行归一化。
3.根据权利要求I所述的用于图形图像的k近邻局部搜索遗传自动聚类方法,其中步骤(5)所述的计算所有染色体的适应度值A,通过如下公式计算fi=l/ 9 iΘ =a xk +—x V " cos s=- Σns Si-Sh^CsMh其中,α =0. 5为控制参数,Iii为所计算染色体的聚类数,d(Sk, Sh)为待聚类图像Sk和 Sh的距离,ns为第s类聚类图像所含的待聚类图像副数,Cs为第s类待聚类图像的集合,Sk 和Sh为第s类待聚类图像中的待聚类图像。
全文摘要
本发明公开了一种用于图形图像的k近邻局部搜索遗传自动聚类方法,主要解决现有自动聚类算法在聚类时易陷入局部最优的缺陷。其实现步骤是(1)用canny算子检测图像的轮廓;(2)用shape context方法描述图像的轮廓并计算轮廓点的匹配代价矩阵;(3)根据匹配代价矩阵用dynamic programming方法对轮廓点进行匹配;(4)用procrustes analysis方法对匹配的轮廓点进行变换;(5)将变换后的匹配轮廓点用字符串表示并测量字符串间的edit距离;(6)根据字符串的edit距离计算图像间的距离;(7)用遗传自动聚类算法对图像进行聚类;(8)对遗传算法的种群进行k近邻局部搜索。本发明具有易于达到全局最优,寻找到正确聚类数的优点。
文档编号G06K9/62GK102930291SQ201210391449
公开日2013年2月13日 申请日期2012年10月15日 优先权日2012年10月15日
发明者刘若辰, 史文博, 焦李成, 刘静, 马文萍, 张向荣, 马晶晶, 王爽 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1