一种基于改进的模糊C均值聚类的图像聚类方法及装置与流程

文档序号:15984111发布日期:2018-11-17 00:41阅读:199来源:国知局

本发明涉及一种基于改进的模糊c均值聚类的图像聚类方法及装置,属于图像处理技术领域。

背景技术

21世纪是一个数据化、信息化的时代,随着医学成像技术的发展和普及,医院和医疗研究机构产生的医学影像数据,包括ct、mri、x射线等,均呈现海量化的増长趋势,如何准确高效地对医学图像进行匹配检索成为当前研究的重要课题。基于内容的医学图像检索方法依赖于医学图像的视觉特征,如形状、纹理、颜色、灰度等,用户输入想要检索的医学图像,根据相似度大小,依次返回给用户。

模糊c均值聚类相比“硬聚类”,它会计算每个样本对所有类的隶属度,若某样本对某类的隶属度在所有类的隶属度中具有绝对优势,则该样本分到这个类中是一个十分保险的做法。其中,在模糊c均值聚类算法中,聚类定义是模糊的,每个数据点对每个簇都存在一个隶属度,并且每个数据点对所有簇的隶属度之和为1。

模糊c均值聚类算法的思想是:首先给定数据集x={x1,x2,...,xn},c为聚类类别数,ci(i=1,2,…,c)为每个类的聚类中心,μij反映了第j个样本对第i类的隶属度,则模糊c均值聚类的判别函数(目标函数)为:

其中,i表示第i个聚类中心,μij表示数据集第j个样本,xj隶属于第i个分类的隶属度,j表示第j个样本图像,m为加权指数,大多数情况下m的值为2,dij为第j个样本对第i个聚类中心的欧式距离。

由于模糊c均值聚类算法的计算即为不断迭代使目标函数最小化的过程,给定聚类类别数,设定阈值范围,初始化聚类中心以后,重复计算隶属度μjt和聚类中心pi,当相邻两次目标函数结果的变化量小于设定的阈值时,迭代停止,此时认为算法收敛。其中,隶属度μjt和聚类中心pi的计算公式如下:

其中,i为第i个聚类中心,m为加权指数,djt为第t个样本图像xt对第j个聚类中心的欧氏距离,dit为第t个样本图像xt对第i个聚类中心的欧氏距离,k为第k个聚类中心。

由于模糊c均值聚类算法对初始值非常敏感,因此,模糊c算法中初始值的设定有很重要的意义。模糊c均值聚类方法存在以下缺点:(1)初始聚类数需要人为确定,使用伪随机数产生初始聚类中心造成聚类效果不稳定,容易得不到满意的效果;(2)采用现有的判别函数作为聚类目标,模糊c均值聚类效果常常不稳定,导致模糊c均值聚类结果准确度较低。



技术实现要素:

本发明的目的是提供一种基于改进的模糊c均值聚类的图像聚类方法及装置,用于解决现有的初始聚类数和初始聚类中心会导致聚类效果不佳,进而影响图像检索效果的问题。

为解决上述技术问题,本发明提供了一种基于改进的模糊c均值聚类的图像聚类方法,步骤如下:

输入样本图像,计算样本图像的特征值向量;

将样本图像的特征值向量作为输入样本点,采用自组织神经网络算法进行分类,确定初始的聚类中心和聚类数目;

采用极大似然估计算法得出样本图像对各个类的归属概率,将该归属概率作为目标函数的权值以构建目标函数;

根据初始的聚类中心和聚类数目,通过迭代计算下一次的聚类中心,直至相邻两次的目标函数值之间的变化量小于设定的阈值。

本发明的有益效果是:

通过计算样本图像的特征值向量,采用自组织神经网络算法对图像进行粗聚类,确定初始的聚类中心和聚类数目,增强了聚类效果的稳定性,进而增强了图像检索的准确性,并且为了增强模糊c均值聚类算法的聚类结果准确度,还包括采用极大似然估计算法得出样本图像对各个类的归属概率,将该归属概率作为目标函数的权值以构建目标函数。

进一步的,为了使整体图像的灰度像素分布均匀,增强图像的对比度,还包括对样本图像进行去噪处理。

进一步的,运用灰度共生矩阵计算样本图像的特征值向量。

进一步的,采用高斯滤波方法对样本图像进行去噪处理。

进一步的,样本图像的特征值向量包括角二阶矩、对比度、自相关、同质性/逆差距和熵。

本发明还提供了一种基于改进的模糊c均值聚类的图像聚类装置,包括处理器和存储器,所述处理器用于处理存储在存储器中的指令以实现如下方法:

输入样本图像,计算样本图像的特征值向量;

将样本图像的特征值向量作为输入样本点,采用自组织神经网络算法进行分类,确定初始的聚类中心和聚类数目;

采用极大似然估计算法得出样本图像对各个类的归属概率,将该归属概率作为目标函数的权值以构建目标函数;

根据初始的聚类中心和聚类数目,通过迭代计算下一次的聚类中心,直至相邻两次的目标函数值之间的变化量小于设定的阈值。

进一步的,还包括对样本图像进行去噪处理。

进一步的,运用灰度共生矩阵计算样本图像的特征值向量。

进一步的,采用高斯滤波方法对样本图像进行去噪处理。

进一步的,样本图像的特征值向量包括角二阶矩、对比度、自相关、同质性/逆差距和熵。

附图说明

图1是本发明基于改进的模糊c均值聚类的图像聚类方法的流程图;

图2是自组织神经网络模型图;

图3是输入的图像1的示意图;

图4是系统一对图像1的检索结果;

图5是系统二对图像1的检索结果;

图6是输入的图像2的示意图;

图7是系统一对图像2的检索结果;

图8是系统二对图像2的检索结果;

图9是输入的图像3的示意图;

图10是系统一对图像3的检索结果;

图11是系统二对图像3的检索结果;

图12是输入的图像4的示意图;

图13是系统一对图像4的检索结果;

图14是系统二对图像4的检索结果;

图15是输入的图像5的示意图;

图16是系统一对图像5的检索结果;

图17是系统二对图像5的检索结果;

图18是本算法与经典的模糊c均值聚类算法的检索结果的查全率;

图19是本算法与经典的模糊c均值聚类算法的检索结果的查准率。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例对本发明进行进一步详细说明。

本发明提供了一种基于改进的模糊c均值聚类的图像聚类装置,包括处理器和存储器,处理器用于处理存储在存储器中的指令,以实现一种基于改进的模糊c均值聚类的图像聚类方法,该聚类方法可以应用于医学图像的聚类,也可以应用于其他类型的图像的聚类。具体来说,该方法的流程图如图1所示,包括以下步骤:

(1)输入样本图像,对样本图像进行去噪处理。

在本实施例中,在进行聚类之前,首先对图像库中输入的图像进行统一的高斯滤波处理,进而将图像中的灰度像素点作为映射,使得整体图像的灰度像素分布均匀,增强图片的对比度。

在具体实施时,运用matlab软件对图像进行高斯滤波处理,它是对整幅图像进行加权平均的过程,每一个像素点的值都由其本身与邻域内的其他像素的值经过加权平均后得到。高斯滤波函数h(x,y)为:

其中,x2和y2分别表示邻域的其他像素与邻域中心像素的距离,σ表示标准差。

离散的高斯卷积核h是(2k+1)×(2k+1)维矩阵,其元素的计算函数为:

其中,σ为方差,k为核矩阵的维数。

对图像进行高斯滤波处理的方法属于现有技术,此处不再赘述。当然,作为其他的实施方式,也可以采用现有技术中其他的去噪方法对对样本图像进行去噪处理。

(2)计算样本图像的特征值向量,将样本图像的特征值向量作为输入样本点,采用自组织神经网络算法进行分类,确定初始的聚类中心和聚类数目。

也就是说,为确定初始聚类中心和聚类数目,在模糊c均值聚类的基础上加入了“自组织神经网络”的方法。其中,自组织神经网络是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到二维空间,即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。它通过自动寻找样本内在的规律与属性,自适应地改变网络参数与结构。

如图2所示,自组织神经网络的结构有两层:输入层+竞争层。输入层作用为输入外界信息,并把外界信息从输入模式向竞争模式传递;竞争层作用为对输入进来的外界信息进行相似性测量,寻找其中的规律进而将外界信息归类。

自组织神经网络的训练过程为:接收到样本点后,每个竞争层的神经元会计算该样本点与自身的权向量间的距离,距离最近者为竞争获胜神经元,进而,竞争获胜神经元及其邻近神经元的权向量将被调整,使得权向量与当前输入样本的距离缩小,此过程将不断迭代,直至最终结果收敛。

在确定初始聚类中心的过程中,本实施例采用灰度共生矩阵计算图像的特征值作为图像的特征值向量。当然,作为其他的实施方式,也可以采用现有技术中的其他方法来计算样本图像的特征值向量。其中,灰度共生矩阵指的是一种通过研究灰度的空间相关特性来描述纹理的常用方法。纹理是由灰度在空间位置反复出现而形成的,因此在图像上相隔任意距离的两个像素之间会存在一定的灰度关系。此矩阵是对图像空间上保持某距离的两个像素分别具有灰度状况的统计。

灰度共生矩阵的特征非常多,本实施例选取角二阶矩(asm)、对比度(con)、自相关(cor)、同质性/逆差矩(h)、熵(ent)等五个特征值,组成描述灰度纹理特征的向量,具体计算公式如下:

a.角二阶矩(asm)

b.对比度(con)

c.自相关(cor)

d.逆差矩(h)

e.熵(ent)

其中,i表示灰度共生矩阵的第i行,j表示灰度共生矩阵的第j列,p(i,j)表示灰度共生矩阵第i行第j列对应的元素,μi为μj为

由于上述五个特征值的计算公式均属于现有技术,此处不再对计算公式中的参数计算进行详细描述。将灰度共生矩阵得出的五个图像特征值作为自组织神经网络的输入样本点。对当前输入模式向量y和竞争层中各神经元的权向量ωj进行归一化处理,其中j=1,2,…,m,分别得到归一化后的输入模式向量和归一化后的竞争层中各神经元的权向量的计算公式如下:

其中,j表示第j个权向量,||y||表示输入模式向量y的大小,||ωj||表示输入模式向量ωj的大小。

进而每个竞争层的神经元会计算该样本点与自身的权向量间的距离即将与竞争层所有神经元所对应的权向量ωj进行相似性测量,其中j=1,2,…,m,最相似的神经元获胜,为竞争获胜神经元此时有:

然后竞争获胜神经元及其邻近神经元的权向量将被调整,权向量调整如下:

其中,t+1表示获胜神经元在进行第t+1次学习和调整,表示向量调整的大小,0<α≤1为学习率,α通常随着调整次数的增加而减小直至趋于聚类中心。竞争获胜神经元及其邻近神经元的权向量将被调整,使得权向量与输入样本的距离缩小。此过程将不断迭代,直至收敛。

此时,每个竞争神经元对应的相似样本点已确定,无监督分类学习结束。在每个竞争神经元内随机选取一个权值作为初始聚类中心,作为模糊c均值聚类的输入聚类中心,聚类中心数目为竞争层中的类别数。

(3)采用极大似然估计算法得出样本图像对各个类的归属概率,将该归属概率作为目标函数的权值以构建目标函数。

其中,极大似然估计是建立在极大似然原理的基础上的一个统计方法,极大似然估计提供了一种利用已知的观察数据来评估模型参数的方法。它的目的就是利用已知的样本点结果来反推最大概率导致的参数值。

在本实施例中,基于极大似然的模糊c均值聚类首先假设所有样本点的分布服从正态分布n=(μk,σk2),进而根据极大似然利用已知的样本点结果来反推最大概率导致的参数值的目的,借助极大似然估计计算出每个样本归属于各个类的概率,将样本归属于概率最大的一类中。

设输入各个样本点的向量为xt=[x1,x2,...,xn],根据自组织神经网络中竞争层的类别数确定类数为s,有特征向量x在第k类的概率密度分布p(x|sk)为:

其中,是第k类的均值向量,是第k类特征向量的协方差矩阵,(σk2)-1是σk2的逆矩阵,|σk2|是矩阵σk2的行列式。

由贝叶斯决策可知样本点归属于第k类的概率p(sk|x)为:

其中,p(x|sk)是特征向量x在第k类的概率分布,p(sk)是第i类出现的先验概率,i=1,2,…,s。若p(sk|x)越大,则特征向量x归属于sk的概率就越大。结合第k类的均值向量μk和第k类特征向量的协方差矩阵σk2,并经过基数为e的对数求解可得判别式gk(x)为:

经过极大似然估计后的样本点对归属于各个类的概率都有了明确的数值,此时将gk(x)作为权值ωi代入模糊c均值聚类的目标函数j中,即:

其中,i为第i个聚类中心,j为第j个样本图像,j=1,2,...,n,m为加权指数,dij为第t个样本图像xt对第j个聚类中心的欧氏距离,μij为第j个样本xj隶属于第i个分类的隶属度,c为第c个聚类中心,ωi为基于极大似然估计的权值。

由此目标函数可得出加权后的隶属度μij和聚类中心pi。

相比传统的模糊c均值聚类算法,本发明加入了基于极大似然估计算法的权值,权值的意义为待检索样本图像属于各个类的概率大小,这增加了图像检索的准确性。

(4)根据初始的聚类中心和聚类数目,通过迭代计算下一次的聚类中心,直至相邻两次的目标函数值之间的变化量小于设定的阈值。

其中,迭代计算下一次的聚类中心的方法属于现有技术,此处不再赘述。通过循环迭代直至最终隶属度μij稳定,则说明改进后的模糊c均值聚类完成。

在程序实现时,本发明基于改进的模糊c均值聚类的图像聚类方法的步骤如下:

步骤一:输入样本图像;

步骤二:运用灰度共生矩阵算法计算图像的五个特征值向量;

步骤三:运用自组织神经网络算法,根据图像的五个特征值向量进行分类,确定聚类中心和粗聚类结果;

步骤四:运用极大似然估计算法得出样本图像对各个类的归属概率,将此概率作为模糊c均值聚类判别式中的新加入权值;

步骤五:输入自组织神经网络确定的聚类中心ci(k),其中i=1,2,…,c,k为第k个样本图像;

步骤六:确定加权系数m的值和阈值ε的范围;

步骤七:计算聚类中心与各个样本点间的距离dij;

步骤八:设定循环次数sn=1;

步骤九:分别计算隶属度矩阵并确定新的聚类中心来替代原始聚类中心;

步骤十:判断相邻两次目标表达式的值的变化是否小于给定阈值ε,若小于则算法结束,若不小于,令sn=sn+1,返回步骤八继续迭代直至算法结束。

为了验证本发明基于改进的模糊c均值聚类的图像聚类方法及装置的有效性,利用matlabr2016a实现了两个cbir系统。系统一使用了本发明基于改进的模糊c均值聚类的图像聚类方法,系统二则使用经典的模糊c均值聚类算法。

在试验中,从图像库中随机选出三类图片分别为大脑ct、手部x光片和颈部x光片各50张作为测试集合,共计150张图片。在三类图像中随机选取几张图像作为待查询图像,分别运用系统一和系统二对待查询图像进行查询。当输入图像1(如图3所示)作为待查询图像时,系统一检索的结果如图4所示,系统二检索的结果如图5所示。当输入图像2(如图6所示)作为待查询图像时,系统一检索的结果如图7所示,系统二检索的结果如图8所示。当输入图像3(如图9所示)作为待查询图像时,系统一检索的结果如图10所示,系统二检索的结果如图11所示。当输入图像4(如图12所示)作为待查询图像时,系统一检索的结果如图13所示,系统二检索的结果如图14所示。当输入图像5(如图15所示)作为待查询图像时,系统一检索的结果如图16所示,系统二检索的结果如图17所示。

从系统一和系统二的检索结果对比可知,本发明提出的基于改进的模糊c均值聚类的图像聚类方法具有良好的检索效果。为了得到比较客观的结论,下面采取统计平均值的方法,对本发明基于改进的模糊c均值聚类的图像聚类方法以及经典的模糊c均值聚类算法的效果进行评估,图18和图19分别展示了两种方法的检索质量。其中,检索质量的评价指标为查准率和查全率,查全率和查准率的表达式为:

其中,er为查全率,ep为查准率,c为检索结果中系统返回的正确图像数目,e为系统没有检索出的正确图像数目,t为系统检索出错误图像的数目。

从图18和图19中可以看出,与经典模糊c均值聚类算法相比,本发明基于改进的模糊c均值聚类的图像聚类方法的检索结果准确率提高了12%,在总体精确度上明显高于传统的模糊c均值聚类方法。

本发明所提供了的基于改进的模糊c均值聚类的图像聚类方法及装置,在经典模糊c均值聚类的基础上首先对图像进行统一的高斯滤波处理,然后运用灰度共生矩阵算法计算图像的特征值,进而运用自组织神经网络算法,根据图像的特征值对图像进行粗聚类,初步确定聚类中心以及聚类数目,成功地解决了经典的模糊c均值聚类算法对初始聚类中心过于敏感,且人为设定聚类数目存在非常大的误差,导致聚类准确性较差的问题。另外,采用了极大似然估计算法对模糊c均值聚类进行改进,将极大似然估计的结果作为模糊c均值聚类的权值,构建出新的判别函数,增加了模糊c均值聚类的准确性,解决了采用现有的判别函数作为聚类目标,导致模糊c均值聚类结果准确度较低的问题。

尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1