基于快速密度聚类算法的无监督人脸识别方法与流程

文档序号:15724854发布日期:2018-10-23 15:52阅读:191来源:国知局

本发明属于涉及无监督的人脸识别方法,针对人脸识别方法目前存在的问题,提出了一种基于快速密度聚类算法的无监督人脸识别方法。



背景技术:

随着信息技术、人工智能、模式识别、计算机视觉等新技术的快速发展,人脸识别技术在公安,交通等安全系统领域有着各种潜在的应用而受到广泛的关注。人脸识别主要是从人脸图像中自动提取人脸特征,然后根据这些特征进行身份验证。人脸识别的方法按算法的不同主要可以分为以下几类:基于几何特征的人脸识别、基于子空间分析的人脸识别、基于弹性图匹配的人脸识别、基于稀疏表示的人脸识别等等。

基于几何特征的人脸识别是最早且最常用的识别方法,该方法采用几何矢量来表示人脸局部特征,利用距离、比率等参数作为识别的特征信息作为人脸识别的方法。基于子空间分析的人脸识别,利用对原始人脸图像进行降维的特征提取,采用一个单一的特征向量来代表整个面部区域,将其作为识别系统的输入。如主成分分析方法(PCA),线性判别分析方法(LDA)以及独立成分分析方法(ICA),其目的均在整个面部区域构造子空间,将人脸图像映射到一个较低的维度空间,从而避免维数过高的问题。基于弹性图匹配的人脸识别方法既保留了人脸面部全局结构和属性特征,其基本思想是先对几种人脸特征进行定位,然后通过比较和综合的方法对人脸进行分类。弹性束图匹配(EBGM),主动形状模型(ASM)和主动外观模型(AAM)是流行的人脸特征定位方法。由于基于统计学习理论的方法日渐成熟,支持向量机(SVM)因其较为稳定的泛化能力和较高的分类能力,被应用到人脸识别技术中。SVM多分类常用一对多法(One-Versus-Best)、一对一法(One-Versus-one)等策略来解决多分类和多识别问题。基于稀疏表示的人脸识别方法(Sparse representation recognition,SRC)在近年来较为新颖的识别方法。稀疏表示所选取的基向量能够很好的表征和描述当前样本的属性特征,因此,稀疏表示具有较好的鉴别功能。同时,因为稀疏表示方法的特殊性,在严重遮挡和较大噪声干扰的情况下,基于稀疏表示的识别方法仍能够较好的处理人脸面部特征以及较好的人脸识别能力,为人脸识别技术提供了新方向和新思路。

虽然在人脸建模和分析技术的发展的基础上,人脸识别领域已有重大进步,但大多数人脸识别方法具有一个特定的前提条件,即需要已知不同类别的人脸图像分类情况,并提取足够的样本数据进行训练,利用训练得到的模型对其他人脸图像进行分类和识别。而当训练样本分类不明确时,现有的人脸识别算法不能得到预期的识别效果。



技术实现要素:

为了克服已有人脸识别需要已知不同类别的人脸图像分类情况,并提取足够的样本数据进行训练的前提条件,本发明提供了一种具有无监督特性,训练样本需求较小、识别能力较强的基于快速密度聚类的无监督人脸识别方法。

本发明解决其技术问题所采用的技术方案是:

一种基于快速密度聚类算法的无监督人脸识别方法,所述识别方法包括如下步骤:

1)针对人脸图像的像素点信息,采用结构相似性计算方法,获得图像间的相似性,结构相似性计算方法定义如下:

在空间域中,两图像块x={xi i=1,...,M}与y={yi i=1,...,M}之间的结构相似性为:

其中C1和C2是两个小的正常数,M是图像块的像素点个数,μX、μY分别表示图像X和Y的均值,σX、σY分别表示图像X和Y的方差,σXY表示图像X和Y的协方差,即

SSIM的值介于0到1之间,如值为1,则说明x与y是完全相似的;

2)采用快速密度聚类算法对公式(1)中相似性矩阵进行聚类,过程如下:

2.1)使用结构相似性计算方法(SSIM)来计算图像间相似性,然后利用高斯核函数计算图像的密度值;

dist(x,xi)=1-S(x,xi) (2)

其中S(x,xi)表示对象x与xi之间的结果相似性,dist(x,xi)表示对象x与xi之间的距离,其中x和xi代表不同的图像对象;

对于任意图像对象xi,其局部密度ρi的计算方式如下:

其中dc是截断距离;

对于任意图像对象xi,其到具有更高局部密度的其他图像对象的最小距离定义δi如下:

其中dij表示对象xi和对象xj之间的距离。

其中对于具有最高局部密度的图像对象,定义它的δi=maxj(dij);

2.2)通过线性回归模型和残差分析确定奇异点,该奇异点即为聚类所得聚类中心;

根据聚类中心本身密度大,被密度比它小的邻居点包围,并且与其它密度更大的对象之间有相对较大的距离的特性,采用非线性函数y=b0+b1/x转换为线性函数去拟合,令则y=b0+b1*X',利用线性函数模型拟合所有数据局部密度ρi和距离δi的函数关系δi’=f(ρi),使用残差分析确定密度和距离分布图中的奇异点信息,其中奇异点为远离拟合曲线的点,即是聚类的簇中心,奇异点个数是聚类的簇个数;

2.3)确定聚类中心后,将其他点按到比其密度更高的最近点的类标一致原则划分到各自的聚簇中;

2.4)通过设定过滤器,严格剔除聚簇边缘的离群对象,过滤器的定义如下:

确定聚类中心并将其余点划分到相应聚簇后,算法首先对于固定的聚簇,要确定其边界区域,该区域内的数据点具有以下特征:数据点本身属于该聚簇,但在其距离不超过R的范围内,R=n*dc,其中n为正常数,存在属于其他聚簇的对象,则通过该边界区域内的对象,为该聚簇确定一个平均局部密度,通过该局部密度,将大于该局部密度的所有对象划分到该聚簇中,而将其他对象剔除;

3)利用步骤2)中的聚类结果进行训练和人脸识别,过程如下:

3.1)从聚类结果中提取聚类中心及少量簇内对象作为训练样本,采用PCA方法进行特征提取;

3.2)利用分类器对人脸进行识别,并得到最后识别结果。

进一步,所述步骤3.2)中,所述分类器采用多分类支持向量机或最近邻分类器。

本发明的技术构思为:基于密度的聚类中心自动确定的聚类算法,不需要预先知道样本的分类信息,对人脸图像进行聚类。首先提取人脸图像的像素矩阵,利用结构相似性计算图像间的相似度,利用高斯函数计算图像对象的密度,并以此计算图像对象的密度及其到更高密度图像的最小距离。结合图像对象的密度-距离分布,通过回归分析拟合密度与距离函数关系,通过残差分析自动确定簇类中心。实验验证了算法的可行性,能够有效的识别出不同的人脸对象聚簇,相比于无监督分类算法,具有较好的性能。然后,利用分类器对聚类结果进行训练和识别,由于聚类结果可能将不同人脸图像聚成一类,而不便于后续的样本提取训练,因此,算法通过设定过滤器,严格剔除聚簇边缘的离群对象,即聚簇内密度较低的对象,能够有效的保持簇内纯度,保证后续训练模型的精确性。利用聚类算法得到的聚类结果,提取聚类中心及少量簇内成员作为训练样本,采用主成分分析、线性判别分析等方法进行特征提取,利用多分类支持向量机、最近邻分类器等经典分类方法进行人脸识别,在Olivetti、Yale等流行人脸数据集上进行测试,结果显示,聚类算法的实验结果与无监督分类算法相比,具有较好的聚类性能和识别性能,分类结果实现,算法在少量样本训练的情况,结合不同的分类器,均能获得较好的识别效果,验证了算法的可行性和有效性。

本发明的有益效果主要表现在:无监督特性,训练样本需求较小,人脸识别能力较强。

附图说明

图1为人脸识别模型框架图;

图2为图像对象密度与距离映射关系图;

图3快速划分原则图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1~图3,一种基于快速密度聚类算法的无监督人脸识别方法,所述识别方法包括如下步骤:

1)针对人脸图像的像素点信息,采用结构相似性计算方法,获得图像间的相似性。结构相似性计算方法定义如下:

在空间域中,两图像块x={xi i=1,...,M}与y={yi i=1,...,M}之间的结构相似性为:

其中C1和C2是两个小的正常数,M是图像块的像素点个数,其中μX、μY分别表示图像X和Y的均值,σX、σY分别表示图像X和Y的方差,σXY表示图像X和Y的协方差,即

SSIM的值介于0到1之间,如值为1,则说明x与y是完全相似的;

2)采用快速密度聚类算法对公式(1)中相似性矩阵进行聚类,过程如下:

2.1)聚类中心自动确定方法基于以下思想:

聚类中心具有两个特点:1.聚类中心本身的密度大,即它被密度均不超过它的邻居点包围。2.与其它密度更大的数据点之间的距离相对更大。

对于任意的图像对象i,需要计算对象的局部密度ρi和到具有更高局部密度的其他对象的最小距离δi两个变量。

由于人脸图像数据集中样本数量较少,使得难以获得一个可靠的估计密度来区分聚类中心与其余点。因此使用结构相似性计算方法(SSIM)来计算图像间相似性,然后利用高斯核函数计算图像的密度值。由于相似度越高代表对象越相似,而距离越小代表对象越相似,因此对结构相似性进行转换,使其符合聚类中心的规律:

dist(x,xi)=1-S(x,xi) (2)

其中S(x,xi)对象x与xi之间的结果相似性,dist(x,xi)对象x与xi之间的距离,该距离越小,则代表对象相似程度越高。其中x和xi代表不同的图像对象。

对于任意图像对象i,其局部密度ρi的计算方式如下:

其中dc是截断距离。

对于任意图像对象i,其到具有更高局部密度的其他图像对象的最小距离定义δi如下:

其中dij表示对象i和对象j之间的距离。

其中对于具有最高局部密度的图像对象,定义它的δi=maxj(dij)。

2.2)通过线性回归模型和残差分析确定奇异点,该奇异点即为聚类所得聚类中心。由于聚类中心分布具有较大的密度和较大的距离,而离群点分布具有较大的距离和较小的密度。

根据聚类中心本身密度大,被密度比它小的邻居点包围,并且与其它密度更大的对象之间有相对较大的距离的特性,采用非线性函数y=b0+b1/x转换为线性函数去拟合,令则y=b0+b1*X',利用线性函数模型拟合所有数据局部密度ρi和距离δi的函数关系δi’=f(ρi)。使用残差分析确定密度和距离分布图中的奇异点信息,其中奇异点为远离拟合曲线的点,即是聚类的簇中心,奇异点个数是聚类的簇个数。

2.3)确定聚类中心后,将其他点按到比其密度更高的最近点的类标一致原则划分到各自的聚簇中。当前对象的类别标签与高于当前对象局部密度的最近邻对象的标签一致,从而对所有对象的类别进行标定。如图3所示,编号表示密度高低,数字越高表示密度越大。其中“4”号为聚类中心,类标为1,“3”号点的类别标签应该与距离其最近的密度高于它的对象一致,因此“3”号点类标为1,由于“1”号点最近的密度比其高的对象为“3”号点,因此其类别标签与“3”号对象相同,类标也为1。

2.4)通过设定过滤器,严格剔除聚簇边缘的离群对象,能够有效的保持簇内纯度,以保证后续的样本训练精度。过滤器的定义如下:

确定聚类中心并将其余点划分到相应聚簇后,算法首先对于固定的聚簇,要确定其边界区域,该区域内的数据点具有以下特征:数据点本身属于该聚簇,但在其距离不超过R的范围内,R=n*dc(其中n为正常数,可调整),存在属于其他聚簇的对象,则通过该边界区域内的对象,可以为该聚簇确定一个平均局部密度,通过该局部密度,将大于该局部密度的所有对象划分到该聚簇中,而将其他对象剔除,以保证聚簇的纯度。

3)利用步骤2)中的聚类结果进行训练和人脸识别,过程如下:

3.1)从聚类结果中提取聚类中心及少量簇内对象作为训练样本,采用PCA方法进行特征提取。PCA方法的基础为K-L变换理论,依照样本点在空间中的位置分布,把样本在多维空间中的最大变化方向,即方差最大方向,作为判别向量来实现图数据的压缩和特征提取。从数据的统计性质可以看出,若一个变量的方差越大,则表示该变量蕴含的信息量也越大,而当变量的方差为零时,该变量为一个常量,所蕴含的信息量为零。

3.2)最后利用多分类支持向量机,最近邻分类器等作为分类器对人脸进行识别,并得到最后识别结果。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1