本发明涉及人机交互中识别对象仅有一个或少量标准样本的单样本人脸识别技术领域,具体涉及一种基于混合扩展块字典稀疏表示的单样本人脸识别方法。
背景技术:
近年来,由于人工智能、计算机视觉、物联网通信等技术的飞速发展,人脸识别技术在实际生活中得到广泛应用,例如,智能家电、智能零售、智能监控等。然而在某些应用场景中,由于存储空间的限制以及个人隐私保护,一些人脸识别系统仅包含每个人的一张或少量正脸标准图像(即不受光照、表情、遮挡等外界因素干扰的无拍摄角度偏移的正脸图像),例如,门禁系统、身份证闸机系统、护照验证系统等。传统的人脸识别算法在这些系统中识别效果不佳。究其原因,真实环境采集的人脸图像可能受光照、表情、配饰遮挡、姿态,甚至采集数据的时间跨度等因素的影响,这导致目标对象的待测图像可能与系统中的标准图像存在很大差异,而传统人脸识别算法无法从少量标准样本中提取出有效的类内变化信息,因此也无法对可能存在各种外界干扰因素的待测样本进行准确预测。这就产生了单样本人脸识别问题,这也是目前人脸识别研究中一个具有挑战性且极富实用价值的研究课题。
目前,基于单样本人脸识别的研究方法主要分为两类:基于数据扩增的方法(samplegenerationbasedmethods)和基于通用学习方法(genericlearningbasedmethods)。基于数据扩增的方法主要是利用真实样本合成虚拟样本或将人脸图像分割成重叠或不重叠的图像块进行识别,其目的均是为了增加训练样本的数量,用以解决传统算法在单样本人脸识别中的局限性。代表方法有spca、svd-lda、modularpca、modularlda、dmma、sdmme等。这类方法虽然在单样本人脸识别中起到一定作用,但仍存在两个致命缺陷:(1)合成产生的虚拟样本与标准样本是高度相关的,因此不能作为独立样本使用,提取出的类内变化信息不具有表征性。(2)将人脸图像分块识别时通常假设待测样本的块图像与训练样本在同一位置上的块图像具有相似的人脸结构特征,然而实际应用中,由于人脸姿态的变化或者配饰遮挡的影响,相同位置的待测样本与训练样本的块图像可能存在很大差异,导致上述假设不成立,单样本人脸识别效果不佳。
相比基于数据扩增的方法,基于通用学习的方法更具有普适性和推广价值。它的主要思想是构建包含各种干扰因素(光照、表情、遮挡、姿态等)的非目标对象的通用数据集,对目标对象中存在的干扰信息进行准确建模,再结合标准样本描述的人脸类别结构特征对目标对象的待测样本进行准确预测,有效解决了单样本人脸识别中目标对象的变化样本不足的局限性。2009年wright提出的稀疏表示分类(sparserepresentationbasedclassification,src)算法最具代表性。它首次引入稀疏表示(sparserepresentation,sr)理论,用单位矩阵构建扩展字典,用来弥补待测样本与标准样本之间可能存在的像素差异,再结合样本字典对待测样本进行线性稀疏重构,计算待测样本与每类近似重构样本的残差,根据最小残差划分类别。这种分类思想受到了国内外学者们的广泛关注,提出了许多改进算法。例如,2012年,deng等提出了一种扩展稀疏表示分类(extendedsparserepresentation-basedclassifier,esrc)算法,它用标准样本(正脸无干扰人脸图像)与变化样本(存在遮挡、表情、光照等干扰的人脸图像)的差值构建扩展字典,相比src算法中采用的单位矩阵,esrc的扩展字典描述了更丰富的类内变化信息,有助于进一步提高待测样本的预测准确性。2013年,yang等提出了稀疏变化字典学习(sparsevariationdictionarylearning,svdl)方法,2015年,wei等提出了鲁棒辅助字典学习(robustauxiliarydictionarylearning,radl)方法,它们均是从非目标对象的变化样本中学习更具表征性的类内变化字典,在不引入人脸遮挡部分先验信息的前提下,有效提高了单样本人脸识别的准确性。2016年,chen等又采用迭代加权鲁棒主成分分析方法自适应提取待测样本中可能存在的各种干扰信息,再联合无遮挡的训练样本,构建待测样本的自适应噪声字典(adaptivenoisedictionary,and),实现待测样本的准确预测。
分析上述方法我们发现,这些方法均是基于稀疏表示模型的改进,其主要目的是从非目标对象的通用数据集中获取准确的扩展字典,对目标对象中存在的类内干扰信息进行准确建模,从而进一步提高具有各种面部变化情况的待测样本的线性稀疏表示的准确性。上述基于通用学习的方法虽然在单样本人脸识别中取得了令人瞩目的效果,但仍存在以下问题:
(1)上述方法均假设用于构建扩展字典的非目标对象的通用数据集需要包含足够丰富的面部变化情况,才能保证对目标对象中可能存在的各种未知变化进行准确预测。然而,在实际应用中,要收集到足够多的满足各种变化的通用样本是一项艰巨的任务。
(2)上述字典中的原子均是由原始图像表示,这导致基于图像构建的字典存在大量的像素冗余信息,同类原子之间缺乏一致性,异类原子之间也缺乏判别性;同时,字典原子是由二维图像转换为一维列向量表示,这也导致字典原子的维度远远大于原子个数,容易出现“小样本”问题,不能保证在解空间获得最优稀疏解。
(3)上述方法假设了非目标对象的通用数据集中存在与目标对象同类型的遮挡信息。很明显,这一假设在实际应用中是不成立的。虽然,svdl、radl等方法将遮挡信息当作稀疏重构误差处理,可以克服上述问题,但这类算法的计算复杂度较高,在实际应用中也缺乏可操作性。
技术实现要素:
本发明的目的是克服现有技术中稀疏表示的遮挡人脸识别算法存在的问题。本发明首先对人脸图像分块,然后采用kda算法分别构建目标对象的基本块字典,非目标对象的遮挡块字典和类内差异块字典,最后采用加权块稀疏表示分类器对待测样本进行准确预测,有效提高了单样本人脸识别的准确性。
为了达到上述目的,本发明所采用的技术方案是:
一种基于混合扩展块字典稀疏表示的单样本人脸识别方法:包括以下步骤,
步骤(s1):构建非目标对象的通用数据集x,将非目标对象的通用数据集x划分为b个非目标对象的通用块样本集
步骤(s2):构建目标对象标准样本集n,并同理步骤(s1)将其划分为b个目标对象标准块样本集
其中,
步骤(s3):构建测试样本集y=[y1,y2,...,ys]∈rmn×s;
其中r为实数集合,mn表示样本的列向量维数,s表示样本个数,y∈rmn×s表示测试样本集y中包含s个样本,每个样本用维数为mn的列向量表示,列向量的所有元素从实数集r中取值;
步骤(s4):采用kda算法分别提取非目标对象通用数据集x的遮挡信息和类内变化信息,构建非目标对象的遮挡块字典
步骤(s5):根据混合完备扩展块字典
优选的,所述步骤(s1)中,非目标对象的通用数据集x指受表情、光照、遮挡各种干扰因素影响的图像的集合,而非目标对象的通用块样本集
优选的,所述步骤(s2)中:目标对象标准块样本集
优选的,所述步骤(s4):包括以下步骤:
(s41):选择只受遮挡干扰因素影响的图像构建非目标对象的遮挡数据集xo和与遮挡图像同类别的正脸无干扰图像标准数据集xn,并同理步骤(s1)将两者分别划分为b个遮挡块样本集
(s42):基于式(2)采用步骤(s1)得到的kda投影矩阵
(s43):选择受光照、表情、姿态非遮挡干扰因素影响的图像构建非目标对象的类内变化数据集xv,并同理步骤(s1)将其划分为b个类内变化块样本集
(s44):根据式(3)采用步骤(s1)得到的kda投影矩阵
(s45):将步骤(s44)中的每一类的低维投影矩阵减去其均值,得到非目标对象的类内差异块字典
其中
(s46):将非目标对象的遮挡块字典
优选的,所述步骤(s5)中:根据混合完备扩展块字典
(s51):从测试样本集y中任取一待测样本y,将其分割成b个块图像
(s52):基于以下src的目标函数式(5)依次优化求解步骤(s51))所有块图像
其中,
(s53):并根据以下式(6)计算待测样本与每一类重构样本的残差,依据最小残差划分类别:
其中
本发明的有益效果是:
(1)对原始图像分块,构建块图像集,其主要目的是充分考虑非约束人脸图像数据的复杂性,以及人脸空间拓扑信息在人脸识别中的重要性。相比原始图像,块图像更集中关注人脸结构特征或遮挡信息,更有利于人脸的准确识别。同时,将图像分块也有助于弥补单样本人脸识别中样本数不足的缺陷。
(2)本发明摒弃了在原始图像空间中构建字典的传统策略,而是在低维判别特征空间改进字典的构建方法,旨在消除像素间冗余信息,获得更具判别性和表征性的字典。
(3)由于真实环境采集的人脸图像在样本空间中呈非线性复杂流形分布,传统的线性降维方法,如线性判别分析(lineardiscriminantanalysis,lda)不能有效处理这种非线性不可分的情况,因此,本发明采用核判别分析(kerneldiscriminantanalysis,kda)算法计算各个块图像空间的最佳低维投影方向,得到更具判别性的低维子空间。
(4)本发明在kda低维投影子空间中构建各个目标对象块图像集的基本字典,既去除了原始块图像的像素冗余信息,提高了字典原子的判别性,又降低了字典原子维度,提高了模型的运算效率,保证在解空间中获得最优稀疏解。
(5)本发明对人脸识别中的遮挡干扰因素和非遮挡干扰因素(如光照、表情、姿态等其他干扰因素)分别处理,在kda低维投影子空间中分别构建各个非目标对象块图像集的遮挡字典,以及描述光照、表情、姿态等变化的类内差异字典,旨在消除像素间冗余信息和人脸结构特征,使遮挡字典和类内差异字典更具表征性。同时也克服了传统方法中需要假设非目标对象与目标对象具有相同遮挡信息的不足。
综上,本发明在kda低维投影子空间中分别对各个目标对象的块图像集的基本字典,非目标对象的块图像集的遮挡字典和类内差异字典的构建方法进行改进,旨在使基本字典更具判别性,仅包含人脸结构特征,而不含有像素冗余信息和干扰信息,同时,使遮挡字典和类内差异字典更具表征性,仅包含遮挡信息以及光照、表情等类内干扰信息,而无人脸结构特征。鉴于此,本发明用目标对象的基本字典描述人脸结构特征,用非目标对象的遮挡字典和类内差异字典描述人脸识别中可能存在的各种干扰信息,两者相结合,可以解决单样本人脸识别中目标对象面部变化情况不足的缺陷,有效提高单样本人脸识别的准确性。
附图说明
图1是本发明的块图像集构建示意图;
图2是本发明基于混合扩展块字典稀疏表示的单样本人脸识别方法的流程实现框图;
图3是本发明cas-peal库中的部分人脸图像仿真效果图;
图4是本发明的cas-peal库中的某一人脸图像的不同分块方式示意图;
图5是本发明图4中分块3方式下0.5重叠率时分块结果图;
图6是本发明lfw数据库部分样本仿真效果图;
图7是本发明pubfig数据库部分样本仿真效果图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
本发明在cas-peal、ar、lfw和pubfig四种人脸数据库上进行实验,实验环境为win1064位操作系统,8gb内存,matlabr2017a仿真平台。
如图2所示以任一个块图像集为例描述的本发明的实现过程,本发明基于混合扩展块字典稀疏表示的单样本人脸识别方法:包括以下步骤,
步骤(s1):构建非目标对象的通用数据集x,将非目标对象的通用数据集x划分为b个非目标对象的通用块样本集
步骤(s2):构建目标对象标准样本集n,并同理步骤(s1)将其划分为b个目标对象标准块样本集
其中,
步骤(s3):构建测试样本集y=[y1,y2,...,ys]∈rmn×s;
其中r为实数集合,mn表示样本的列向量维数,s表示样本个数,y∈rmn×s表示测试样本集y中包含s个样本,每个样本用维数为mn的列向量表示,列向量的所有元素从实数集r中取值;
步骤(s4):采用kda算法分别提取非目标对象通用数据集x的遮挡信息和类内变化信息,构建非目标对象的遮挡块字典
步骤(s5):根据混合完备扩展块字典
进一步的,步骤(s1)中,非目标对象的通用数据集x指受表情、光照、遮挡各种干扰因素影响的图像的集合,而非目标对象的通用块样本集
进一步的,步骤(s2)中:目标对象标准块样本集
进一步的,步骤(s4):包括以下步骤:
(s41):选择只受遮挡干扰因素影响的图像构建非目标对象的遮挡数据集xo和与遮挡图像同类别的正脸无干扰图像标准数据集xn,并同理步骤(s1)将两者分别划分为b个遮挡块样本集
(s42):基于式(2)采用步骤(s1)得到的kda投影矩阵
(s43):选择受光照、表情、姿态非遮挡干扰因素影响的图像构建非目标对象的类内变化数据集xv,并同理步骤(s1)将其划分为b个类内变化块样本集
(s44):根据式(3)采用步骤(s1)得到的kda投影矩阵
(s45):将步骤(s44)中的每一类的低维投影矩阵减去其均值,得到非目标对象的类内差异块字典
其中
(s46):将非目标对象的遮挡块字典
进一步的,步骤(s5)中:根据混合完备扩展块字典
(s51):从测试样本集y中任取一待测样本y,将其分割成b个块图像
(s52):基于以下src的目标函数式(5)依次优化求解步骤(s51))所有块图像
其中,
(s53):并根据以下式(6)计算待测样本与每一类重构样本的残差,依据最小残差划分类别:
其中
实施例1:在cas-peal数据库进行实验:
首先如图1所示构建块,图1中取b=4:
cas-peal人脸数据库包含1040类人,共99594张人脸图像(其中包括595位男性和445位女性)。所有图像在专门的采集环境中采集,涵盖了姿态、表情、饰物和光照4种主要变化条件,部分人脸图像具有背景、距离和时间跨度的变化。本发明选择了其中9031张图像进行实验,部分样本图像如图3所示,图像尺寸为120×100像素。
在cas-peal数据库上目标对象的标准数据集,非目标对象的通用数据集、遮挡数据集以及类内变化数据集的设计如下:
(1)非目标对象的通用数据集包含光照变化的180类人和表情变化的80类人,每类人有4张图像,共1040张变化样本。同时,数据集中还包含每类人1张正脸无干扰图像,共260张标准样本,它们共同组成了非目标对象的通用数据集。
(2)非目标对象的遮挡数据集包含配饰遮挡的20类人,每类人有4张图像,共80张样本。
(3)非目标对象的类内变化数据集包含光照变化20类人和表情变化20类人,每类人有4张图像,共160张样本。
(4)目标对象的标准样本集由cas-peal数据库中767类人(与上述非目标对象不同类的人),每类人取1张正脸无干扰图像构成,共767张样本。
(5)目标对象的测试样本集是由767类人的包含了配饰遮挡、光照、表情、距离、时间以及背景变化的所有图像组成,共4074张样本。
表1和表2比较了其他技术与本发明在cas-peal数据库上的单样本人脸识别效果。其中,表2详细分析了不同分块方式下的识别效果。分块方式如图4所示。从表中可以看出,本发明无论是否采用分块方式,单样本人脸识别效果均优于其他技术。当采用分开3方式时,本发明识别效果最佳,达到96.15%的识别准确率,比经典esrc方法提高了5.57%。
表1cas-peal数据库中的识别率(%)
表2peal-cas数据库中不同分块方式下的识别结果(%)
表3分析了不同的分块重叠率对单样本人脸识别的影响。这里基于表2中最佳分块方式(分块3),给出了重叠率为0、0.5和0.7三种情况下的识别结果。从表3中可以看出,当重叠率为0.5时,单样本人脸识别率最高,达到98.13%,比不分块时又高出了1.98%。究其原因,从图5中可以看出,当重叠率为0.5时,图像分块个数由4块扩增到9块,且块与块之间有部分人脸结构重叠。当对每一块图像进行稀疏编码时,可以起到特征信息相互补充的作用,有效提高了单样本人脸识别的准确性。
表3peal-cas数据库中分块3方式下不同分块重叠率的识别结果(%)
实施例2:在ar数据库进行实验:
同实施例1首先如图1所示构建块,图1中取b=4:
ar人脸数据库中包含126类人(56位女性,70位男性),共4000多张正面对齐人脸。每类人分两个阶段拍摄,每个阶段13张图像,其中光照变化图像4张,表情变化3张,眼镜遮挡图像3张,围脖遮挡3张。本发明选取了100类人进行实验,并对图像进行裁剪及归一化处理,裁剪后的尺寸大小为120×100像素。
在ar数据库上目标对象的标准数据集,非目标对象的通用数据集、遮挡数据集以及类内变化数据集的设计如下:
(1)目标对象的标准样本集由ar数据库中任意30类人,每类人的第一张正脸无干扰图像组成,共30张样本。
(2)目标对象的测试样本集由30类人的剩余所有图像组成,包含了表情、光照、遮挡、时间等干扰因素的影响,共750张样本。
(3)非目标对象的通用数据集由ar数据库中剩余70类人(与上述目标对象不同类的人),每类人在第一阶段中的1张正脸无干扰图像、3张表情变化图像、3张光照变化图像组成,共490张样本。
(4)非目标对象的遮挡数据集由70类人在第二阶段中6张遮挡图像组成,共420张样本。
(5)非目标对象的类内变化数据集由70类人在第二阶段中3张光照变化图像、3张表情变化图像组成,共420张样本。
表4比较了本发明与其他技术在ar数据库上的单样本人脸识别效果。从表中可以看出,采用cas-peal数据库上的最佳分块方式(分块3方式,重叠率为0.5),本发明的识别率达到96.93%,远远高于其他方法。这说明了,分别构建遮挡字典和类内差异字典有助于对具有各种面部变化情况的目标对象的待测样本进行准确建模,弥补了单样本人脸识别中仅有一张标准人脸图像的不足。同时,我们也发现,本发明采用不分块方式时,识别率仅88.93%,比分块时降低了8%,如表5所示。这也进一步说明了,在单样本人脸识别中对图像进行分块处理可以扩充样本数量,弥补了目标对象变化样本不足的局限性,有助于提高单样本人脸识别的准确率。
表4ar数据库中单样本人脸识别效果(%)
表5本发明不分块方式与分块方式的识别效果比较(%)
实施例3:在lfw数据库进行实验:
同实施例1首先如图1所示构建块,图1中取b=4;lfw(labeledfacesinthewilddatabase)数据库是从internet上采集的真实人脸数据库,共有13233张5749类人脸图像,包含了光照、表情、姿态、遮挡、年龄、种族等多种混合干扰,对于准确人脸识别更具有挑战性。本发明从中选取包含10张以上图像的人进行辨识,得到158类人。为了便于实验,这里选取每类人10张图像,供1580张样本进行实验。部分样本如图6所示,图像尺寸为120×100像素。
由于lfw数据库中的样本是从真实环境中采集的,具有各种混合干扰,所以在lfw数据库上无法构建典型的遮挡数据集和类内变化数据集。在本实验中仅构建目标对象的标准数据集,非目标对象的通用数据集和混合干扰数据集,具体如下:
(1)目标对象的标准样本集由lfw数据库中任意58类人,每类人的一张正脸无干扰图像组成,共58张样本。
(2)目标对象的测试样本集由58类人的剩余所有图像组成,受光照、表情、姿态、遮挡、年龄、种族等各种混合干扰因素的影响,共522张样本。
(3)非目标对象的通用数据集由lfw数据库中剩余100类人(与上述目标对象不同类的人),每类人5张图像组成,共500张样本。
(4)非目标对象的混合干扰数据集由100类人的剩余5图像组成,共500张样本。
表6给出了本发明与其他技术在lfw数据库上的识别结果。从表中可以看出,本发明的识别结果远远高于其他方法,识别率比排名第二的ked方法提高了27.81%。由此可见,本发明提出的混合扩展块字典更有助于解决真实环境下的单样本人脸识别问题。
表6lfw数据库中的识别率(%)
实施例4:在pubfig数据库进行实验:
同实施例1首先如图1所示构建块,图1中取b=4:
pubfig(publicfiguresfacedatabase)数据库与lfw数据库类似,包括从互联网上采集到的200类知名人物的58797张图像。数据库中的人脸都是真实环境下拍摄的,包含部分遮挡(眼镜、帽子等饰物)、极端光照、较大的姿势变换(>45°)、不同种族、年龄等干扰因素。本发明从pubfig数据库中随机选取100类人,每类人20张图像进行实验仿真。部分样本如图7所示,图像尺寸为120×100像素。
同于lfw数据库,pubfig数据库中的样本也是从真实环境中采集的,具有各种混合干扰,所以在pubfig数据库上也无法构建典型的遮挡数据集和类内变化数据集。在本实验中仅构建目标对象的标准数据集,非目标对象的通用数据集和混合干扰数据集,具体如下:
(1)目标对象的标准样本集由pubfig数据库中任意30类人,每类人的一张正脸无干扰图像组成,共30张样本。
(2)目标对象的测试样本集由30类人的剩余所有图像组成,受光照、表情、姿态、遮挡、年龄、种族等各种混合干扰因素的影响,共570张样本。
(3)非目标对象的通用数据集由pubfig数据库中剩余70类人(与上述目标对象不同类的人),每类人10张图像组成,共700张样本。
(4)非目标对象的混合干扰数据集由70类人的剩余10图像组成,共700张样本。
表7给出了本发明与其他技术在pubfig数据库上的识别结果。从表中可以看出,本发明的识别结果远远高于其他方法,识别率比排名第二的esrc方法提高了3.75%。由此可见,本发明提出的混合扩展块字典更有助于解决真实环境下的单样本人脸识别问题。
表7pubfig数据库中单样本情况的识别率(%)
总结:
本发明分别在cas-peal、ar、lfw和pubfig四个人脸数据库上进行实验仿真,其中,cas-peal和ar数据库是在实验室环境中采集的,lfw和pubfig是在真实环境中采集的。实验数据库和真实数据库上的实验结果均验证了,本发明与现有技术相比,其创新点在解决单样本人脸识别问题上是有效的、可行的,具体归纳如下:
1、本发明摒弃了在原始图像空间中构建字典的传统策略,而是基于kda低维判别特征空间改进字典构建方法。一方面对原始数据进行kda降维,可以有效消除像素间的冗余信息,使低维特征数据更具判别性;另一方面采用本发明改进的字典构建方法,也使本发明的样本字典更具判别性,遮挡字典和类内差异字典更具表征性,两者相结合,可以解决单样本人脸识别中目标对象面部变化情况不足的缺陷,有效提高单样本人脸识别的准确性。
2、本发明的遮挡字典更具有表征性,因此克服了传统方法中需要非目标对象与目标对象具有相同遮挡信息的不足。
3、本发明在lfw和pubfig两个具有挑战性的真实人脸数据库上进行实验,从实验结果可以看出,本发明提出的混合扩展块字典更有助于解决真实环境下的单样本人脸识别问题,具有实用价值。
4、本发明不受目标对象变化样本的数量、特征提取等方面的限制,实现步骤简单,因此本发明相比现有技术更加易用可行。同时,本发明是对降维后数据再处理,系统计算效率高,利于实用推广。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。