一种基于线性规划模型的生物特征图像分析与识别方法

文档序号:6376898阅读:154来源:国知局
专利名称:一种基于线性规划模型的生物特征图像分析与识别方法
技术领域
本发明涉及计算机视觉、数字图像处理、模式识别和统计机器学习等技术领域,特别是一种基于线性规划模型的生物特征图像分析与识别方法。
背景技术
随着网络信息社会的高速发展,自动高效的鉴定一个人的身份已成为关键的社会安全问题。生物特征识别技术应运而生,并得到了各个国家和地区政府的高度关注。例如印度已经启动的WD (唯一身份认证)计划,要为每一位公民建立唯一的生物特征标识,包括人脸、虹膜、指纹等数字图像信息;我国在二代居民身份证或电子护照中加入个人生物特征(如虹膜、指纹和脸相等)的议案已经开始执行。在生物特征识别技术中,虹膜识别具有高可靠性和非接触采集等优点,而人脸识别具有易采集,自然非侵犯性等优点,指纹识别则设备轻便,经济适用。总之,生物特征识别技术以其独特的优势,广泛应用于银行、煤矿、海 关进出口安检等身份鉴定的系统。特别的,虹膜是介于人眼瞳孔和巩膜之间的环状部分区域。虹膜图像具有丰富的纹理信息,保证几乎每个人都具有独特的特征。人脸图像也保证了每个人具有独特的纹理和结构信息。当前基于局部区域特征的提取与匹配算法的生物特征识别方法达到了世界领先技术水平。定序测量特征(OM)、Gabor小波特征、局部二值模式(LBP)等,均能够很好的描述生物特征图像的纹理和结构信息。并且最终可采用二进制编码方式,在匹配阶段利用汉明距离准则,一定程度上加快了图像的比对速度。基于局部区域特征的算法主要存在的缺陷有(I)局部特征维数很高,存在大量冗余,是过完备集合,易造成维数灾难,即随着特征维数的增加模型性能反而下降;(2)生物特征图像的质量容易受光照、噪声和遮挡等噪声干扰,出现特征不稳定的区域;(3)高维度的特征的匹配降低了大规模人群生物特征图像数据库检索的速度,也是影响生物特征识别技术大范围应用的重要瓶颈因素。因此如何去除不稳定区域,选择少量具有足够区分力的特征,加快大数据库的比对速度是一个急需解决的问题。当前主流的特征分析与选择方法有两大类,基于Adaboost及其各种变体算法(如RealBoost、GentleBoost、SoBoost等)和基于I1范数正则化方法。尤其在实际应用中训练样本不足情况下,基于I1范数正则化方法的要优于基于Adaboost的算法。而本发明针对生物特征识别技术,设计出独特有效的数学优化模型,包括目标函数和约束条件,能更好解决实际应用中的上述问题。

发明内容
有鉴于以上所述现有技术存在的问题,本发明提出一种基于线性规划模型的生物特征图像分析与识别方法,即通过统计机器学习方法,从大量冗余的过完备特征集合中快速的选取少量具有足够区分力的鲁棒的特征,用以进一步鉴别身份,提高系统的鲁棒性和识别效率。为实现上述目的,本发明提出的一种基于线性规划模型的生物特征图像识别方法,其特征在于,该方法包括以下步骤步骤SI,对生物特征训练样本图像进行归一化处理;步骤S2,对于归一化后的生物特征训练样本图像,提取其局部子区域特征,得到基于局部子区域特征的生物特征图像表达;步骤S3,判断所述生物特征图像表达中所包含的局部子区域特征个数是否过大,如是则转向步骤S5,如否则进入步骤S4 ;步骤S4,基于线性规划模型从局部子区域特征中选择最优特征;步骤S5,基于并行随机采样处理和线性规划模型从局部子区域特征中选择最优特征;步骤S6,将所述步骤S4或者S5得到的最优特征按其权重的取值大小进行降序排·列,选择排名靠前的一定数量的特征,通过支持向量机SVM方法训练学习得到分类器模型;步骤S7,输入待测试生物特征图像;步骤S8,按照所述步骤SI对该待测试生物特征图像进行归一化处理;步骤S9,对于归一化后的待测试生物特征图像,提取其所述步骤S4或S5得到的最优局部子区域特征;步骤S10,将提取出的最优局部子区域特征输入到所述步骤S6得到的分类器模型中,从而得到对于该生物特征图像的识别结果。本发明对比传统两类特征选择方法-基于Adaboost的算法和基于I1范数正则化方法,引入生物特征识别中的可区分性参数信息,以及该模型具有的优势,使本发明特别适用于实际中的生物特征识别系统。


图I为本发明基于线性规划模型的生物特征图像识别方法流程图;图2为生物特征图像归一化过程示意图,其中,(a)为人脸图像归一化过程示意图;(b)为虹膜图像归一化过程示意图;(c)为掌纹图像归一化过程示意图;图3为归一化虹膜图像局部子区域特征提取示意图,其中,(a)为归一化虹膜图像;(b)为定序测量特征;(C)为虹膜特征编码图像;图4为根据不同参数空间形成的定序测量特征模板;图5为Hinge函数表示图;图6为EER和AUC示意图;图7为DI示意图;图8为松弛变量对训练学习的影响示意图;图9为基于并行随机采样处理和线性规划模型的最优特征选择流程图;图10为通过单纯形算法得到的一个稀疏解示意图;图11为根据本发明一实施例选择的前四个最优局部子区域特征示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。以下以用区域定序测量特征进行虹膜识别为例,来对本发明进行阐述。
虹膜图像具有丰富的随机分布的纹理特征以及环向相似和径向延展的特性。定序测量特征编码恰好能够很好的描述这种纹理分布。图I为本发明基于线性规划模型的生物特征图像识别方法流程图,如图I所示,本发明提出的一种基于线性规划模型的生物特征图像识别方法具体包括以下步骤本发明方法包括学习过程和测试过程,所述学习过程包括步骤S1-S6,所述测试过程包括步骤S7-S10。步骤SI,对生物特征训练样本图像进行归一化处理;
所述对生物特征训练样本图像进行归一化处理包括以基准点为参考,通过旋转、平移或缩放将图像归一化到相同尺度大小。例如对于人脸图像,以双眼位置为参考点,按双眼之间的距离将人脸图像归一化到相同尺度,如图2(a)所示;对于虹膜图像,以虹膜内外圆的边界为参考,将环形的虹膜图像归一化到相同尺度的矩形区域图像,如图2(b)所示;对于掌纹图像,以相邻手指间的角点为参考点,将图像进行旋转、平移等处理归一化到相同尺度的掌纹图像,如图2(c)所示。根据本发明的一实施例,在CASIA-IrisV4_Thousand公开数据库中选取来自于25个不同人的500张虹膜图像(每人20张图像)作为训练数据集合,每张图像按照步骤SI,根据人工标定或者虹膜分割算法得到的训练样本图像的虹膜内外圆边界进行极坐标变换,将环形图像区域归一化至70x540的统一尺度大小,如图2(b)所示。步骤S2,对于归一化后的生物特征训练样本图像,提取其局部子区域特征,得到基于局部子区域特征的生物特征图像表达;所述步骤S2进一步包括以下子步骤步骤S21,将归一化后的生物特征训练样本图像划分为多个不同大小的局部子区域(如图3(a)所示);所述局部子区域的大小甚至可以是整个图像的大小。比如所述子区域的大小MxP可以为8x32、16x20,甚至是70x540。多个局部子区域之间是可重叠的,所有局部子区域的并集覆盖整个图像区域,以保证候选局部子区域的完备性。为方便起见,本发明的一实施例中对所述生物特征训练样本图像在行列方向上分别每隔4个和8个像素点重叠性划分区域,每个矩形区域的大小均为8x32,这样一共约产生900个候选局部子区域。步骤S22,对划分得到的每个局部子区域分别使用滤波器进行滤波,根据所述滤波器的参数组合提取得到每个局部子区域的特征,所有局部子区域特征的集合即为对原始生物特征训练样本图像的过完备的特征表达;所述步骤S22使用滤波器进行滤波后进一步包括基于滤波结果得到统计直方图的步骤。所述滤波器可以为Gabor小波滤波器、局部二值模式(LBP)滤波器、定序测量滤波器(OM)或多种滤波器的组合。其中,Gabor小波滤波器包含尺度、方向和滤波器中心频率的参数组合;定序测量滤波器包含尺度、方向、位置、方差、极子间距和极子数目的参数组合;统计直方图还包含区间个数的参数。所有庞大的参数空间组合将远远超过图像本身的像素个数,即产生过完备的特征表达。以定序测量特征为例,如图3(b)所示,定序测量滤波的基本思想是比较正负极子所覆盖的两个区域A、B中像素灰度值总和的大小关系,比如左图中,A区域所覆盖的像素灰度值总和< B区域所覆盖的像素灰度值总和,则A、B区域的中心像素点编码为O ;右图中,A区域所覆盖的像素灰度值总和> B区域所覆盖的像素灰度值总和,则A、B区域的中心像素点编码为I。假设被多极子定序测量滤波器的正负极子覆盖的图像区域的平均灰度分别为G+(X, y)和 G-(X, y)

其中,I (x, y)表示归一化虹膜图像,N+,N_分别表示多极子定序测量滤波器中正负极子的数目,/,+和//分别表示第i和第j个正极子或负极子,*表示图像卷积。分别按照上式计算G+(X,y)和G_(x,y),之后,比较二者大小,如果在某个像素点上,其G+(X,y)大于G_(x,y),那么该像素点编码为1,否则编码为O。这样每个矩形区域就被编码为一个二进制串,从而得到如图3(c)所示的虹膜图像的特征图像。其中,多极子定序测量滤波器有很多可调参数(如图4所示),如正负极子的位置、个数、尺度、间距、方差和多极子之间的位置朝向关系,如果在S个局部子区域中,有Q个多极子滤波参数,则得到共D = SXQ个定序特征编码,进一步,若SXQ = 900X1000 =900000,那么就会产生很高的特征维数,因此需要采用特征选择技术,以达到降低特征维数的目的。步骤S3,判断所述生物特征图像表达中所包含的局部子区域特征个数是否过大,如是则转向步骤S5,如否则进入步骤S4 ;该步骤中,特征个数的判断阈值可根据实际应用的需要来灵活选择,比如,该阈值可选为100000。步骤S4,基于线性规划模型从局部子区域特征中选择最优特征;所述步骤S4为生物特征图像特征的分析与选择过程,其进一步包括以下子步骤步骤S41,建立具有最大间隔性质的损失函数模型;本发明一实施例中,所述具有最大间隔性质的损失函数模型选为Hinge函数(如图5所示):Loss = max (0,1-yf (x)),其中,y代表类标记,f(x)代表分类器函数。上式等价于下面的线性不等式约束表达式H -Xi. <a j = I ...Nιι· · Xj > β j = \ …N-,其中,<和&分别表示第j个正、负样本,N+和N_分别表示正负样本的个数,α和β分别为正负样本特征均值,w为特征权重向量。虹膜识别本身是一个多分类的问题(与数据库中存在不同人的个数有关),但在特征分析时,本发明将同一个人虹膜图像特征匹配形成类内比对分数,即正样本;不同人的虹膜图像特征匹配形成类间比对分数,即负样本,这样多类问题就演变为两类问题,一共产生N = N++N_f样本。由于上述定序测量特征是二进制串的形式,因此本发明采用汉明距离来计算类内和类间的比对分数,汉明距离越小说明越有可能是同类匹配,反之说明越有可能是异类匹配。上述不等式约束包含的物理含义是类内比对的汉明距离尽可能小,类间比对的汉明距离尽可能大,这样使两类之间的间隔最大。这种最大间隔性质能使该模型最大程度地将训练样本分开,而且其损失函数能够从机器学习的理论上保证该模型的良好泛化性倉泛。步骤S42,建立对所述损失函数模型中的特征权重的非负约束;本发明采用特征权重向量w = (WnW2,. . . ,wD)来衡量相应D维特征中的每一维特征对分类识别的重要性,即Wi越大,其所对应的特征Xi就越重要。因此有必要对权重向量采用非负约束,即第i维特征的权重Wi彡O i = I... D,其中,D为特征的总维数。另外,非负权重的约束合理性在于在生物特征识别过程中,同类目标图像间的比对分数要一致·的大于或者小于异类目标图像的比对分数。如果出现负的特征权重,则相应的特征违背了上述一致性,那么这个特征一定是不稳定的特征,甚至是噪声。因此非负的约束能够直接有效的去除此类特征,保证模型的优越性能。步骤S43,计算经过所述步骤S42约束的每个局部子区域特征的可区分性参数信息f ;所述的可区分性参数信息可以在训练数据集合中方便高效的计算得出,其包括等错误率(EER)、接收者操作曲线(ROC)曲线下的面积(AUC)、可区分性指数(DI)或上述参数的组合,其中,ROC曲线是错误拒绝率(FRR)对错误接受率(FAR)的曲线,EER是ROC曲线上错误接受率等于错误拒绝率的点(如图6所示),EER越小则表明该特征分类能力越强;AUC是ROC曲线所围成的面积(如图6所示),所以AUC越小则表明该特征分类能力也越强;而DI定义为(如图7所示)DI = \mx + m21/水S12 +δ;)/2,其中mi,m2分别代表两类样本的汉明距离特征均值,<分别代表两类样本的汉明距离特征方差。图7中实线代表类内样本比对的汉明距离分布,虚线代表类间样本比对的汉明距离分布。DI越大表示两种样本分布间隔得越明显。上述参数信息可以从不同角度充分体现该特征的分类能力,即可区分性大小。依据上述公式,可以为每个局部子区域特征计算参数的可区分性信息EER、AUC和DI。通过引入可区分性参数对所述步骤S42的特征权重再加权,就能够使分类能力强的特征权重变大,分类能力弱的特征权重变小,从而有效的自适应去除或者抑制噪声特征。步骤S44,对于N = N++N_个样本中每个样本的损失函数模型,加入相应非负的松弛变量ξ = (ξ1; ξ2,…ξΝ)的限制;通过加入松弛变量(未知量),能够使得所述步骤S41的损失函数模型变为软间隔模型w'x+j + ^j j = Hir · x, >β-ξ: J=I.. .N—。
如图8所示,圆和方块分别代表两类样本,ξ i > O的样本即是难分类的噪声样本,如果不加入所述松弛变量,即对该样本加入过强的约束,这样就容易使模型失去泛化能力。引入松弛变量后,本发明可以自适应地放松对噪声样本的所述步骤S41的约束,因此有效控制模型的过学习,增强了该方法的泛化性能。步骤S45,基于所述步骤S43得到的可区分性参数信息f和所述步骤S44得到的损失函数模型,建立标准线性规划模型,并采用单纯形算法求解出非负的特征权重向量,从而得到对于分类识别起到关键作用的特征;所述标准线性规划模型可表示为
权利要求
1.一种基于线性规划模型的生物特征图像识别方法,其特征在于,该方法包括以下步骤 步骤SI,对生物特征训练样本图像进行归一化处理; 步骤S2,对于归一化后的生物特征训练样本图像,提取其局部子区域特征,得到基于局部子区域特征的生物特征图像表达; 步骤S3,判断所述生物特征图像表达中所包含的局部子区域特征个数是否过大,如是则转向步骤S5,如否则进入步骤S4 ; 步骤S4,基于线性规划模型从局部子区域特征中选择最优特征; 步骤S5,基于并行随机采样处理和线性规划模型从局部子区域特征中选择最优特征;步骤S6,将所述步骤S4或者S5得到的最优特征按其权重的取值大小进行降序排列,选择排名靠前的一定数量的特征,通过支持向量机SVM方法训练学习得到分类器模型; 步骤S7,输入待测试生物特征图像; 步骤S8,按照所述步骤SI对该待测试生物特征图像进行归一化处理; 步骤S9,对于归一化后的待测试生物特征图像,提取其所述步骤S4或S5得到的最优局部子区域特征; 步骤S10,将提取出的最优局部子区域特征输入到所述步骤S6得到的分类器模型中,从而得到对于该生物特征图像的识别结果。
2.根据权利要求I所述的方法,其特征在于,所述对生物特征训练样本图像进行归一化处理包括以基准点为参考,通过旋转、平移或缩放将图像归一化到相同尺度大小。
3.根据权利要求I所述的方法,其特征在于,所述步骤S2进一步包括以下子步骤 步骤S21,将归一化后的生物特征训练样本图像划分为多个不同大小的局部子区域; 步骤S22,对划分得到的每个局部子区域分别使用滤波器进行滤波,根据所述滤波器的参数组合提取得到每个局部子区域的特征,所有局部子区域特征的集合即为对原始生物特征训练样本图像的过完备的特征表达。
4.根据权利要求3所述的方法,其特征在于,所述局部子区域的大小甚至可以是整个图像的大小。
5.根据权利要求3所述的方法,其特征在于,多个局部子区域之间是可重叠的,所有局部子区域的并集覆盖整个图像区域,以保证候选局部子区域的完备性。
6.根据权利要求I所述的方法,其特征在于,所述步骤S4进一步包括以下子步骤 步骤S41,建立具有最大间隔性质的损失函数模型; 步骤S42,建立对所述损失函数模型中的特征权重的非负约束,即第i维特征的权重Wi ^ O i = I. . . D,其中,D为特征的总维数; 步骤S43,计算经过所述步骤S42约束的每个局部子区域特征的可区分性参数信息f ;步骤S44,对于每个样本的损失函数模型,加入相应非负的松弛变量ξ = (I1,I2,... In)的限制,其中,N为样本数目; 步骤S45,基于所述步骤S43得到的可区分性参数信息f和所述步骤S44得到的损失函数模型,建立标准线性规划模型,并采用单纯形算法求解出非负的特征权重向量,从而得到对于分类识别起到关键作用的特征。
7.根据权利要求6所述的方法,其特征在于,所述具有最大间隔性质的损失函数模型为Hinge函数Loss = max(0,1-yf(x)), 其中,y代表类标记,f 00代表分类器函数; 上式等价于下面的线性不等式约束表达式 γ·χ. <a j = I.../V M'-x. > β j = i...yv 其中,芍和4分别表示第j个正、负样本,N+和仄分别表示正负样本的个数,α和β分别为正负样本特征均值,w为特征权重向量。
8.根据权利要求I所述的方法,其特征在于,所述可区分性参数信息f包括等错误率EER, ROC曲线下的面积AUC、可区分性指数DI或上述参数的组合。
9.根据权利要求7所述的方法,其特征在于,所述步骤S44中,通过加入松弛变量使得所述步骤S41的损失函数模型变为软间隔模型
10.根据权利要求6所述的方法,其特征在于,所述标准线性规划模型可表示为
11.根据权利要求6所述的方法,其特征在于,所述步骤S45进一步包括通过在特征集中采用交叉验证方法来确定最优的参数组合f■和λ的取值的步骤。
12.根据权利要求I所述的方法,其特征在于,所述步骤S5进一步包括以下具体步骤 步骤S51,对于步骤S2得到的所有局域子区域特征,随机采样η次,使得每次采样时所抽取的特征占特征总数的百分比为Ρ,0 < P < 1,并保证每个抽取的特征以较高概率至少被抽取V次; 步骤S52,根据所述步骤S4,从所述η次随机采样每次得到的特征中选择最优特征,并得到该次采样的特征权重向量; 步骤S53,对所述步骤S52得到的η次采样中相同特征的多个特征权重取平均值,将非零平均权重值对应的特征作为最优特征。
13.根据权利要求12所述的方法,其特征在于,为了在统计上保证每个特征被同等次数抽取,设定P和k'后,根据下式计算需要随机采样的次数η
全文摘要
本发明公开了一种基于线性规划模型的生物特征图像识别方法,该方法包括以下步骤生物特征训练样本图像归一化;得到基于局部子区域特征的生物特征图像表达;若特征个数过大,基于并行随机采样处理和线性规划模型选择最优特征,若否基于线性规划模型选择最优特征;将最优特征按权重大小降序排列,选择排名靠前的特征通过SVM得到分类器模型;待测试生物特征图像归一化;提取其最优局部子区域特征并输入分类器模型中,得到该生物特征图像的识别结果。本发明得到的生物特征图像特征鲁棒性好,识别精度高,因此本发明方法效率高,能够提高大规模生物特征数据比对的速度和精度,可用于生物特征识别的身份认证系统和其他需要安全性防范的诸应用系统中。
文档编号G06K9/62GK102902980SQ20121033939
公开日2013年1月30日 申请日期2012年9月13日 优先权日2012年9月13日
发明者谭铁牛, 孙哲南, 王立彬 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1