一种基于改进FRST结合卷积神经网络的瞳孔定位方法和系统与流程

文档序号:32769635发布日期:2022-12-31 11:47阅读:63来源:国知局
一种基于改进FRST结合卷积神经网络的瞳孔定位方法和系统与流程
一种基于改进frst结合卷积神经网络的瞳孔定位方法和系统
技术领域
1.本发明涉及图像处理和计算机视觉领域,具体涉及一种基于改进快速径向对称变换结合卷积神经网络的瞳孔定位方法。


背景技术:

2.瞳孔定位广泛应用于生物识别、视线追踪、情感识别、眼病检测等领域,具有重要的研究意义。现有的瞳孔定位方法可以分为两类,分别是基于图像处理的方法和基于统计学习的方法。总的来说,基于图像处理的方法对图像特征的针对性强,定位精度较高,但鲁棒性和泛化性较差,需要人工调整参数;基于统计学习的方法定位速度快,自动化程度高,鲁棒性和泛化性较好,但对样本数量存在要求,且定位精度较低。
3.快速径向对称变换(frst)是一种基于像素梯度的兴趣点检测算法,从算法本身及算法作用于瞳孔定位的角度出发,frst主要有以下3点局限:
4.(1)自动化程度与定位精准度无法兼得;
5.(2)归一化因子设置不当;
6.(3)亮对称检测对瞳孔定位造成负面影响。


技术实现要素:

7.为了克服上述问题,本发明对快速径向对称变换(frst)算法进行了改进,提出了一种用于瞳孔定位的frstfpl方法,并结合人眼图像的特征,进一步提出了一种基于改进frst结合卷积神经网络的瞳孔定位方法和系统,实现了瞳孔定位方法在具有高效自动化、强鲁棒性与泛化性的同时拥有较高的定位精度。
8.为此,本发明采用以下技术方案:
9.第一方面,本发明公开了一种基于改进frst结合卷积神经网络的瞳孔定位方法,包括如下步骤:
10.s1:利用快速径向对称变换改进方法对人眼输入图像中的像素进行处理,得到在固定半径范围内的瞳孔粗定位图像;
11.s2:利用浅层卷积神经网络对步骤s1得到瞳孔粗定位图像进行精确定位,得到最终的瞳孔定位结果。
12.进一步地,步骤s1所述的快速径向对称变换改进方法包括如下步骤:
13.s1-1:对于人眼输入图像中的像素p,将沿其梯度g(p)方向半径距离为n的像素变换为正投影像素p
+ve
(p),变换过程为:
[0014][0015]
其中,表示g(p)表示像素点p的梯度幅值,round(*)表示将所求值四舍五入为整数,‖*‖表示求范数;
[0016]
s1-2:根据步骤s1-1得到的正投影像素p
+ve
(p),生成梯度方向投影矩阵on和梯度
幅值投影矩阵mn;
[0017]
s1-3:根据步骤s1-2得到的梯度方向投影矩阵on和梯度幅值投影矩阵mn,生成图像在单个输入半径n下的径向对称中心矩阵sn,计算过程如下:
[0018][0019]
sn=fn*an[0020]
其中,fn(p)为输入半径n下的像素点p的径向对称特征,fn为输入半径n下全部像素点的径向对称特征,α为径向程度参数,an为二维高斯核函数,max(*)为求最大值函数,mn(p)为梯度幅值投影矩阵中对应像素点p位置的值;
[0021]
s1-4:根据步骤s1-3得到的径向对称中心矩阵sn,对所有输入半径距离n下的径向对称中心矩阵sn累加并求均值,得到均值径向对称中心矩阵计算过程如下:
[0022][0023]
其中,|n|为半径范围n中半径距离n的个数。
[0024]
s1-5:根据步骤s1-4得到的均值径向对称中心矩阵进行归一化处理,得到在固定半径范围内瞳孔的粗定位图像s。
[0025]
进一步地,步骤s1-5中对均值径向对称中心矩阵进行归一化处理过程如下:
[0026][0027]
其中,为均值径向对称中心矩阵中对应像素点p位置的值,所有像素点对应的值构成最后的变换结果s,即粗定位图像;s(p)为归一化后的均值径向对称中心矩阵中对应像素点p位置的值,min(*)为求最小值函数,max(*)为求最大值函数。
[0028]
进一步地,步骤s1-2中,所述梯度方向投影矩阵on的生成方法为:初始化梯度方向投影矩阵on为0矩阵,对于人眼输入图像的每个像素点的正投影像素,分别在on中将该正投影像素位置对应的数值+1,直至遍历人眼输入图像中的所有像素点;
[0029]
所述梯度幅值投影矩阵mn的生成方法为:初始化梯度幅值投影矩阵mn为0矩阵,对于人眼输入图像的每个像素点的正投影像素,分别在mn中将该正投影像素位置对应的数值+‖g(p)‖,直至遍历人眼输入图像中的所有像素点。
[0030]
进一步地,步骤s2所述浅层卷积神经网络包含一个卷积核大小为5
×
5和卷积核个数为64的第一卷积层、一个卷积核大小为4
×
4和卷积核个数为128的第二卷积层、一个卷积核大小为4
×
4和卷积核个数为256的第三卷积层以及一个全连接神经网络层;所述第一卷积层、第二卷积层、第三卷积层和全连接神经网络层串联。
[0031]
进一步地,所述浅层卷积神经网络在训练过程中,人眼输入图像需要预先标注瞳孔真实位置,首先利用快速径向对称变换改进方法对人眼输入图像进行瞳孔粗定位,再利用瞳孔粗定位图像训练浅层卷积神经网络,以范数l1作为损失函数。
[0032]
第二方面,本发明公开了一种用于实现上述基于改进frst结合卷积神经网络的瞳孔定位方法的瞳孔定位系统,包括:
[0033]
瞳孔粗定位模块,其用于利用快速径向对称变换改进方法对人眼输入图像中的像素进行处理,得到在固定半径范围内的瞳孔粗定位图像;
[0034]
瞳孔精定位模块,其用于利用浅层卷积神经网络,对瞳孔粗定位模块得到的瞳孔粗定位图像进行精确定位,得到最终的瞳孔定位结果。
[0035]
与现有技术相比,本发明的优势在于:本发明首先基于瞳孔定位的快速径向对称变换改进方法(frstfpl)对图像中的瞳孔进行大致定位,接着再接入浅层卷积神经网络(cnn)实现精准定位。结果表明,本发明提出的方法在尺寸为640
×
480像素的图像中的定位误差为8.51个像素,相比仅采用frstfpl和仅采用浅层cnn的方法,精度分为提升了11.31%和37.46%。本发明提出的方法不需要精准的半径信息和复杂的网络结构,就能在高效自动化、低计算复杂度的同时拥有较高的定位精度。
附图说明
[0036]
图1为本发明提出的一种基于改进快速径向对称变换结合卷积神经网络的瞳孔定位方法总体框架示意图;
[0037]
图2为frstfpl处理前后图像对照示意图。
具体实施方式
[0038]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
[0039]
如图1所示,本发明提出的一种基于改进快速径向对称变换结合卷积神经网络的瞳孔定位方法,主要包含以下步骤:
[0040]
s1:利用快速径向对称变换改进方法(下述简称frstfpl)对人眼输入图像中的像素进行处理,得到在固定半径范围内瞳孔的粗定位图像;
[0041]
本步骤中,针对现有的快速径向对称变换方法(下述简称frst)中归一化因子设置不当的问题,本发明选择撤销归一化因子,改为通过将梯度幅值投影矩阵mn、梯度方向投影矩阵on中所有像素分别除以矩阵mn、on中值最大的像素来代替归一化因子,实现对mn、on的标准化。针对frst中亮对称检测对瞳孔定位造成负面影响的问题,本发明选择撤销负投影像素。此外,本发明还在变换结果后增设了一次归一化。
[0042]
在本发明的一项具体实施例中,frstfpl方法实现步骤如下:
[0043]
s1-1:获取人眼输入图像,对于输入图像中的每一个像素p,将沿其梯度g(p)方向的半径距离为n的像素变换为正投影像素p
+ve
(p),变换过程为:
[0044][0045]
其中,表示g(p)表示像素点p的梯度幅值,round(*)表示将所求值四舍五入为整数,‖*‖表示求范数。
[0046]
s1-2:根据步骤s1-1得到的正投影像素p
+ve
(p),生成梯度方向投影矩阵on和梯度
幅值投影矩阵mn(梯度方向投影矩阵和梯度幅值投影矩阵初始均为0矩阵)。其中,梯度方向投影矩阵on中,每个像素点位置的数值反映了周围像素点沿着该梯度方向映射到该像素点的个数,on的生成公式如下:
[0047]on
(p
+ve
(p))=on(p
+ve
(p))+1
[0048]
其中,on(p
+ve
(p))表示梯度方向投影矩阵中对应正投影像素p
+ve
(p)位置的值;即,对于原图像的每个像素的正投影像素,分别在on中将该正投影像素位置的数值+1,直至遍历原图像中的所有像素点。
[0049]
梯度幅值投影矩阵mn中,每个像素值反映了周围像素值对该点的贡献,mn的生成公式如下:
[0050]mn
(p
+ve
(p))=mn(p
+ve
(p))+‖g(p)‖
[0051]
其中,mn(p
+ve
(p))表示梯度幅值投影矩阵中对应正投影像素p
+ve
(p)位置的值;即,对于原图像的每个像素的正投影像素,分别在mn中将该正投影像素位置+‖g(p)‖,直至遍历原图像中的所有像素点。
[0052]
上述梯度方向投影矩阵on和梯度幅值投影矩阵mn随着检测半径n∈n的变化而重复上述相同的步骤。
[0053]
s1-3:根据步骤s1-2得到的梯度方向投影矩阵on和梯度幅值投影矩阵mn,生成图像在单个输入半径n下的径向对称中心矩阵sn,计算过程如下:
[0054][0055]
sn=fn*an[0056]
其中,fn(p)为输入半径n下的像素点p的径向对称特征,fn为输入半径n下全部像素点的径向对称特征,α为径向程度参数,an为二维高斯核函数,max(*)为求最大值函数,mn(p)为梯度幅值投影矩阵中对应像素点p位置的值。
[0057]
s1-4:根据步骤s1-3得到的径向对称中心矩阵sn,对所有输入半径距离n下的径向对称中心矩阵sn累加并求均值,得到均值径向对称中心矩阵计算过程如下:
[0058][0059]
其中,|n|为固定半径范围n中半径距离n的个数。在固定半径范围内,随着检测半径n∈n的变化,采用步骤s1-1至步骤s1-3的方法,共得到|n|个径向对称中心矩阵。
[0060]
s1-5:根据步骤s1-4得到的均值径向对称中心矩阵进行归一化处理,得到最后的变换结果,即在固定半径范围内瞳孔的粗定位图像s。归一化处理过程如下:
[0061][0062]
其中,为均值径向对称中心矩阵中对应像素点p位置的值,所有像素点对应的值构成最后的变换结果s,即粗定位图像;s(p)为归一化后的均值径向对称中心矩阵中对应像素点p位置的值,min(*)为求最小值函数,max(*)为求最大值函数。
[0063]
自动化程度是算法的一项重要的衡量指标,它往往决定了算法能否真正应用在实
际中。本发明节提出的frstfpl方法虽然解决了归一化因子设置不当和冗余的亮对称检测的问题,但仍然具有自动化程度与定位精准度无法兼得的局限性,即,要降低算法的人工依赖度,只能由根据每张图设置精确半径改为输入固定范围的半径,这使得frstfpl只能用于较为粗略的定位,无法在实际应用中实现高效自动化的瞳孔精确定位。
[0064]
本发明中,进一步将frstfpl与卷积神经网络(下述简称cnn)相结合,cnn是一类包含卷积计算并含有深层次结构的深度前馈神经网络,其自动提取目标特征的能力解决了手动提取特征效率低下的情况,为实现高效自动化的瞳孔精确定位奠定了基础。但在定位问题上,cnn为达到精确定位,要么需要较为复杂的结构,随之带来庞大的参数量和计算量,要么需要在预处理环节对图像进行充分的处理。本发明为了实现在高效自动化的同时实现瞳孔的精确定位,考虑将frstfpl作为图像预处理环节与浅层cnn相结合,具体来说,本发明首先利用frstfpl对人眼图像在固定半径范围下进行粗定位,之后利用浅层cnn将上一步得到的粗定位结果进行精确定位;本实施例中采用的浅层cnn结构简单,参数量及计算量较小。
[0065]
s2:利用浅层卷积神经网络(cnn)对步骤s1得到粗定位图像s进行进行精确定位,得到最终瞳孔定位结果。
[0066]
在本发明的一项具体实施中,浅层cnn分别包含一个卷积核大小为5
×
5和卷积核个数为64的卷积层、一个卷积核大小为4
×
4和卷积核个数为128的卷积层、一个卷积核大小为4
×
4和卷积核个数为256的卷积层以及一个全连接神经网络层。
[0067]
在训练过程中,人眼输入图像需要预先标注瞳孔真实位置,首先经frstfpl对人眼输入图像进行粗定位,再利用粗定位图像训练cnn。本实施例中,采用范数l1作为损失函数,使得训练损失最小化,训练损失计算过程如下:
[0068][0069]
其中,b为训练批次数量,yi为第i个人眼输入图像样本中标注的瞳孔真实位置,为第i个人眼输入图像样本的瞳孔预测位置。
[0070]
训练完成后,针对待进行通孔定位的人眼图像,首先经frstfpl对人眼输入图像进行粗定位,再将粗定位图像输入训练好的cnn中,得到的瞳孔预测位置即为定位结果。
[0071]
为了验证本发明提出的基于改进快速径向对称变换结合卷积神经网络的瞳孔定位方法的定位效果,如表1设立了一个对照组和两个实验组。其中,实验组1为本发明提出的方法,即将人眼图像先利用frstfpl进行处理,再输入浅层cnn;对照组为仅采用cnn进行定位的方法;实验组2为“叠加法”,即,将图像利用frstfpl进行处理后,把原图和处理后的图像叠加为两通道的图像,再输入cnn。
[0072]
表1实验设计
[0073]
[0074]
数据集构建:中科院的casia-irisv4虹膜图像数据库是虹膜识别、瞳孔定位领域常用的数据库,其中的所有虹膜图像均在近红外照明下采集或合成。其子集casia-iris-thousand是第一个具有1000个主题的公开可用的虹膜数据集,包含了来自1000名受试者的20000张虹膜图像,大小均为640
×
480像素,本发明从中抽取了1280张图像,对瞳孔中心位置进行了标注,并按4:1的比例划分为1024个训练集样本和256个测试集样本,构建数据集。
[0075]
frstfpl处理:根据所标注的虹膜图像的半径信息,本发明将frstfpl处理的半径范围固定为[17-59],对数据集图像进行frstfpl处理。其中一张虹膜图像的原图及处理结果分别如下图2中的(a)和(b)所示。
[0076]
对比图2中的原图和frstfpl处理后的变换图可以看到,提取出的瞳孔中心特征肉眼可见地比真实瞳孔中心位置处在更上方,这是因为虽然frstfpl已将检测亮对称的部分去除,但瞳孔中反射光斑轮廓的像素梯度的存在还是会对瞳孔中心的定位造成影响。这也再一次说明了frstfpl后接其他方法的必要性,而cnn能够充分捕捉图像特征(如环绕在聚集点周围呈现圆形的淡淡的虹膜特征),从而对frstfpl粗定位的瞳孔中心位置进行修正。
[0077]
为了更有利地说明后接cnn的必要性,便于与cnn处理后的效果进行对比,特在此计算frstfpl的平均定位误差——本发明将一张变换图转为二值图后所有黑色像素位置与标注的瞳孔中心位置的欧式距离平均值定义为frstfpl的定位误差,将所有测试集样本定位误差的平均值定义为frstfpl的平均定位误差。经计算,本发明在半径范围固定为[17-59]下的frstfpl的平均定位误差为9.59个像素。
[0078]
cnn采用adam算法对网络参数进行更新,设置学习率为0.0025,batchsize为32,迭代次数为1000,并在随机种子为0和1的条件下各进行一次实验。
[0079]
实验结果:将3组实验结果与frstfpl的平均定位误差一同展示在表2中。3组实验的平均定位误差表示所有测试集样本中标注的瞳孔中心位置与预测的瞳孔中心位置之间的欧式距离的平均值。
[0080]
表2实验结果
[0081][0082]
通过对比以上定位方法的结果,可以归纳出以下几点:
[0083]
(1)本发明提出的方法的平均定位误差小于仅采用浅层cnn的平均定位误差,证明frstfpl起到了过滤冗余信息、有效提取特征的粗定位作用;
[0084]
(2)本发明提出的方法的平均定位误差小于仅采用frstfpl的平均定位误差,证明了后接浅层cnn对定位精度的提升作用;
[0085]
(3)叠加法在三个实验组中效果最差,可能是由于输入的冗余信息过多对网络预测造成了干扰。
[0086]
在本实施例中还提供了一种基于改进frst结合卷积神经网络的瞳孔定位系统,该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
[0087]
本实施例提供的一种基于改进frst结合卷积神经网络的瞳孔定位系统,包括:
[0088]
瞳孔粗定位模块,其用于利用快速径向对称变换改进方法对人眼输入图像中的像素进行处理,得到在固定半径范围内的瞳孔粗定位图像;
[0089]
瞳孔精定位模块,其用于利用浅层卷积神经网络,对瞳孔粗定位模块得到的瞳孔粗定位图像进行精确定位,得到最终的瞳孔定位结果。
[0090]
在本发明的一项具体实施中,所述的瞳孔粗定位模块包括:
[0091]
人眼输入图像处理模块,其对于人眼输入图像中的像素p,将沿其梯度g(p)方向半径距离为n的像素变换为正投影像素p
+ve
(p),变换过程为:
[0092][0093]
其中,表示g(p)表示像素点p的梯度幅值,round(*)表示将所求值四舍五入为整数,‖*‖表示求范数;
[0094]
投影矩阵生成模块,其用于根据人眼输入图像处理模块得到的正投影像素p
+ve
(p),生成梯度方向投影矩阵on和梯度幅值投影矩阵mn;所述梯度方向投影矩阵on的生成方法为:初始化梯度方向投影矩阵on为0矩阵,对于人眼输入图像的每个像素点的正投影像素,分别在on中将该正投影像素位置对应的数值+1,直至遍历人眼输入图像中的所有像素点;所述梯度幅值投影矩阵mn的生成方法为:初始化梯度幅值投影矩阵mn为0矩阵,对于人眼输入图像的每个像素点的正投影像素,分别在mn中将该正投影像素位置对应的数值+‖g(p)‖,直至遍历人眼输入图像中的所有像素点。
[0095]
径向对称中心矩阵生成模块,其用于根据投影矩阵生成模块得到的梯度方向投影矩阵on和梯度幅值投影矩阵mn,生成图像在单个输入半径n下的径向对称中心矩阵sn,计算过程如下:
[0096][0097]
sn=fn*an[0098]
其中,fn(p)为输入半径n下的像素点p的径向对称特征,fn为输入半径n下全部像素点的径向对称特征,α为径向程度参数,an为二维高斯核函数,max(*)为求最大值函数,mn(p)为梯度幅值投影矩阵中对应像素点p位置的值;
[0099]
以及,根据得到的径向对称中心矩阵sn,对所有输入半径距离n下的径向对称中心矩阵sn累加并求均值,得到均值径向对称中心矩阵计算过程如下:
[0100][0101]
其中,|n|为半径范围n中半径距离n的个数。
[0102]
归一化处理模块,其用于对径向对称中心矩阵生成模块得到的均值径向对称中心
矩阵进行归一化处理,得到在固定半径范围内瞳孔的粗定位图像s。
[0103]
在本发明的一项具体实施中,所述的瞳孔精定位模块中的浅层卷积神经网络包含一个卷积核大小为5
×
5和卷积核个数为64的第一卷积层、一个卷积核大小为4
×
4和卷积核个数为128的第二卷积层、一个卷积核大小为4
×
4和卷积核个数为256的第三卷积层以及一个全连接神经网络层;所述第一卷积层、第二卷积层、第三卷积层和全连接神经网络层串联。
[0104]
所述浅层卷积神经网络在训练过程中,人眼输入图像需要预先标注瞳孔真实位置,首先利用快速径向对称变换改进方法对人眼输入图像进行瞳孔粗定位,再利用瞳孔粗定位图像训练浅层卷积神经网络,以范数l1作为损失函数。
[0105]
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。本发明的系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。
[0106]
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
[0107]
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1