基于深度学习的眼睛睁闭状态检测方法与流程

文档序号:15589055发布日期:2018-10-02 18:44阅读:4217来源:国知局
本发明涉及图像处理
技术领域
,具体为一种基于深度学习的眼睛睁闭状态检测方法。
背景技术
:眼睛是人脸最重要的组成部分,能够传递许多的信息。通过检测眼睛的睁闭状态,可以计算眨眼频率并以此判断人是否处于疲劳状态,相比传统的利用心电或者脑电的穿戴式设备更加经济简便,对使用者无侵入性。此外,眼睛的睁闭状态还与人的表情紧密相关,对人眼的状态检测能够辅助表情识别等相关工作。目前专门针对眼睁闭眼状态检测的方法主要分为基于特征分析和基于模式分类的检测方法。基于特征分析的方法主要有模板匹配、脸部投影、瞳孔检测等;基于模式分类的检测算法主要是提取眼睛区域的特征,比如lbp特征、gabor小波等特征,并借助svm、adaboost等分类器判断眼睛区域图像是睁眼图像还是闭眼图像。然而,在实际应用中,这些方法都很容易受到光照变化、面部表情变化、脸部转动等姿态变化的干扰,出现眼睛定位不准确、睁闭眼状态错误判断等问题。技术实现要素:针对现有技术的不足,本发明提供了一种基于深度学习的眼睛睁闭状态检测方法,它能对眼睛的睁闭状态进行判断,而且准确率较高,对光照变化,场景变化和脸部转动、倾斜等姿态变化有较强的鲁棒性,运行速率快,能够满足实际应用的实时性要求,且硬件要求低,以克服现有技术的不足。为实现以上目的,本发明通过以下技术方案予以实现:基于深度学习的眼睛睁闭状态检测方法,包括如下步骤:1)对输入图像进行人脸检测,如果检测到人脸,就记录下当前人脸区域,得到人脸区域图像,如果当前输入图像没有检测到人脸,则结束对当前输入图像的处理,继续对下一帧输入图像进行人脸检测;2)将人脸区域图像统一尺寸后输入到用于人眼关键点检测的卷积神经网络模型,获得左眼和右眼的中心点的横纵坐标值;3)根据眼睛中心点坐标值和12*6的宽高值确定眼睛所在的矩形区域,分别得到左眼和右眼的区域图像;4)分别将左眼和右眼图像统一尺寸后输入到用于眼睛睁闭状态分类的卷积神经网络模型,得到双眼的睁闭状态结果。在步骤2)中所述的利用卷积神经网络模型进行人眼关键点检测的具体步骤如下:2-1)将人脸图像统一为39*39大小的灰度图像;2-2)将步骤2-1)得到的灰度人脸图像输入到用于人眼关键点检测的卷积神经网络模型,卷积神经网络模型输出四个坐标点值,分别对应左眼中心点的横坐标值、左眼中心点的纵坐标值、右眼中心点的横坐标值及右眼中心点的纵坐标值。所述的用于人眼关键点检测的卷积神经网络模型是一个由三个卷积层,三个最大池化层和两个全连接层组成的卷积神经网络,具体描述如下:网络输入层是大小为39*39*1的人脸灰度图像;第一层卷积核大小为3*3,卷积核步长为1,卷积核个数为128个;第一层最大池化层的核大小为3*3,移动步长为2,边缘填充数为1;第二层卷积核大小为3*3,卷积核步长为1,卷积核个数为128个;第二层最大池化层的核大小为3*3,移动步长为2,边缘填充数为1;第三层卷积核大小为2*2,卷积核步长为1,卷积核个数为256个;第一层最大池化层的核大小为2*2,移动步长为2;第一个全连接层的结点数量为48;第二个全连接层的节点数量为4;每个卷积层后都经过relu激活函数处理,增加网络的非线性映射能力,第三层卷积层后接了一个dropout层防止过拟合,其比例为0.5;输出结果对应着双眼中心点的四个坐标点值,依次为左眼中心点的横坐标值、左眼中心点的纵坐标值、右眼中心点的横坐标值及右眼中心点的纵坐标值,坐标系原点为人脸图像左上角,x轴水平向右,y轴水平向下。在39*39的人脸图像中,以步骤2)得到的坐标值为中心点,宽为12个像素点,高为6个像素点确定的矩形区域图像,作为眼睛区域图像。在所述的步骤4)中,判断双眼睁闭状态的具体步骤如下:4-1)将眼睛区域图像统一为31*51大小的灰度图像;5-2)分别将左眼和右眼的眼睛区域图像输入到用于睁闭状态分类的卷积神经网络模型,得到左右眼的状态:睁眼或者闭眼。所述的用于眼睛睁闭状态分类的卷积神经网络模型是一个由两个卷积层,两个最大池化层,两个全连接层和一个softmox层组成的卷积神经网络,具体描述如下:网络输入层是大小为31*51*1的眼睛灰度图像;第一层卷积核大小为5*5,卷积核步长为1,卷积核个数为32;第一层最大池化层的核大小为3*3,移动步长为2,边缘填充数为1;第二层卷积核大小为5*5,卷积核步长为1,卷积核个数为64个;第二层最大池化层的核大小为2*2,移动步长为2;第一个全连接层的结点数量为128个;第二个全连接层的结点数量为2个;每个卷积层后都经relu激活函数处理,以增加网络的非线性映射能力;第二层卷积层后还接了一个dropout层防止过拟合,其比例为0.5;经过softmax层后输出分类结果:睁眼或闭眼。有益效果与现有技术相比,本发明具有如下优点:(1)直接对单幅图像进行处理,只要能在图像上检测到人脸,就能检测到人眼中心点的位置,并以此得到眼睛区域图像;(2)眼睛睁闭状态分类的准确率较高;(3)对光照变化,场景变化和脸部转动、倾斜等姿态变化有较强的鲁棒性;(4)运行速率快,能够满足实际应用的实时性要求;(5)硬件要求简单,易于大规模推广。附图说明图1是本发明的算法流程图;图2是本发明用于人眼关键点检测的卷积神经网络模型结构图;图3是本发明用于眼睛睁闭状态分类的卷积神经网络模型结构图;图4是本发明的人眼关键点检测及眼睛睁闭状态分类结果。具体实施方式本发明的实施例:基于深度学习的眼睛睁闭状态检测方法:第一步:人脸检测。对输入的原始图像,本发明利用piotr'scomputervisionmatlabtoolbox工具箱直接进行人脸检测。如果检测到人脸,就记录下当前人脸区域,得到人脸区域图像,如果当前输入图像没有检测到人脸,则结束对当前输入图像的处理,继续对下一帧输入图像进行人脸检测。第二步:人眼中心点定位。本发明训练了一个卷积神经网络模型对人脸图像进行人眼关键点检测与定位。人眼关键点检测的卷积神经网络模型结构图如图2所示,是一个由三个卷积层,三个最大池化层和两个全连接层组成的卷积神经网络。网络输入层是大小为39*39*1的人脸灰度图像;第一层卷积核大小为3*3,卷积核步长为1,卷积核个数为128个;第一层最大池化层的核大小为3*3,移动步长为2,边缘填充数为1;第二层卷积核大小为3*3,卷积核步长为1,卷积核个数为128个;第二层最大池化层的核大小为3*3,移动步长为2,边缘填充数为1;第三层卷积核大小为2*2,卷积核步长为1,卷积核个数为256个;第一层最大池化层的核大小为2*2,移动步长为2;第一个全连接层的结点数量为48;第二个全连接层的节点数量为4;每个卷积层后都经过relu激活函数处理,增加网络的非线性映射能力,第三层卷积层后接了一个dropout层防止过拟合,其比例为0.5;输出结果对应着双眼中心点的四个坐标点值,依次为左眼中心点的横坐标值、左眼中心点的纵坐标值、右眼中心点的横坐标值、右眼中心点的纵坐标值,坐标系原点为人脸图像左上角,x轴水平向右,y轴水平向下。将人脸图像统一为39*39大小的灰度图像后,输入到训练后的用于人眼关键点检测的卷积神经网络模型,即可得到双眼中心点的坐标。第三步:确定人眼区域。在39*39的人脸图像中得到双眼中心点的坐标后,分别以中心点检测结果点为中心点,宽为12个像素点,高为6个像素点确定的矩形区域图像,作为左眼眼睛区域图像和右眼眼睛区域图像。第四步:眼睛睁闭状态检测。本发明训练了一个卷积神经网络模型用于眼睛睁闭状态检测。眼睛睁闭状态检测的卷积神经网络模型结构图如如3所示,是一个由两个卷积层,两个最大池化层,两个全连接层和一个softmox层组成的卷积神经网络。其中,网络输入层是大小为31*51*1的眼睛灰度图像;第一层卷积核大小为5*5,卷积核步长为1,卷积核个数为32;第一层最大池化层的核大小为3*3,移动步长为2,边缘填充数为1;第二层卷积核大小为5*5,卷积核步长为1,卷积核个数为64个;第二层最大池化层的核大小为2*2,移动步长为2;第一个全连接层的结点数量为128个;第二个全连接层的结点数量为2个;每个卷积层后都经relu激活函数处理,以增加网络的非线性映射能力;第二层卷积层后还接了一个dropout层防止过拟合,其比例为0.5;经过softmax层后,网络输出分类结果:睁眼或闭眼。分别将左眼和右眼的眼睛区域图像统一为31*51大小的灰度图像后,输入到用于睁闭状态分类的卷积神经网络模型,即可得到左右眼的状态:睁眼或者闭眼。图4给出了本发明的眼睛睁闭状态检测结果。第一行是不戴眼镜时的睁眼检测结果,第二行是不戴眼镜时的闭眼检测结果,第三行是戴眼镜时的睁眼检测结果,第四行是戴眼镜时的闭眼检测结果。其中,其中,绿色“+”表示双眼中心点检测结果,矩形框表示眼睛区域,其上方或下方为睁闭眼文本标签。为了进一步验证本发明的技术效果,发明人将本发明的是实施例与现有技术进行对于,结果见基于深度学习的眼睛睁闭状态检测方法对比数据。表1不同分类器的结果对比算法闭眼分类准确率睁眼分类准确率总体分类准确率算法耗时/帧lbp+svm94.53%96.92%95.96%0.082shog+svm93.80%97.29%95.88%0.024slbp+adaboost83.06%90.20%87.21%0.299shog+adaboost78.19%88.35%84.24%0.282salexnet96.65%97.09%96.91%0.00885svgg-1696.95%94.07%95.24%12.63s实施例96.45%97.46%97.07%0.00263s表2与其他算法的结果对比根据表1、表2的结果得知,本发明的方法,从闭眼分类准确率、睁眼分类准确率上都能达到非常好的检测效果,而且算法耗时极少,相应速度能得到有效保证。尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1