驾驶员分神检测方法、装置、计算机设备和存储介质与流程

文档序号:21104095发布日期:2020-06-16 21:06阅读:500来源:国知局
驾驶员分神检测方法、装置、计算机设备和存储介质与流程

本发明涉及图像处理技术领域,特别是涉及一种驾驶员分神检测方法、装置、计算机设备和存储介质。



背景技术:

交通事故一直是人类面临的对生命财产安全威胁最严重的问题之一,其中大部分交通事故的发生都是由于驾驶员人为因素造成的。在车辆行驶过程中,驾驶员分神是非常危险的。由于驾驶员分神而导致不能正常观察行驶前方路面情况,在遇到危险情况时,驾驶员通常来不及做出正确的反应,因而导致交通事故发生。特别在车辆高速行驶过程中,驾驶员分神将导致更加严重的后果。

随着图像识别处理技术的发展,通过识别处理驾驶员驾驶过程中面部图像信息,判断驾驶员分神的状态并报警为预防交通事故的发生提供了一种新的解决方案。

传统的分神检测方式主要有两种,一种是通过检测两只眼睛、鼻子、嘴巴的影像是否存在拍摄的每帧图片来判断驾驶员的面部朝向,以及摄像头不能拍摄到驾驶员完整的眼睛、鼻子、嘴巴信息来判断驾驶员分神,这种方式漏检率较高。另一种方式是基于视线或者头部朝向判定驾驶员注意力状态,漏检率也较高。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够降低漏检率的驾驶员分神检测方法、装置、计算机设备和存储介质。

一种驾驶员分神检测方法,所述方法包括:

检测驾驶员的头部偏离角度值和视线偏离角度值;

根据所述头部偏离角度值和所述视线偏离角度值,确定注意力偏离角度值;

根据所述注意力偏离角度值确定时间评判阈值;

若所述注意力偏离角度值大于预设的第一角度阈值的第一持续时间大于所述时间评判阈值,判定所述驾驶员处于分神状态。

一种驾驶员分神检测装置,所述装置包括:

检测模块,用于检测驾驶员的头部偏离角度值和视线偏离角度值;

处理模块,用于根据所述头部偏离角度值和所述视线偏离角度值,确定注意力偏离角度值,根据所述注意力偏离角度值确定时间评判阈值;

第一评判模块,用于在所述注意力偏离角度值大于预设的第一角度阈值的第一持续时间大于所述时间评判阈值时,判定所述驾驶员处于分神状态。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

检测驾驶员的头部偏离角度值和视线偏离角度值;

根据所述头部偏离角度值和所述视线偏离角度值,确定注意力偏离角度值;

根据所述注意力偏离角度值确定时间评判阈值;

若所述注意力偏离角度值大于预设的第一角度阈值的第一持续时间大于所述时间评判阈值,判定所述驾驶员处于分神状态。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

检测驾驶员的头部偏离角度值和视线偏离角度值;

根据所述头部偏离角度值和所述视线偏离角度值,确定注意力偏离角度值;

根据所述注意力偏离角度值确定时间评判阈值;

若所述注意力偏离角度值大于预设的第一角度阈值的第一持续时间大于所述时间评判阈值,判定所述驾驶员处于分神状态。

上述驾驶员分神检测方法、装置、计算机设备和存储介质,是检测驾驶员的头部偏离角度值和视线偏离角度值,根据该头部偏离角度值和视线偏离角度值确定注意力偏离角度值,根据该注意力偏离角度值确定时间评判阈值,若所述注意力偏离角度值大于预设的第一角度阈值的第一持续时间大于所述时间评判阈值,判定所述驾驶员处于分神状态。本实施例方案中,是根据注意力偏离角度值进行分神检测,而注意力偏离角度值考虑了头部偏离角度值和视线偏离角度值两方面因素,且时间评判阈值是根据注意力偏离角度值确定,并根据组合分神阈值(第一角度阈值和时间评判阈值)综合判断驾驶员的分神,可以提升分神检测的准确度,降低漏检率。

附图说明

图1为一个实施例中驾驶员分神检测方法的应用环境图;

图2为一个实施例中驾驶员分神检测方法的流程示意图;

图3为另一个实施例中驾驶员分神检测方法的流程示意图;

图4为一个实施例中的注意力偏离角度值和时间评判阈值的关系曲线图;

图5为一个实施例中视线偏离角度值的获取流程示意图;

图6为一个实施例中头部偏离角度值的获取流程示意图;

图7为一个实施例中人脸检测以及特征点定位的获取流程示意图;

图8为一个实施例中的dpm特征提取原理图;

图9为一个实施例中的根滤波器(左)组件滤波器(中)高斯滤波后的2倍空间模型(右)的示意图;

图10为传统的hog+svm和一个实施例中的运用的dpm+latent-svm的效果对比(a)以及公式对比(b)示意图;

图11为一个实施例中的联级迭代效果示意图;

图12为一个实施例中的cnn模型体系架构示意图;

图13为一个实施例中的基于cnn模型的视线估计流程示意图;

图14为一个实施例中的采用图片渲染得到结果展示图;

图15为一个实施例中的眼睑运动模型示意图;

图16为另一个实施例中驾驶员分神检测装置的结构框图;

图17为另一个实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

需要说明的是,本发明的说明书、权利要求书以及说明书附图中的术语“第一”和“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后关系。应当理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够除了在这里图示或描述的那些以外的顺序实施。

本申请提供的驾驶员分神检测方法,可以应用于如图1所示的应用环境中。其中,红外摄像头采集驾驶员的视频信息,红外摄像头采集的视频信息可以输入终端中进行驾驶员分神检测。其中,红外摄像头较佳安装位置是汽车转向盘下方的转向柱上。红外摄像头可以通过有线或者无线的方式与终端进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、车载终端和便携式可穿戴设备。

在一个实施例中,如图2所示,提供了一种驾驶员分神检测方法,以该方法应用于终端为例进行说明,包括以下步骤:

步骤s201:检测驾驶员的头部偏离角度值和视线偏离角度值;

其中,头部偏离角度值表征驾驶员的头部姿态的参量,驾驶员的头部姿态是相对于驾驶员的正面姿态而言的。视线偏离角度值是视线的当前方向偏离眼睛正视前方时的视线方向的角度值。

步骤s202:根据所述头部偏离角度值和所述视线偏离角度值,确定注意力偏离角度值;

具体地,可以通过将所述头部偏离角度值和所述视线偏离角度值求和,获得所述注意力偏离角度值。在计算过程中,可以设定正方向,根据设定的正方向,将所述头部偏离角度值和所述视线偏离角度值求和,将得到的和值取绝对值,得到所述注意力偏离角度值。

步骤s203:根据所述注意力偏离角度值确定时间评判阈值;

本实施例中,时间评判阈值是随着所述注意力偏离角度值的变化而变化的。

步骤s204:若所述注意力偏离角度值大于预设的第一角度阈值的第一持续时间大于所述时间评判阈值,判定所述驾驶员处于分神状态。

其中,第一角度阈值的大小可以根据实际需要确定,较佳地,第一角度阈值为15°,也可以根据需要在10°~20°内取值。

具体地,在检测到注意力偏离角度值大于预设的第一角度阈值时,检测注意力偏离角度值大于预设的第一角度阈值的第一持续时间是否大于所述时间评判阈值,若是,则判定所述驾驶员处于分神状态。

上述驾驶员分神检测方法中,检测驾驶员的头部偏离角度值和视线偏离角度值,根据该头部偏离角度值和视线偏离角度值确定注意力偏离角度值,根据该注意力偏离角度值确定时间评判阈值,若所述注意力偏离角度值大于预设的第一角度阈值的第一持续时间大于所述时间评判阈值,判定所述驾驶员处于分神状态。本实施例方案中,是根据注意力偏离角度值进行分神检测,而注意力偏离角度值考虑了头部偏离角度值和视线偏离角度值两方面因素,且时间评判阈值是根据注意力偏离角度值确定,并根据组合分神阈值(第一角度阈值和时间评判阈值)综合判断驾驶员的分神,可以提升分神检测的准确度,降低漏检率。此外,本实施例方案中的分神检测可以作为自动驾驶的驾驶权转换提供一种衡量指标,危险时刻及时发出预警,实时性较好,能够有效减少由于驾驶员分神驾驶造成的交通事故。

在其中一个实施例中,提供了一种驾驶员分神检测方法,以该方法应用于终端为例进行说明,包括以下步骤:

步骤s301:检测驾驶员的头部偏离角度值和视线偏离角度值;

步骤s302:根据所述头部偏离角度值和所述视线偏离角度值,确定注意力偏离角度值;

步骤s303:根据所述注意力偏离角度值确定时间评判阈值;

本实施例中的步骤s301-s303可以对应的参照上述的步骤s201-s203,在此不予赘述。

步骤s304:若所述头部偏离角度值大于预设的第二角度阈值的第二持续时间大于所述时间评判阈值,判定所述驾驶员处于分神状态;

其中,第二角度阈值的大小可以根据实际需要确定,较佳地,第二角度阈值为60°,也可以根据需要在50°~70°内取值。

具体地,检测所述头部偏离角度值是否大于预设的第二角度阈值,若是,则检测所述头部偏离角度值大于预设的第二角度阈值的第二持续时间是否大于所述时间评判阈值,若是,则判定所述驾驶员处于分神状态。

步骤s305:若所述头部偏离角度值不大于所述第二角度阈值,或者所述第二持续时间不大于所述时间评判阈值,则在检测所述注意力偏离角度值大于预设的第一角度阈值,检测第一持续时间是否大于所述时间评判阈值;

这里,第一持续时间是所述注意力偏离角度值大于预设的第一角度阈值的持续时间。

步骤s306:若所述第一持续时间大于所述时间评判阈值,判定所述驾驶员处于分神状态。

在本实施例中,优先根据头部偏离角度值进行分神检测,在头部偏离角度值不满足判定驾驶员处于分神状态的条件时,才根据注意力偏离角度值进行分神检测,如此,可以优先用数据计算量小的方式进行分神检测,可以尽可能地节约能耗,而在头部偏离角度值不满足判定驾驶员处于分神状态的条件时,又可以根据注意力偏离角度值进行分神检测作为补充,也可以降低漏检率。

在其中一个实施例中,上述的根据所述注意力偏离角度值确定时间评判阈值可以包括:在所述注意力偏离角度值大于所述第二角度阈值时,所述时间评判阈值为第一预设时间值;在所述注意力偏离角度值小于所述第一角度阈值时,所述时间评判阈值为第二预设时间值;在所述注意力偏离角度值介于所述第一角度阈值和所述第二角度阈值之间时,所述时间评判阈值随着所述注意力偏离角度值的增大线性减小。

如图4所示,是以第二角度阈值是60°、第一角度阈值是15°、第一预设时间值是2s(2秒)、且第二预设时间值是5s(5秒)为例,根据需要,第二角度阈值、第一角度阈值、第一预设时间值和第二预设时间值也可以是其他取值。

本实施例中是考虑到注意力跑偏约严重,越容易发生危险,将时间评判阈值设置的相应小,可以尽可能的早的发现风险,以尽可能的规避风险。

在其中一个实施例中,如图5所示,上述的获取所述驾驶员的视线偏离角度值,可以包括:

步骤s501:获取所述驾驶员的人脸图像,对所述人脸图像进行特征点定位,得到特征点信息;

具体地,可以所述驾驶员的视频图像,将视频中的每帧分别作为所述驾驶员的一张人脸图像,对所述人脸图像进行人脸特征定位,获得特征点信息。其中,可以通过安装于转向盘下方的转向柱上的单目红外摄像头对所述驾驶员进行视频采集,如此,可以得到所述驾驶员在开车过程中脸部状态信息。同时,外摄像头能适应车内不同的光线情况,能够准确捕捉到驾驶员头部姿态信息和面部信息。视频输入的频率可以为30hz,每帧图像大小可以为1280×1080像素,但摄像头和安装位置也不限于此。

步骤s502:根据所述特征点信息获取所述驾驶员的眼球中心坐标和瞳孔中心坐标;

其中,眼球中心坐标和瞳孔中心坐标均为三维坐标。

步骤s503:根据所述眼球中心坐标和所述瞳孔中心坐标确定所述视线偏离角度值;

具体地,可以首先根据所述眼球中心坐标和所述瞳孔中心坐标确定所述驾驶员的眼球中心和瞳孔中心的方向向量,再根据该方向向量确定所述视线偏离角度值。

在其中一个实施例中,如图6所示,上述的检测驾驶员的头部偏离角度值,可以包括:

步骤601:获取所述驾驶员的人脸图像,对所述人脸图像进行特征点定位,得到特征点信息;

其中,步骤601可以参照上述对步骤501的描述,在此不予赘述

步骤602:根据所述特征点定位信息以及所述驾驶员的正面人脸三维模型确定所述驾驶员的当前二维图像和正面人脸三维模型之间的空间位置关系;

由于驾驶员的头部姿态是相对于正面姿态而言的,故可将正面姿态人脸三维模型(正面人脸三维模型)作为姿态度量的基准,计算得到的当前二维图像(摄像机坐标系)与正面人脸三维模型(世界坐标系)之间的空间位置关系,即为驾驶员的头部姿态。

步骤603:根据所述空间位置关系确定所述驾驶员的头部偏离角度值。

在其中一个实施例中,如图7所示,上述的对所述人脸图像进行特征点定位,得到特征点信息,可以包括:

步骤s701:提取第一dpm特征图,所述第一dpm特征图为所述人脸图像的dpm特征图;

步骤s702:对所述第一dpm特征图进行采样处理,提取第二dpm特征图,所述第二dpm特征图为对所述第一dpm特征图进行采样处理后的图像的dpm特征图;

步骤s703:将所述第一dpm特征图,用预先训练的根滤波器进行卷积运算,得到所述根滤波器的响应图;

步骤s704:将二倍的所述第二dpm特征图,用预先训练的组件滤波器进行卷积运算,得到所述组件滤波器的响应图;

步骤s705:根据所述根滤波器的响应图和所述组件滤波器的响应图,得到目标响应图;

步骤s706:根据所述目标响应图确定人脸区域,对所述人脸区域进行特征点定位,得到特征点信息。

本实施例中,通过采用采用dpm目标检测算法进行人脸检测,算法的检测准确率被提升,可以同时降低误检率和漏检率。

在其中一个实施例中,上述的检测所述驾驶员的视线偏离角度值的过程采用多模态的卷积神经网络模型,该卷积神经网络模型的数据样本,是采用多个动态可控的眼睛区域模型渲染生成的眼睛区域图像。采用本实施例的方案可以弥补样本不足的的情况,同时,采用多模态的卷积神经网络模型,算法精确,抗光照等外界条件能力强。

为了便于理解本发明的方案,以下以一个较佳实施例对本发明方案进行详细阐述。

在该实施例中的驾驶员分神检测方法包括以下步骤:第一步:采集视频信息;第二步:人脸检测;第三步:人脸特征点定位;第四步:头部姿态实时检测;第五步:视线估计及分神判断。以下对这些步骤进行详细阐述。

第一步:采集视频信息。用于视频信息输入的单目红外摄像头(安装于转向盘下方的转向柱上)实时输入驾驶员开车过程中脸部状态信息(图像)。视频输入的频率为30hz,每帧图像大小为1280×1080像素。

第二步:人脸检测。对输入的视频的每一帧图像,本实施例采用dpm(deformablepartmodel)目标检测算法进行人脸检测。dpm算法中应用到了hog算法中的部分原理:首先是将图片灰度化;然后,如(1)式,采用gamma校正法对输入图像进行颜色空间的标准化(归一化):

i(x,y)=i(x,y)gamma(1)

其中,gamma的取值看具体情况(例如可以取1/2),如此能够有效地降低图像局部的阴影和光照变化;接下来进行梯度计算,梯度反应的是相邻的像素之间的变化,相邻像素之间变化比较平坦,则梯度较小,反之梯度大,模拟图象f(x,y)任意一点像素(x,y)的梯度是一个矢量:

其中,gx是沿x方向上的梯度,gy是沿y方向上的梯度,梯度的幅值及方向角可用如下公式表示:

数字图像中的像素点使用差分来计算的:

因为使用简单的一维离散微分模板[-1,0,1]进行的梯度运算得到的检测效果是最好的,所以采用的计算公式如下:

上式中,gx,gy,h(x,y)分别表示像素点(x,y)在水平方向、垂直方向上的梯度以及像素值,其梯度的幅值及方向计算公式如下:

然后,对于整个目标图片,将其分成互不重叠、大小相同的细胞单元(cell),然后计算出每个细胞单元的梯度大小和方向。dpm保留了hog图的细胞单元,然后将图片上某细胞单元(图8上是8x8的细胞单元)与其对角线邻域的四个细胞进行归一化操作。提取有符号的hog梯度,0-360度将产生18个梯度向量,提取无符号的hog梯度,0-180度将产生9个梯度向量。dpm只提取无符号特征,将产生4*9=36维特征,将行和列分别相加形成13个特征向量(如8图所示9列相加,4行相加),为了进一步提高精度,将提取的18维有符号的梯度特征也加进来(如图所示18列相加),最终得到13+18=31维梯度特征。

如图9所示,dpm模型采用了一个8*8分辨率的根滤波器(rootfilter)(左)和4*4分辨率的组件滤波器(partfilter)(中)。其中,中图的分辨率为左图的2倍,并且组件滤波器的大小是根滤波器的2倍,因此,看的梯度会更加精细。右图为其高斯滤波后的2倍空间模型。

首先,对输入的图像提取dpm特征图(原始图像的dpm特征图)并进行高斯金字塔上采样(缩放图片),然后再提取高斯金字塔上采样的图片的dpm特征图。将原始图像的dpm特征图和训练好的根滤波器进行卷积运算,从而得到根滤波器的响应图。同时,对于提取到的2倍图像的dpm特征图(高斯金字塔上采样),用训练好的组件滤波器进行卷积运算,得到组件滤波器的响应图。对得到的组件滤波器的响应图进行精细高斯塔下采样操作,如此一来,根滤波器的响应图和组件滤波器的响应图就具有了相同的分辨率。最后,将两者进行加权平均,得到最后的响应图,亮度越大响应效果越好,由此检测到人脸。其中响应值得分公式:

其中,x0,y0,l0分别为特征点的横坐标、纵坐标、尺度;为根模型的响应分数;为部件模型的响应分;2(x0,y0)表示组件模型的像素为原始的2倍;b为用于与跟模型进行对齐的不同模型组件之间的偏移系数;2(x0,y0)表示组件模型的像素为原始的2倍,所以,像素点*2;vi为像素点和理想检测点之间的偏移系数;其中其部件模型的详细响应得分公式如下:

类似于式(8),我们希望目标函数(di,l(x,y))越大越好,变量为dx,dy。此外上式中,(x,y)为训练的理想模型的位置;dx,dy是理想模型位置的偏移量,范围是理想位置到图片边缘的位置;ri,l(x+dx,y+dy)为组件模型的匹配得分;di*φd(dx,dy)为组件的偏移损失得分;di为偏移损失系数;φd(dx,dy)为组件模型的像素点和组件模型的检测点之间的距离。这个公式表明,组件模型的响应越高,各个组件和其相应的像素点距离越小,则响应分数越高,越有可能是待检测的物体。

训练模型时,要将上面的得出的dpm特征进行训练。dpm在这里用的是latent-svm分类法,在这里相对于linear-svm分类法增加了latent变量(潜变量),latent变量可以用来决定正样本中哪一个样本作为正样本。lsvm中有很多latent变量,这是因为给定一张正样本的图片,标注完边界框后,需要在某一位置,某一尺度提出一个最大样本作为某一部分的最大样本。图10(a)是一般的hog+svm和运用的dpm+latent–svm的效果对比图。一般的hog+svm和运用的dpm+latent-svm的公式如图10(b)所示。

第三步:人脸特征点定位。在本实施例方案中使用的是lbf算法,采用一个联级的回归器以毫秒为单位进行人脸特征点以及眼部特征点定位。每个回归rt(,)用当前图片i与形状向量来预测更新形状向量,具体公式如下:

其中表明当前的估计向量s,xi表示图像i中的脸部特征点的(x,y)坐标。联级中最重要的步骤是回归器rt(,)基于诸如像素灰度特征的预测,这些特征是基于图像i计算和当前形状向量索引出来的。在这个过程中引入了几何形式的不变性,并且随着级联的进行可以人们可以更加确定脸部的精确语义位置正在被索引。

如果初始估计值属于此空间,则确保由集合扩展的输出范围位于训练数据的线性子空间中。这样做不需要对预测实施额外的限制,这极大地简化了本方法。此外,简单地选择初始形状作为根据通用面部检测器的边界框输出居中和缩放的训练数据的平均形状。

接下来就是学习级联中的每个回归器,用训练数据集((i1,s1),......,(in,sn))来学习回归函数r0,ii表示一张脸部图片,si表示一个形状向量。初始化的形状估计和目标更新)如下:

πi∈{1,......n}(13)

其中i=(1,......,n)。在这里将这些三元组的总数设置为n=nr,其中r是每个图像i使用的初始化次数。一个图像的每个初始化形状估计是从(s1,......,sn)统一抽样的,不需要替换。

从这个数据中用伴随平方误差损失的总和的梯度树提升,可以学习到回归函数r0,具体算法如下:

训练数据学习率0<v<1,具体过程是:

a.初始化:

b.对k从1到k:

①i=1,…,n:

②针对回归函数rik拟合一个回归树,给出一个弱回归函数

③更新:

c.输出:

三元组训练数据进而会更新训练数据为:联级中的下一个回归器r1,被设置如下(t=0):

这个过程被迭代,直到t回归的级联组合后能给予足够的精度水平。

每个回归函数rt的核心是在梯度提升算法中适合残差目标的基于树的回归函数。在回归树的每个分离节点上,我们做出基于两个像素之间强度差异阈值的决定。在基于平均形状定义的坐标系中,测试中用的像素坐标是(u,v)。对于任意形状的脸部图像,我们想要索引具有与其形状相同位置的点就如u和v对于平均形状的点。为了实现这一点,在提取特征之前,可以基于当前的形状估计将图像变形为平均形状。因为我们使用这幅图像的非常稀疏的像素代表,所以更有效的做法是去扭曲这些点的位置而不是去扭曲整个图像。

假设ku是平均形状中与u最接近的面部标志的索引,并定义其与u的偏移为:

然后,对于图像ii中定义的形状si,ii中的位置这与定义形状图像中的u的定性相似:

其中si,ri是比例矩阵和旋转矩阵,这两者被用来最小化平均形状面部标志点和扭曲点之间的平方差之和:

v′被类似地定义。正式的每个分割是涉及3的决定,参数θ=(τ,u,v)并且被应用于每个训练和测试样本。

这里的u'和v′用比例矩阵和旋转矩阵定义。计算相似度转换,在测试时间计算量最大这个过程的一部分,只在每个层次完成一次级联。

对于每个回归树,我们使用分段常量函数来近似底层函数,其中常量向量适合于每个叶节点。为了训练回归树,我们在每个树节点随机生成一组候选分割,即θ。然后,我们随意地从这些候选者中选择θ,这个做法最小化了平方误差的总和。如果q是节点上的训练样例的索引集合,则这对应于最小化:

其中qθ,s是样本的索引,ri是梯度增强算法中为图像i计算的所有残差的矢量,而μθ,s定义公式如下:

最佳优化点可以被很容易地找到,因为如果我们重新排列公式或者忽略掉依赖θ的因素,能看到如下公式关系:

当评估不同的θ时,我们只需要计算μθ,l正如μθ,r可以通过μ和μθ,l来计算,过程如下:

在每个节点处的决定基于对一对像素处的强度值的差异进行阈值化。这是一个相当简单的测试,但它比单阈值更强大,因为它对全球照明变化的相对不敏感。不幸的是,使用像素差异的缺点是可能的分割(特征)候选的数量在平均图像中的像素数量上是二次的。这使得很难在没有搜索到很多θ的情况下找到好的θ。但是,通过考虑图像数据的结构,这种限制因素在一定程度上可以得到缓解。我们先介绍一个指数

p(u,v)αe-λ||u-v||(29)

在这个距离范围内的像素分割点容易被选择,这样可以有效降低数据集预测错误的数目。

处理缺失的标签,我们引入了范围在0到1之间的变量wi,j(表示第i个图像的第j个标志点),则得出新的平方差和公式:

其中wi是一个向量(wi,i,......wi,p)t变形的对角线矩阵。此外μθ,s的公式如下:

梯度增强算法也必须修改以考虑这些权重因子。这可以简单地通过用目标的加权平均值初始化整体模型以及将回归树拟合到加权来完成。此外,拟合回归树的权重值残差算法如下:

联级迭代效果如图11所示:

第四步:头部姿态实时监测。利用通用人脸模型与正面人脸2d模型构建当前驾驶员的3d人脸模型,选用不考虑畸变因子的四参数针孔摄像头模型对摄像机成像过程进行建模,三维空间点与图像投影点之间的成像关系为:

式中,是相机内参数,fx,fy分别是横轴和纵轴方向上的焦距,cx,cy为摄像头成像面主点坐标,由于人脸的2d和3d模型均为正面人脸,故式中的旋转矩阵r为单位矩阵,即t=[tx,ty,tz]t为头部平移向量,r和t称为相机外参数,(xi,yi,zi)是空间点的齐次坐标。

采用epnp算法实时求解驾驶人的头部姿态。epnp算法基于二维图像点集与三维物体点集之间的对应关系,计算摄像机坐标系(二维图像)与世界坐标系(三维物体)之间的空间位置关系。由于驾驶员的头部姿态是相对于正面姿态而言的,故可将正面姿态人脸3d模型作为姿态度量的基准,计算得到的当前二维图像(摄像机坐标系)与正面人脸3d模型(世界坐标系)之间的空间位置关系即为驾驶员的头部姿态。在相机坐标系下,人脸2d图像中人脸区域内n个特征点,4个非共面的虚拟控制点齐次坐标分别记为存在虚拟控制点在世界坐标系下的齐次坐标为也有由于相机内参数已知,假设为单位矩阵可得:

将第三个分量带入第一、二个分量可得:

记为矩阵:mx=0,m为2n×12的矩阵,位置向量x属于m的右零空间,包含4个虚拟控制点在相机坐标系下的非齐次坐标,通过实验可以确定该空间的基向量最多为4个,故其中vi是m矩阵的右奇异向量,可通过求解mtm矩阵的零空间特征值得到,n的值为1,2,3或4,利用刚体变换下的距离不变性估计出不同n值下的β值,然后通过比较四种不同n值下的反投影误差来确定n的取值,从而恢复x的值,即虚拟控制点在世界坐标系下的坐标,最后由恢复相机坐标系下的坐标,求解二维到三维的pnp问题转化为求解刚体运动问题,由已有的快速算法估计出姿态参数。

计算r,t步骤如下:

(1)求中心点,

(2)去中心:

(3)计算h矩阵,

(4)对h进行奇异值分解h=uλvt

(5)计算x=λvt,如果det(x)=1,则r=x,否则r(2,·)=-r(2,·)

第五步:视线估计及分神检测。视线是指眼球中心与瞳孔中心3d坐标组成的方向向量。本实时例方案中,采用多模态的卷积神经网络(convolutionalneuralnetwork,cnn)学习从输入特征2d头部角转角向量h和眼睛图像e到视线角向量g在归一化空间中的映射。左眼和右眼之间的区别在人独立训练场景中是无关紧要的,通过水平翻转眼睛图像,并绕y轴镜像h和g,用一个单一的回归函数来处理两只眼睛。如图12所示,本实施例方案中的cnn模型使用lenet网络体系结构,它由两个卷积层,两个最大池化层,一个完全连接层组成。在完全连接层的顶部以预测凝视角度向量g训练线性回归层,使用一个多模态cnn模型来利用眼睛图像和头部姿态信息,将h与完全连接层的输出连接到cnn模型中,头位信息编码到我们的cnn模型中。输入到网络的是灰度图像e,其固定大小为60×36像素。两个卷积层的特征大小为5×5像素,第一层为20,第二层为50,完全连接层中隐藏单元的数目为500,其中每个单元连接到前一卷积层的所有特征映射,并通过求和所有激活值来计算。网络输出为二维凝视角矢量它由偏航和螺距两个凝视角组成。如图13所示,为基于cnn模型的视线估计流程示意图。

如图14所示,本实施例方案中,训练cnn模型的数据样本运用unityeyes采用一系列动态和可控的眼睛区域模型来大规模渲染生成现实的眼睛区域图像。眼睛模型包括巩膜、瞳孔、虹膜和角膜,在形状(瞳孔扩张)和纹理(虹膜颜色,巩膜静脉)中显示出真实的变化。采用的头部模型涵盖不同的性别、种族和年龄。

如图15所示,眼睑运动模型采用向上看与向下看的混合形状,并基于全局模型的眼球模型在他们之间插值,使其不断变形配合眼球姿势。当眼睛周围的组织被压缩或拉伸时,皱纹和褶皱等皮肤细节要么会减弱,要么会被夸大,我们通过使用平滑的颜色和位移纹理来模拟向下眼睑,去除皱纹。

分神判断:我们定义视线和头部偏离正前方的角度向左为正,向右为负。则注意力方向=视线偏离角度+头部偏离角度。分神判断逻辑如下:

如果头部偏转角>阈值1,且持续时间>阈值3,驾驶员分神;

如果注意力方向>阈值2,且持续时间>阈值3,驾驶员分神。

上述阈值1(相当于上述的第二角度阈值)指的是头部偏转最大角度,当超过这个角度直接判定为分神状态。推荐阈值为60°。上述阈值2(相当于上述的第一角度阈值)指的是注意力偏转最大角度,推荐阈值为15°。上述阈值3(相当于上述的时间评判阈值)指的是注意力偏移时间,它是关于注意力偏移角度θ的函数,具体如图4所时,在此不予赘述。

本实施例方案中,使用dpm算法进行人脸检测,算法的检测准确率大大提升,同时降低误检率与漏检率,提高了光照与人脸姿态的鲁棒性;使用机器学习算法定位人脸特征点与并分别对眼睛特征点进行定位,定位精度非常高同时对光照与姿态有很强的泛化能力;利用图片渲染技术生成大量样本数据,克服卷积神经网络模型训练样本不足的情况;采用cnn模型预测视线方向,算法精确,抗光照等外界环境条件能力强;与自动驾驶相结合,为驾驶权转换提供一种衡量指标。

在一个实施例中,如图16所示,提供了一种驾驶员分神检测装置,包括:检测模块1601、第一评判模块1602和第一评判模块1603,其中:

检测模块1601,用于检测驾驶员的头部偏离角度值和视线偏离角度值;

处理模块1602,用于根据所述头部偏离角度值和所述视线偏离角度值,确定注意力偏离角度值,根据所述注意力偏离角度值确定时间评判阈值;

第一评判模块1603,用于在所述注意力偏离角度值大于预设的第一角度阈值的第一持续时间大于所述时间评判阈值时,判定所述驾驶员处于分神状态。

在其中一个实施例中的驾驶员分神检测装置还可以包括第二评判模块,该第二评判模块用于在所述头部偏离角度值大于所述第二角度阈值的第二持续时间大于所述时间评判阈值时,判定所述驾驶员处于分神状态;第一评判模块1603在所述头部偏离角度值不大于预设的第二角度阈值时,或者在所述第二持续时间不大于所述时间评判阈时值时,检测所述注意力偏离角度值是否大于预设的第一角度阈值,若注意力偏离角度值是否大于预设的第一角度阈值,则检测所述第一持续时间是否大于所述时间评判阈值,若所述第一持续时间大于所述时间评判阈值,则判定所述驾驶员处于分神状态。

在其中一个实施例中,检测模块1601可以在所述注意力偏离角度值大于所述第二角度阈值时,所述时间评判阈值为第一预设时间值,在所述注意力偏离角度值小于所述第一角度阈值时,所述时间评判阈值为第二预设时间值,在所述注意力偏离角度值介于所述第一角度阈值和所述第二角度阈值之间时,所述时间评判阈值随着所述注意力偏离角度值的增大线性减小。

在其中一个实施例中,检测模块1601可以获取所述驾驶员的人脸图像,对所述人脸图像进行特征点定位,得到特征点信息,根据所述特征点信息获取所述驾驶员的眼球中心坐标和瞳孔中心坐标,根据所述眼球中心坐标和所述瞳孔中心坐标确定所述视线偏离角度值。

在其中一个实施例中,检测模块1601可以获取所述驾驶员的人脸图像,对所述人脸图像进行特征点定位,得到特征点信息,根据所述特征点定位信息以及所述驾驶员的正面人脸三维模型确定所述驾驶员的当前二维图像和正面人脸三维模型之间的空间位置关系,根据所述空间位置关系确定所述驾驶员的头部偏离角度值。

在其中一个实施例中,检测模块1601可以提取第一dpm特征图,所述第一dpm特征图为所述人脸图像的dpm特征图,对所述第一dpm特征图进行采样处理,提取第二dpm特征图,所述第二dpm特征图为对所述第一dpm特征图进行采样处理后的图像的dpm特征图,将所述第一dpm特征图,用预先训练的根滤波器进行卷积运算,得到所述根滤波器的响应图,将n倍的所述第二dpm特征图,用预先训练的组件滤波器进行卷积运算,得到所述组件滤波器的响应图,所述组件滤波器的分辨率为所述根滤波器的分辨率的n倍,n为正整数,根据所述根滤波器的响应图和所述组件滤波器的响应图,得到目标响应图,根据所述目标响应图确定人脸区域,对所述人脸区域进行特征点定位,得到特征点信息。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图17所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人脸特征分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图17中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以上任意一个实施例中的驾驶员分神检测方法。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上任意一个实施例中的驾驶员分神检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1