一种眼部行为检测方法、装置以及存储介质与流程

文档序号:20491063发布日期:2020-04-21 22:03阅读:151来源:国知局
一种眼部行为检测方法、装置以及存储介质与流程

本发明涉及行为检测技术领域,具体涉及一种眼部行为检测方法、装置以及存储介质。



背景技术:

眨眼检测在现实生活当中的广泛运用的技术,眨眼检测已经在很多应用场景中落地使用。眨眼检测是动作活体检测方案的重要组成部分。活体检测是人脸核身系统中非常重要的环节,已经在很多应用场景中落地使用。其中动作活体是活体检测使用最广泛的解决方案之一,而眨眼检测又是动作活体解决方案中重中之重。

现有的眨眼检测方法中,基于特征点的位置特征进行眨眼检测,其主要技术原理是通过定位人眼关键点的位置,提取手工特征(ear特征等)。之后利用提取出的手工特征输入分类器(svm,人工规则等)来判断当前是否发生眨眼行为。这种基于特征点位置特征的眨眼检测方法使得眨眼检测不够准确。



技术实现要素:

本发明实施例提供一种眼部行为检测方法、装置以及存储介质,可以提高眨眼行为检测的准确率。

本发明实施例提供了一种眼部行为检测方法,包括:

在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像;

对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息;

根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息;

根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系;

根据所述多个具有时序关系的概率值,生成概率曲线坐标系;

根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。

相应的,本发明实施例还提供了一种眨眼检测装置,包括:

获取单元,用于在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像;

提取单元,用于对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息;

融合单元,用于根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息;

计算单元,用于根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系;

生成单元,用于根据所述多个具有时序关系的概率值,生成概率曲线坐标系;

确定单元,用于根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。

可选的,在本发明的一些实施例中,所述确定单元还包括:

生成子单元,用于根据多个具有时序关系的概率值生成概率曲线坐标系,其中,所述概率曲线坐标系的横轴为时间轴,竖轴为概率值;

确定子单元,用于基于所述概率曲线坐标系,确定目标对象是否存在预设眼部行为。

可选的,在本发明的一些实施例中,所述确定子单元具体还用于:

若所述概率曲线坐标系中的参数点大于第一预设阈值,且所述参数点与预设区间边界点之间概率值大于零的数量大于第二预设阈值时,确定所述参数点对应的目标对象存在预设眼部行为。

可选的,在本发明的一些实施例中,所述提取单元具体包括:

检测单元,用于对每张图像进行眼部区域检测,得到多个具有时序关系的眼部区域;

提取子单元,用于根据所述眼部区域的时序关系,对所述眼部区域进行特征提取,得到多个具有时序关系眼部区域的初始特征信息。

可选的,在本发明的一些实施例中,所述提取单元具体用于:

对每张图像进行脸部识别,得到多个具有时序关系的脸部区域,确定每一张脸部区域的脸部特征点;

根据每张脸部区域的脸部特征点确定每张图像眼部区域的中心点和眼部区域的宽和高的特征点;

基于每张图像眼部区域的中心点和眼部区域的宽和高的特征点,得到多个具有时序关系的眼部区域。

可选的,在本发明的一些实施例中,所述计算单元具体用于:

将多个具有时序关系的融合深度特征信息输入长短期记忆网络,得到多个样本隐藏状态;

将多个样本隐藏状态按照时序进行融合得到多时序尺度特征;

将所述多时序尺度特征经过分类器得到每一张图像的眼部行为为预设眼部行为的概率值。

可选的,在本发明的一些实施例中,所述融合单元具体用于:

将提取的每一张眼部区域的初始特征信息与前一张眼部区域的初始特征信息相减得到的差值特征信息,将所述差值特征信息与相邻初始特征信息融合得到融合深度特征信息。

可选的,在本发明的一些实施例中,还包括处理单元,所述处理单元具体还用于:

在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像;包括:采用多时序尺度模型的获取层获取得到目标对象的图像序列;

对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息;包括:采用多时序尺度模型的特征提取层对每张图像的眼部区域进行特征提取;

根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息;包括:采用多时序尺度模型的长短期记忆网络层将所述眼部区域的初始特征信息和差值特征信息融合;

根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,包括:采用多时序尺度模型的权连接分类层根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值。

可选的,在本发明的一些实施例中,所述装置还包括训练单元,所述训练单元具体用于:

在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像;包括:采用多时序尺度模型的获取层获取得到目标对象的图像序列;

对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息;包括:采用多时序尺度模型的特征提取层对每张图像的眼部区域进行特征提取;

根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息;包括:采用多时序尺度模型的长短期记忆网络层将所述眼部区域的初始特征信息和差值特征信息融合;

根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,包括:采用多时序尺度模型的权连接分类层根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值。

相应的,本发明实施例还提供一种存储介质,所述存储介质存储有指令,所述指令被处理器执行时实现本发明实施例任一提供的方法中的步骤。

本发明实施例在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像,对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息,根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息,根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,根据所述多个具有时序关系的概率值,生成概率曲线坐标系,根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。本申请实施例中,多时序图像可以描述目标对象可能持续不同时间的眼部行为,融合深度特征信息能够降低低频噪声,采用这种方式检测眼部行为能够准确的检测到眼部行为动作,不容易受到姿态,环境光,拍摄角度,人物眼睛大小等因素影响。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的眼部行为检测系统的结构示意图;

图1b是本发明实施例提供的眼部行为检测方法的流程示意图;

图1c是本发明实施例提供的眼部行为检测方法中脸部特征点示意图;

图1d是本发明实施例提供的眼部行为检测方法中概率曲线示意图;

图1e是本发明实施例提供的眼部行为检测方法中概率曲线另一种示意图;

图1f是本发明实施例提供的眼部行为检测方法中多时序尺度模型训练示意图;

图2是本发明实施例提供的眼部行为检测方法的另一个流程示意图;

图3是本发明实施例提供的眼部行为检测装置的结构示意图;

图4是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

本发明实施例提供一种眼部行为检测方法、眼部行为检测装置和存储介质。

本申请实施例提供一种眼部行为检测系统,眼部行为检测系统包括本发明实施例提供的眼部行为检测装置,眼部行为检测装置集成在所述电子设备中,该电子设备可以为手机、平板电脑、笔记本电脑等设备。此外,电子设备还可以与其他设备连接,比如,服务器等设备。

比如,参考图1a,其中,眼部行为检测系统集成有本发明实施例提供的眨眼行为检测装置。

其中,眼部行为检测系统可以在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像。其中,目标视频为未被分割的视频,滑动时间窗口就是根据指定的时间长度来框住视频帧,从而计算框内的图像序列。比如,在一段视频中,以五秒为时间窗口一个单位在视频片段中滑动,得到五秒中内视频帧中多个具有时序关系的图像。对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息。根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息,根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,根据所述多个具有时序关系的概率值,生成概率曲线坐标系,根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确目标对象是否存在预设眼部行为,并输出检测结果。其中,预设眼部行为可以是眨眼动作,检测结果就是图像序列中是否包含眨眼动作。

以下分别进行详细说明。需说明的是,以下实施例的顺序不作为对实施例优选顺序的限定。

在一实施例中,将从眼部行为检测方法的角度进行描述,该眼部行为检测方法具体可以集成在电子设备中。

如图1b所示,提供了一种眼部行为检测方法,该眼部行为检测方法可以由电子设备执行,具体流程可以如下:

101、在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像。

需要说明的是,目标视频可以来自于电子设备的摄像头拍摄到的视频,也可以是已经保存在电子设备中的本地视频。目标视频为未被分割的视频,滑动时间窗口就是根据指定的时间长度来框住视频帧,从而计算框内的图像序列,图像序列包括多个具有时序关系的图像。比如,在一段视频中,以五秒为一个单位的时间窗口在视频片段中滑动,得到五秒中内视频帧中多个具有时序关系的图像。目标对象是生物体征,比如,人、马等生物。

可以理解的是,本申请实施例中图像序列是通过在没有被分割的视频中的视频帧上滑动时间窗口获得,因此,本申请实施例中能够根据视频的时间长度和时间窗口长度确定非常多的图像序列。采用本申请中的图像序列作为样本训练模型时,能够大大增加训练样本。能够更好的把影响因子在训练阶段反馈给特征学习阶段

102、对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息。

需要说明的是,首先对每张图像进行眼部检测,确定每一张图像中眼部区域,对每一张眼部区域进行特征提取,得到每一张眼部区域的初始特征信息。其中,初始特征信息在没有经过其他处理情况下,经过特征提取后将眼部区域图像加以全局或者局部的变换,从原始样本中映射到另一个特征空间中,与图像对应的特征信息。

其中,在一些实施例中,所述“对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息”,具体包括步骤:

(1)对每张图像进行眼部区域检测,得到多个具有时序关系的眼部区域。

需要说明的是,对每张图像进行眼部区域检测时,可以首先对每一张图像进行脸部识别,得到脸部图像,然后,提取每一张脸部图像中眼部区域就可以得到多个具有时序关系的眼部区域。

例如,在一段视频中,将视频分为多帧图像后,首先对每一帧图像进行脸部检测得到每一帧脸部图像,然后对每一帧脸部图像的眼部区域进行提取,得到多帧眼部区域的图像。

其中,在一些实施例中,所述“对每张图像进行眼部区域检测,得到多个具有时序关系的眼部区域”,具体包括步骤:

(11)对所述每张图像进行脸部识别,得到多个具有时序关系的脸部区域,确定每一张脸部区域的脸部特征点。

需要说明的是,可以通过脸部识别算法对每一张图像进行识别,得到具有时序关系的脸部区域,然后,确定每一张脸部区域的脸部特征点。也就是通过脸部特征点来描述脸部区域。

(12)根据每张脸部区域的脸部特征点确定每张图像眼部区域的中心点和眼部区域的宽和高的特征点。

需要说明的是,在每张脸部区域中确定好特征点以后,确定每张眼部区域的高度特征点之间的距离和宽度特征点。然后确定眼部区域的中心点。

比如,为了更好的说明本申请实施例,以获得一张眼部区域为例,进行详细说明。请参阅图1c。确定左眼第17-24特征点的中心为左眼区域的中心,确定右眼第25-32特征点的中心为右眼区域的中心,确定脸部区域中第6和36之间纵坐标之间间距h的距离,作为眼部区域的宽和高。

(12)基于每张图像眼部区域的中心点和眼部区域的宽和高的特征点,得到多个具有时序关系的眼部区域。

需要说明的是,在每张脸部区域中确定好特征点以后,确定每张眼部区域的高度特征点之间的距离和宽度特征点之间的距离。计算每张眼部区域的宽度和高度的距离后,得到眼部区域的面积,然后确定眼部区域的中心点,基于眼部区域的中心点和眼部区域的面积,提取出多张具有时序关系的眼部区域。

为了更好的说明本申请实施例,以获得一张眼部区域为例,进行详细说明。请继续参阅图1c。本申请实施例中在得到脸部区域后,确定脸部区域的特征点,具体特征点表示如图1c中所示,先计算脸部区域中第6和36之间纵坐标之间间距h的距离,作为眼部区域的宽和高得到眼部区域的面积。再者,左眼利用第17-24特征点的中心为左眼区域的中心,右眼利用第25-32特征点的中心为右眼区域的中心。以左眼区域中心为中心基点延伸出眼部区域的面积作为左眼区域,以右眼区域中心为中心基点延伸出眼部区域的面积作为右眼区域,将左眼区域和右眼区域组合得到眼部区域。

(2)根据所述眼部区域的时序关系,对所述眼部区域进行特征提取,得到所述眼部区域的初始特征信息。

需要说明的是,本申请实施例中可以通过特征提取层对眼部区域进行特征提取,得到眼部区域的初始特征信息。当然,在一些实施例中还可以通过其他方式形成的特征提取层得到眼部区域的初始特征信息,在本申请实施中不过多赘述。

其中初始特征信息的提取过程可以是,将眼部区域图像加以全局或者局部的变换,从原始样本中映射到另一个特征空间的过程。也就是,初始特征信息也就是在没有经过其他处理的情况下,通过特征提取层提取后,得到与图像对应的特征信息。

另外的,由于是根据眼部区域的时序进行特征提取,因此,得到多个与图像对应的初始特征信息。

其中,特征提取层可以为卷积层,卷积层主要用于对输入的图像(比如训练样本或需要识别的图像)进行特征提取,其中,卷积核大小可以根据实际应用而定,比如,从第一层卷积层至第四层卷积层的卷积核大小依次可以为(7,7),(5,5),(3,3),(3,3);可选的,为了降低计算的复杂度,提高计算效率,在本实施例中,这四层卷积层的卷积核大小可以都设置为(3,3),激活函数均采用“relu(线性整流函数,rectifiedlinearunit)”,而padding(padding,指属性定义元素边框与元素内容之间的空间)方式均设置为“same”,“same”填充方式可以简单理解为以0填充边缘,左边(上边)补0的个数和右边(下边)补0的个数一样或少一个。可选的,为了进一步减少计算量,还可以在第二至第四层卷积层中的所有层或任意1-2层进行下采样(pooling)操作,该下采样操作与卷积的操作基本相同,只不过下采样的卷积核为只取对应位置的最大值(maxpooling)或平均值(averagepooling)等。

103、根据所述眼部区域的时序关系,将眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息。

需要说明的是,由于眼部区域为具有时序关系,因此眼部区域可以代表一段时间内的连续变化。差值特征信息可以代表眼部区域与前一张眼部区域的变化差异。

可以理解的是,连续的十个眼部图像对应十个初始特征信息,而差值特征信息则对应由九个差值特征信息。

其中,在一些实施例中,所述“根据所述眼部区域的时序关系,将眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息”,具体包括步骤:

(1)将提取的每一张眼部区域的初始特征信息与前一张眼部区域的初始特征信息相减得到的差值特征信息,将所述差值特征信息与相邻初始特征信息融合得到融合深度特征信息。

需要说明的是,差值特征信息为眼部区域的初始特征信息与前一张眼部区域的初始特征信息相减得到的差值特征信息。

比如,按照时序关系分别对应有a、b、c、d、e五张对应眼部区域,五张眼部区域进行特征提取后,得到对应的初始特征信息,也就是a对应a1,b对应b1,c对应c1,d对应d1,e对应e1。差值特征信息也就是b1-a1,c1-b1,d1-c1,e1-d1。

可以理解的,融合深度特征信息为初始特征信息与差值特征信息的组合。比如,在已知差值特征信息b1-a1,c1-b1,d1-c1,e1-d1的情况下,融合深度特征信息为b1-a1+b1,c1-b1+c1,d1-c1+d1,e1-d1+e1。

104、根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系。

需要说明的是,每一个融合深度特征信对应一个眼部行为为预设眼部行为的概率。也就是每一个融合深度特征信息经过检测后得到一个眨眼概率值。由于,融合深度特征信息也具有时序关系,因此,在融合深度特征信息经过检测后得到多个具有时序关系的眨眼概率。

比如,按照时序关系包括1、2、3、4、5帧图像,经过特征提取以后得到4个融合深度特征信息,4个融合深度特征信息经过检测后得到对应的-0.2、0、0.2、0.6等4个眨眼概率值。另外的,眨眼概率值越高代表可能眨眼的可能更高。比如,眼睛微闭代表眨眼概率为0.2,眼睛闭着代表眨眼概率为0.8,眼睛睁开代表眨眼概率为-0.8,皱眉代表眨眼概率为-0.6。

其中,在一些实施例中,所述“根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值”,具体包括步骤:

(1)将所述融合深度特征信息输入长短期记忆网络,得到多个样本隐藏状态。

需要说明的是,长短期记忆网络为lstm网络,lstm网络包括n个cell,每个cell含有多个隐藏层,将融合深度特征信息lstm网络,得到多个样本隐藏状态。

(2)将多个样本隐藏状态按照时序进行融合得到多时序尺度特征。

需要说明的是,按时序将融合深度特征信息输入lstm网络后得到的多个隐藏状态后,将多个隐藏状态融合得到多时序尺度特征。

(3)将所述多时序尺度特征经过分类器得到每一张图像的眼部行为为预设眼部行为的概率值。

需要说明的是,分类器即为全连接分类层。全连接分类层可以将学到的特征映射到样本标记空间,其在整个卷积神经网络中主要起到“分类器”的作用,全连接分类层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连,其中,全连接分类层的一个结点即称为全连接分类层中的一个神经元,全连接分类层中神经元的数量可以根据实际应用的需求而定。

将所述多时序尺度特征经过全连接分类层,得到每一张图像的眼部行为为预设眼部行为的概率值。通过预设眼部行为的概率只可以判断目标对象是否包含眨眼行为。

105、根据所述多个具有时序关系的概率值,生成概率曲线坐标系。

需要说明的是,由于得到概率具有时序关系,因此,可以得到一个时间与概率对应的关系坐标系。使得横向坐标轴为时序,纵向坐标轴作为发生预设眼部行为的概率,将的概率值连接成一条概率曲线。为了更好的说明本申请申请实施例,请参阅图1d。

其中,将概率曲线可以通过时间序列曲线的平均趋势,确定合适的滤波参数,用多项式实现滑动窗内的最小二乘拟合,利用savitzky-golay滤波方法(基于最小二乘的卷积拟合算法)进行迭代运算,模拟整个待处理时序图像获得长期变化趋势,得到滤波后的概率曲线。

需要说明的是,本申请实施例中还可以通过其他方式对概率曲线进行滤波处理。通过滤波处理后可以使得预测发生预设眼部行为是否存在的准确性更高。

106、根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。

需要说明的是,概率曲线坐标系包括了时间为横轴,概率值为竖轴的坐标系,坐标系中具有一条由概率值对应时间形成的概率曲线。可以理解的是,预设眼部行为可以为眨眼行为。

其中,概率值可以确定目标对象是否发生了眨眼行为,比如,若眨眼概率大于零时,则确定目标对象可能存在眨眼行为,若眨眼概率小于零时,则确定目标对象可能不存在眨眼行为。

其中,在一些实施例中,所述“根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为”,具体包括步骤:

(1)根据多个具有时序关系的概率值生成概率曲线坐标系,其中,所述概率曲线坐标系的横轴为时间轴,竖轴为概率值。

需要说明的是,概率曲线坐标系包括了时间为横轴,概率值为竖轴的坐标系,坐标系中具有一条由概率值对应时间形成的概率曲线。可以理解的是,预设眼部行为可以为眨眼行为。

(2)基于所述概率曲线坐标系,确目标对象是否存在预设眼部行为。

其中,概率值可以确定目标对象是否发生了眨眼行为。比如,我们可以通过概率值的大小来确定发生眨眼概率的大小。比如,眨眼概率值越高代表可能眨眼的可能更高。比如,眼睛微闭代表眨眼概率为0.2,眼睛闭着代表眨眼概率为0.8,眼睛睁开代表眨眼概率为-0.8,皱眉代表眨眼概率为-0.6。

其中,我们判断是否发生了眨眼行为,可以截取一段时间对应的概率值曲线,其中,该段概率值曲线中如果最大概率值超过了0.6,且该段概率值曲线大于0的数量具有3个,那么则判断目标对象具有眨眼行为。本申请通过这种方式,能够避免姿态,环境光,拍摄角度,人物眼睛大小等因素产生的类似眨眼行为,通过一端时间的多个概率值综合判断,从而能够更加准确的提高眨眼行为的判断。

其中,在一些实施例中,所述“所述基于所述概率曲线,确目标对象是否存在预设眼部行为”,具体包括步骤:

若所述概率曲线坐标系中的参数点大于第一预设阈值,且所述参数点与预设区间边界点之间概率值大于零的数量大于第二预设阈值时,确定所述参数点对应的目标对象存在预设眼部行为。

请参阅图1e,其中,第一预设阈值可以通过设定。比如第一阈值阈值为0.6、0.8等。其中,0.6可以代表眼睛几乎闭着。0.8可以代表眼睛完全闭着。只有当检测到眼部行为动作闭着才能确定眼睛可能存在眨眼的行为。第二预设阈值可以包括2个、3个甚至多个。本申请实施例中,对第二预设阈值的具体数量不做限定。另外的,预设区间从睁开到闭着之间的过程。所述参数点与预设区间边界点之间概率值大于零的数量大于第二预设阈值,也就是,需要通过该条件确定眼部行为是发生了变化的。只有满足以上两个条件才能确定在参数点发生了眨眼行为。这样避免了因为眼睛一直闭着或者被遮挡而误认判为眼部存在预设眼部行为动作。同时,也避免了眼睛只是微闭或者人物眼睛过小误判为眼部存在预设眼部行为动作。

请参阅图1f,其中,本申请实施例还包括:

1.1在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像;包括:采用多时序尺度模型的获取层获取得到目标对象的图像序列。

1.2对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息;包括:采用多时序尺度模型的特征提取层对每张图像的眼部区域进行特征提取;

例如,将眼部区域输入多时序尺度模型中的特征提取层,将眼部区域的初始特征信息提取出来。其中,眼部区域为眼部区域的图像,眼部区域的图像可包括闭眼、眯着眼、睁开眼等。初始特征信息与眼部区域的图像对应。

1.3根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息;包括:采用多时序尺度模型的长短期记忆网络层将所述眼部区域的初始特征信息和差值特征信息融合。

例如,将眼部区域的初始特征信息和差值特征信息输入到多时序尺度模型的长短期记忆网络层得到多个具有时序关系的融合深度特征信息。

1.4根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,包括:采用多时序尺度模型的权连接分类层根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值。

例如,将融合深度特征信息输入多时序尺度模型中检测目标对象是否存在预设眼部行为,并输出检测结果。

需要说明的是,上述实施例方法不限于在多时序尺度模型中使用。还可以不需要在其他模型中使用。

步骤“所述多时序尺度模型的训练”,具体可以包括:

2.1获取层在目标视频的视频帧上滑动时间窗口,得到目标对象的样本图像序列,所述样本图像序列包括多张具有时序关系的样本图像。

2.2对每张样本图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的样本初始特征信息。

2.3根据所述眼部区域的时序关系,将所述眼部区域的样本初始特征信息和差值特征信息融合,得到多个具有时序关系的样本融合深度特征信息。

2.4根据多个具有时序关系的样本融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的样本概率值,其中,多个样本概率值具有时序关系。

2.5对所述样本概率值和与预设眼部行为标注值进行收敛,并返回执行采用多时序尺度模型的获取层在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列的步骤,直到所述多时序尺度模型训练完毕。

其中,本申请实施例在未分割的视频片段中通过滑动时间窗,获得目标对象的图像序列作为端对端训练模型(end-to-endtraining)的训练样本。将样本图像序列进行特征提取,得到眼部区域的初始特征信息,将眼部区域的的初始特征信息和差值特征信息融合,得到多个具有时序关系的样本融合深度特征信息。深度融合信息可以作为输入数据,输入数据输入到隐藏层中,得到发生预设眼部行为的预估的概率值。其中,预估的概率值与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的标注值才结束,中间所有的操作都包含在神经网络内部,不再分成多个模块处理。由输入数据输入,到结果输出,从输入端到输出端,中间的神经网络自成一体,这说明本申请多尺度时序模型的训练是模型端到端训练模型。端到端的训练方式使得整个训练流程更具整体性及针对性,在对样本图像序列进行特征提取前,不需要对样本图像序列做特征标注,是否为预设眼部行为的判断优化可以直接反馈到特征学习的监督过程,使学习到的特征更利于区分是否为预设眼部行为。也就是更好的区分眨眼行为和非眨眼行为。

例如,在样本图像序列中选取多张具有时序关系的样本图像作为当前训练样本,然后,将每张样本图像进行眼部区域检测,得到样本眼部区域,将样本眼部区域输入预设多时序尺度模型中特征提取层得到样本眼部区域的初始特征信息,将样本眼部区域的初始特征信息和差值特征信息输入预设多时序尺度模型中长短期记忆网络层得到多个具有时序关系的样本融合深度特征信息,将多个具有时序关系的样本融合深度特征信息输入预设多时序尺度模型中的全连接分类层得到目标对象的眼部行为为预设眼部行为的样本概率。样本概率确定是否存在预设眼部行为动作。因此需要对样本概率和预设眼部行为标注值进行收敛,得多时序尺度模型。

在一些实施例中的,可以将所述多时序尺度眨眼检测模型输入到损失函数中,并通过预设优化算法对所述多时序尺度眨眼检测模型的参数进行更新,重复迭代得到更新后的多时序尺度眨眼检测模型。另外的,损失函数可以采用a-softmaxloss。预设优化算法可以采用adam算法。当然损失函数和预设优化算法不限于此,本申请实施例中不做过多赘述。

本发明实施例在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像,对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息,根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息,根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,根据所述多个具有时序关系的概率值,生成概率曲线坐标系,根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。本申请实施例中,多时序图像可以描述目标对象可能持续不同时间的眼部行为,融合深度特征信息能够降低低频噪声,采用这种方式检测眼部行为能够准确的检测到眼部行为动作,不容易受到姿态,环境光,拍摄角度,人物眼睛大小等因素影响。

如图2所示,提供了另一种眼部行为检测方法,该眼部行为检测方法可以由电子设备中执行,具体流程可以如下:

201、电子设备获取目标对象的图像序列,其中,目标对象的图像序列通过在目标视频的视频上滑动时间窗口获得,所述图像序列包括多张具有时序关系的图像。

其中,本申请实施例是以微信中的人脸动作活体核身进行用户实名实人认证为实施背景。在进行用户实名实人认证过程中,电子设备的摄像头拍摄用户的视频。通过滑动时间窗口,截取多个视频帧,得到用户的图像序列。图像序列包括多个具有时序关系的图像。

202、电子设备对所述每张图像进行脸部识别,得到多个具有时序关系的脸部区域,确定每一张脸部区域的脸部特征点。

其中,电子设备内安装有脸部识别算法模块,电子设备可以通过脸部识别算法模块对每一张图像进行识别,得到多个具有时序关系的脸部区域,然后,确定每一张脸部区域的脸部特征点。

203、电子设备根据每张脸部区域的脸部特征点确定每张图像眼部区域的中心点和眼部区域的宽和高的特征点。

其中,电子设备将在每张脸部区域中确定好特征点以后,确定每张眼部区域的高度特征点之间的距离和宽度特征点之间的距离。

请再次参阅1c,确定用户左眼第17-24特征点的中心为左眼区域的中心,确定右眼第25-32特征点的中心为右眼区域的中心,确定脸部区域中第6和36之间纵坐标之间间距h的距离,作为眼部区域的宽和高。

204、电子设备基于每张图像眼部区域的中心点和眼部区域的宽和高的特征点,得到多个具有时序关系的眼部区域。

其中,计算每张眼部区域的宽和高的距离后得到眼部区域的面积,然后需要确定眼部区域的中心点,基于眼部区域的中心点和眼部区域的面积范围,提取出多张具有时序关系的眼部区域。

比如,先计算脸部区域中第6和36之间纵坐标之间间距h的距离,作为眼部区域的宽和高得到眼部区域的面积。再者,左眼利用第17-24特征点的中心为左眼区域的中心,右眼利用第25-32特征点的中心为右眼区域的中心。以左眼区域中心为中心基点延伸出眼部区域的面积作为左眼区域,以右眼区域中心为中心基点延伸出眼部区域的面积作为右眼区域,将左眼区域和右眼区域组合得到眼部区域。

205、电子设备根据所述眼部区域的时序关系,对所述眼部区域进行特征提取,得到所述眼部区域的初始特征信息。

其中,电子设备内安装有特征提取模块,特征提取模块对所述眼部区域进行特征提取,得到所述眼部区域的初始特征信息。特征初始特征的提取过程可以是,将眼部区域图像加以全局或者局部的变换,从原始样本中映射到另一个特征空间的过程。也就是,初始特征信息也就是经过特征提取层提取后,与图像对应的特征信息。

206、电子设备将提取的每一张眼部区域的初始特征信息与前一张眼部区域的初始特征信息相减得到的差值特征信息,将所述差值特征信息与相邻初始特征信息融合得到融合深度特征信息。

其中,电子设备中安装有融合模块,融合模块可以将所述差值特征信息与相邻初始特征信息融合得到融合深度特征信息。差值特征信息为眼部区域的初始特征信息与前一张眼部区域的初始特征信息相减得到的差值特征信息。

比如,按照时序关系分别对应有a、b、c、d、e五张对应眼部区域,五张眼部区域进行特征提取后,得到对应的初始特征信息,也就是a对应a1,b对应b1,c对应c1,d对应d1,e对应e1。差值特征信息也就是b1-a1,c1-b1,d1-c1,e1-d1。

可以理解的,融合深度特征信息为初始特征信息与差值特征信息的组合。比如,在已知差值特征信息b1-a1,c1-b1,d1-c1,e1-d1的情况下,融合深度特征信息为b1-a1+b1,c1-b1+c1,d1-c1+d1,e1-d1+e1。

207、电子设根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系。

其中,电子设备中安装有分类模块,每一个融合深度特征信进入分类模块以后,对应得到一个眼部行为为预设眼部行为的概率。其中,预设眼部行为眨眼行为,也就是每一个融合深度特征信息经过检测后得到一个眨眼概率。由于,融合深度特征信息也具有时序关系,因此,在融合深度特征信息经过检测后得到多个具有时序关系的眨眼概率值。

208、电子设备根据所述多个具有时序关系的概率值,生成概率曲线坐标系。

其中,概率曲线坐标系包括了时间为横轴,概率值为竖轴的坐标系,坐标系中具有一条由概率值对应时间形成的概率曲线。可以理解的是,预设眼部行为可以为眨眼行为。

209、电子设备基于所述概率曲线坐标系,确目标对象是否存在预设眼部行为。

其中,在确定概率曲线后,电子设备可以对概率曲线进行分析,若所述概率曲线坐标系中的参数点大于第一预设阈值,且所述参数点与预设区间边界点之间概率值大于零的数量大于第二预设阈值时,确定所述参数点对应的用户存在预设眼部行为。

比如第一阈值阈值为0.6、0.8等。其中,0.6可以代表眼睛几乎闭着。0.8可以代表眼睛完全闭着。只有当检测到眼部行为动作闭着才能确定眼睛可能存在眨眼的行为。第二预设阈值可以包括2个、3个甚至多个。本申请实施例中,对第二预设阈值的具体数量不做限定。另外的,预设区间从睁开到闭着之间的过程。所述参数点与预设区间边界点之间概率值大于零的数量大于第二预设阈值,也就是,需要通过该条件确定眼部行为是发生了变化的。只有满足以上两个条件才能确定在参数点发生了眨眼行为。这样避免了因为眼睛一直闭着或者被遮挡而误认判为眼部存在预设眼部行为动作。同时,也避免了眼睛只是微闭或者人物眼睛过小误判为眼部存在预设眼部行为动作。

电子设备判断用户存在眨眼行为,则可以确定用户通过用户实名实人认证。若电子判断用户不存在眨眼行为,则可以确定用户不通过实名实人认证。

本发明实施例在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像,对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息,根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息,根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,根据所述多个具有时序关系的概率值,生成概率曲线坐标系,根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。本申请实施例中,多时序图像可以描述目标对象可能持续不同时间的眼部行为,融合深度特征信息能够降低低频噪声,采用这种方式检测眼部行为能够准确的检测到眼部行为动作,不容易受到姿态,环境光,拍摄角度,人物眼睛大小等因素影响。

为便于更好的实施本发明实施例提供的眼部行为检测方法,本发明实施例还提供一种基于上述眼部行为检测方法的装置(简称检测装置)。其中名词的含义与上述眼部行为检测方法中相同,具体实现细节可以参考方法实施例中的说明。

请参阅图3,图3本发明实施例提供的眼部行为检测装置的结构示意图,其中该处理装置可以包括获取单元301、提取单元302、融合单元303、计算单元304、生产单元305以及确定单元305,具体可以如下:

获取单元301,用于在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像;

提取单元302,用于对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息;

融合单元303,用于根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息;

计算单元304,用于根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系;

生成单元305,用于根据所述多个具有时序关系的概率值,生成概率曲线坐标系;

确定单元306,用于根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。

可选的,在本发明的一些实施例中,所述确定单元306还包括:

生成子单元,用于根据多个具有时序关系的概率值生成概率曲线坐标系,其中,所述概率曲线坐标系的横轴为时间轴,竖轴为概率值;

确定子单元,用于基于所述概率曲线坐标系,确定目标对象是否存在预设眼部行为。

可选的,在本发明的一些实施例中,所述确定子单元具体还用于:

若所述概率曲线坐标系中的参数点大于第一预设阈值,且所述参数点与预设区间边界点之间概率值大于零的数量大于第二预设阈值时,确定所述参数点对应的目标对象存在预设眼部行为。

可选的,在本发明的一些实施例中,所述提取单元302具体包括:

检测单元,用于对每张图像进行眼部区域检测,得到多个具有时序关系的眼部区域;

提取子单元,用于根据所述眼部区域的时序关系,对所述眼部区域进行特征提取,得到多个具有时序关系眼部区域的初始特征信息。

可选的,在本发明的一些实施例中,所述提取单元302具体用于:

对每张图像进行脸部识别,得到多个具有时序关系的脸部区域,确定每一张脸部区域的脸部特征点;

根据每张脸部区域的脸部特征点确定每张图像眼部区域的中心点和眼部区域的宽和高的特征点;

基于每张图像眼部区域的中心点和眼部区域的宽和高的特征点,得到多个具有时序关系的眼部区域。

可选的,在本发明的一些实施例中,所述计算单元304具体用于:

将多个具有时序关系的融合深度特征信息输入长短期记忆网络,得到多个样本隐藏状态;

将多个样本隐藏状态按照时序进行融合得到多时序尺度特征;

将所述多时序尺度特征经过分类器得到每一张图像的眼部行为为预设眼部行为的概率值。

可选的,在本发明的一些实施例中,所述融合单元303具体用于:

将提取的每一张眼部区域的初始特征信息与前一张眼部区域的初始特征信息相减得到的差值特征信息,将所述差值特征信息与相邻初始特征信息融合得到融合深度特征信息。

可选的,在本发明的一些实施例中,还包括处理单元,所述处理单元具体还用于:

在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像;包括:采用多时序尺度模型的获取层获取得到目标对象的图像序列;

对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息;包括:采用多时序尺度模型的特征提取层对每张图像的眼部区域进行特征提取;

根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息;包括:采用多时序尺度模型的长短期记忆网络层将所述眼部区域的初始特征信息和差值特征信息融合;

根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,包括:采用多时序尺度模型的权连接分类层根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值。

可选的,在本发明的一些实施例中,所述装置还包括训练单元,所述训练单元具体用于:

在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像;包括:采用多时序尺度模型的获取层获取得到目标对象的图像序列;

对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息;包括:采用多时序尺度模型的特征提取层对每张图像的眼部区域进行特征提取;

根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息;包括:采用多时序尺度模型的长短期记忆网络层将所述眼部区域的初始特征信息和差值特征信息融合;

根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,包括:采用多时序尺度模型的权连接分类层根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值。

具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。

本发明实施例提供的一种眼部行为检测装置,包括获取单元301、提取单元302、融合单元303、计算单元304、生产单元305以及确定单元305,本发明实施例获取单元301用于在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像,提取单元302用于对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息,融合单元303用于根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息,计算单元304用于根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,生成单元305,用于根据所述多个具有时序关系的概率值,生成概率曲线坐标系,确定单元306用于根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。本申请实施例中,多时序图像可以描述目标对象可能持续不同时间的眼部行为,融合深度特征信息能够降低低频噪声,采用这种方式检测眼部行为能够准确的检测到眼部行为动作,不容易受到姿态,环境光,拍摄角度,人物眼睛大小等因素影响。

相应的,本发明实施例还提供一种终端,如图4所示,该终端可以包括射频(rf,radiofrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(wifi,wirelessfidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图4中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

rf电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,rf电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(sim,subscriberidentitymodule)卡、收发信机、耦合器、低噪声放大器(lna,lownoiseamplifier)、双工器等。此外,rf电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(gsm,globalsystemofmobilecommunication)、通用分组无线服务(gprs,generalpacketradioservice)、码分多址(cdma,codedivisionmultipleaccess)、宽带码分多址(wcdma,widebandcodedivisionmultipleaccess)、长期演进(lte,longtermevolution)、电子邮件、短消息服务(sms,shortmessagingservice)等。

存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(lcd,liquidcrystaldisplay)、有机发光二极管(oled,organiclight-emittingdiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路606、扬声器,传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经rf电路601以发送给比如另一终端,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与终端的通信。

wifi属于短距离无线传输技术,终端通过wifi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了wifi模块607,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能:

本发明实施例在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像,对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息,根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息,根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,根据所述多个具有时序关系的概率值,生成概率曲线坐标系,根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。

本发明实施例在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像,对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息,根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息,根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,根据所述多个具有时序关系的概率值,生成概率曲线坐标系,根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。本申请实施例中,多时序图像可以描述目标对象可能持续不同时间的眼部行为,融合深度特征信息能够降低低频噪声,采用这种方式检测眼部行为能够准确的检测到眼部行为动作,不容易受到姿态,环境光,拍摄角度,人物眼睛大小等因素影响。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种眼部行为检测方法中的步骤。例如,该指令可以执行如下步骤:

本发明实施例在目标视频的视频帧上滑动时间窗口,得到目标对象的图像序列,所述图像序列包括多张具有时序关系的图像,对每张图像的眼部区域进行特征提取,得到多个具有时序关系的眼部区域的初始特征信息,根据所述眼部区域的时序关系,将所述眼部区域的初始特征信息和差值特征信息融合,得到多个具有时序关系的融合深度特征信息,根据多个具有时序关系的融合深度特征信息,得到每一张图像的眼部行为为预设眼部行为的概率值,其中,多个概率值具有时序关系,根据所述多个具有时序关系的概率值,生成概率曲线坐标系,根据所述概率曲线坐标系,对目标对象的眼部行为进行分析,确定目标对象是否存在预设眼部行为。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种眼部行为检测方法中的步骤,因此,可以实现本发明实施例所提供的任一种图像处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本发明实施例所提供的一种眼部行为检测方法、装置以及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1