基于脸部实时监控检测人脸对称性及异常方法与流程

文档序号:12471064阅读:1131来源:国知局
基于脸部实时监控检测人脸对称性及异常方法与流程

本发明涉及图像识别技术领域,具体地,涉及一种基于脸部实时监控检测人脸对称性及异常方法。



背景技术:

近年来,人脸和面部表情识别已经吸引了越来越多科研人员的注意。人脸检测是指在视频序列或图像中寻找所有人脸信息,并确定人脸大小、位置、运动轨迹、姿态,进一步对人脸上的眼睛、嘴唇等特征进行提取的过程。人脸检测和识别是模式识别领域中的经典问题。它设计图像处理、模式识别、生理学等领域的知识和技术,研究起源于19世纪法国科学家Alton的工作,随着计算机科学的发展,九十年代后人脸检测逐渐成为研究的焦点。近年来,人脸检测识别技术逐渐成为最具潜力的身份验证手段,在电子商务,医疗,跟踪领域它的实际应用价值日渐突出。

颜面部不对称在正常人群中发生率较高。发生率约为21%~85%。不对称程度较轻者可能不会被发觉,甚至可以出现在一些具有吸引力的颜面部或者正常的颅面复合体。颜面不对称的原因很多,一般可分为先天性疾病、生长发育性问题以及获得性病损3个方面。其中,就获得性病损而言,颜面部不对称可能由髁突增生、面部肌肉萎缩、下颌关节僵硬、面部创伤或面部肿瘤引起。此外,面部不对称还很有可能是中风和面瘫的信号。中风病人前期常常有脸部不对称、脸部麻木、说话困难、无法发笑等症状,这时患者应当尽早就医,避免疾病对患者机体造成永久不可恢复的损伤。因此,针对面部不对称的人脸检测算法对于某些疾病的早期的检测具有重大意义。

目前人脸检测的算法很多,一般分为以下四类:

1)基于知识的算法,通过先验知识把典型人脸的知识进行编码。一般来说,先验知识包括人脸特征之间的相互关系,这种算法的主要应用集中在人脸定位领域。

2)基于模版匹配的算法,该方法先存储一张人脸的若干标准模版来描述部分或者整张人脸的特性,再通过计算输入的图像与已有的模版之间的相关度来进行检测。

3)基于特征的算法,这类算法主要用来进行人脸定位,目的是要找出一些结构特征,这些特征在光照条件、姿势、观察点改变的情况下保持不变;然后使用这些特性来定位人脸。

4)基于外观的算法。这类算法与模版匹配不同的是,模版是从一组训练图像中经过学习得来的,这些图像应该包含具有代表性的人脸外观变化因素,此类方法主要用来进行人脸检测。

根据我们目前的调研结果,目前学术界尚未有专门针对面部不对称设计的人脸检测算法。

可穿戴智能设备是指可以穿在身上,或是整合到用户的衣服或配件的便携式电子设备。2012年因谷歌眼镜的亮相,被称作“可穿戴智能设备元年”。智能可穿戴设备作为智能终端产业的新热点已被市场广泛认同。各路企业纷纷进军智能可穿戴设备研发,争取在新一轮技术革命中争一席之地。可穿戴智能设备的产品形态包括以手腕为支撑的Watch类(包括手表和腕带等产品),以脚为支撑的Shoes类(包括鞋、袜子或者将来的其他腿上佩戴产品),以头面部为支撑的Glasses类(包括眼镜、头盔、头带等),以及智能服装、书包、拐杖、配饰等各类非主流产品形态。

随着人们对自身健康的日益重视,可穿戴便携医疗设备的市场将不断扩大。而基于可穿戴设备的人脸检测算法必定会收到越来越高的重视。这些设备将成为未来人类医疗体系的前哨战。

鉴于目前科学有效的人脸对称性及异常检测算法较少,本发明利用基于深度卷积神经网络的计算机视觉算法,大大提升人脸对称性及异常检测的准确率,稳定性以及普适性。此外,本文提出的算法可以高效的移植到市场上各类可穿戴设备上,具有广泛的应用前景。



技术实现要素:

针对现有技术中的缺陷,本发明的目的是提供一种基于脸部实时监控检测人脸对称性及异常方法。

根据本发明提供的基于脸部实时监控检测人脸对称性及异常方法,包括如下步骤:

训练阶段步骤:建立深度卷积神经网络模型,根据采集的用户脸部主要部位图像数据优化深度卷积神经网络模型中网络层的权重参数,并根据用户给定的图像数据决定出最优分类策略;

测试阶段步骤:实时监控用户脸部活动,采集用户脸部主要部位图像数据,通过深度卷积神经网络模型处理用户脸部主要部位图像,提取深度卷积特征;解决基于深度卷积特征的二分类问题,对用户脸部主要部位分别进行状态识别后对该主要部位进行实时对称性检测与异常检测;记录用户眼部状态时间序列,实时调整监控摄像头的采样频率。

优选地,所述训练阶段步骤包括:

步骤A:采集不同用户处于不同光照条件下的脸部主要部位图像数据;主要部位包括以下几个:眼睛、鼻唇沟以及嘴部;

步骤B:建立深度卷积神经网络模型,根据采集的图像数据进行训练,调整、优化深度卷积神经网络各网络层权重参数;

步骤C:根据获得的具体图像数据及光照数据生成对应概率向量,根据用户给定的图像数据决定出最优分类策略。

优选地,所述测试阶段步骤包括:

步骤1:通过可穿戴式前置监控摄像头实时监控用户脸部活动,并传输用户脸部主要部位图像数据至服务器;其中,主要部位包括以下几个:眼睛、鼻唇沟以及嘴部;

步骤2:建立卷积神经网络模型,提取用户脸部主要部位图像数据的深度卷积特征;

步骤3:根据提取的深度卷积特征,建立并解决基于深度卷积特征的二分类问题,对用户脸部主要部位图像分别进行状态识别,得到状态识别结果数据;

步骤4:根据状态识别结果数据进行数据平滑、排除异常数据点操作,并对用户脸部主要部位图像分别进行实时对称性检测与异常检测,得到检测结果;

步骤5:输出检测结果,并记录用户眼部状态时间序列,根据眼部状态时间序列实时调整可穿戴式前置监控摄像头的采样频率。

优选地,所述步骤2包括:利用深度学习及深度卷积神经网络的方法在服务器内建立卷积神经网络模型,将可穿戴式前置监控摄像头的实时监控图像数据输入深度卷积神经模型中,提取出提取人脸眼部图像、鼻唇沟图像、嘴部图像的深度卷积特征。

优选地,所述步骤3包括:根据提取出的用户脸部主要部位的深度卷积特征,建立并解决基于深度卷积特征决定待检测部位是否出现不对称的二分类问题,识别出人脸眼部、鼻唇沟、嘴部是否对称的二分类状态,并形成状态时间序列。

优选地,所述步骤4包括:根据人脸眼部图像、鼻唇沟图像、嘴部图像状态时间序列,或瞬时状态,进行数据平滑、排除异常数据点操作,并检测用户左右脸相似度,判断人脸部对称性,根据状态时间序列及对称性结果,检测出用户脸部出现不对称的异常状态。

优选地,所述步骤5包括:根据眼部状态时间序列,计算设定时间单位内用户的眨眼频率,动态调整前置监控摄像头图像数据采样频率,使采样频率与眨眼频率保持一致。

优选地,所述深度卷积神经网络模型能够根据前置摄像头所传入不同用户、不同光照条件的图像数据进行实时调整,且包括日间模式与夜间模式。

与现有技术相比,本发明具有如下的有益效果:

1、本发明使用深度卷积神经网络在不同光照、不同用户的条件下有效并精确地实现了人脸对称性及异常的实时检测,并且具有较高的稳定性与普适性。

2、本发明实现了摄像头采样频率根据人眼时间序列的实时调整,节省了系统计算量与能源使用成本,可简易高效地移植至各类可穿戴设备。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明提供的基于脸部实时监控检测人脸对称性及异常方法的流程图;

图2为本发明所采用的深度卷积神经网络模型基本结构。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的基于脸部实时监控检测人脸对称性及异常方法,包括训练阶段和测试阶段;其中

训练阶段包括:

步骤A:服务器采集不同用户处于不同光照条件下的脸部主要部位图像数据;

步骤B:服务器建立深度卷积神经网络模型,根据采集的图像数据进行训练,调整、优化深度卷积神经网络各网络层权重参数;

步骤C:服务器根据获得的具体图像数据及光照数据生成对应概率向量,根据用户给定的图像数据决定出最优分类策略;

测试阶段包括:

步骤1:可穿戴式前置监控摄像头实时监控用户脸部活动,并传输脸部图像数据至服务器;

步骤2:服务器利用深度学习及深度卷积神经网络的方法建立卷积神经网络模型,处理人脸眼部、鼻唇沟、嘴部图像,提取深度卷积特征;

步骤3:服务器根据提取的深度卷积特征,建立并解决基于深度卷积特征的二分类问题,对人脸三个部位分别进行状态识别;

步骤4:根据状态识别结果数据,服务器对其进行数据平滑、排除异常数据点操作,并对人脸三部分分别进行实时对称性检测与异常检测;

步骤5:服务器将用户所需结果数据传回,检测用户脸部对称性与异常的同时,服务器记录用户眼部状态时间序列,根据眼部状态时间序列实时调整监控摄像头的采样频率。

具体地,通过实施例来说明本发明中的方法

实施例一:

日常室内环境,室内光照强度范围约为10lx~100lx,30万像素微型USB摄像头模组作为前置监控摄像头通过可穿戴设备安装于用户脸部前方,摄像头工作像素为640*480,最大帧率为30fps,配有红外灯模组,可根据控制信号切换模式;摄像头通过USB接口连接至服务器;所述服务器使用NanoPi2平台搭建,核心为ARM9芯片,CPU工作频率1.4GHz,带有1G内存,搭载Linux系统,启动及系统挂载安装于32G TF卡中;所述NanoPi2平台作为可移动微型服务器,可通过USB接口、无线网卡或蓝牙向外通信。

本实例具体步骤包括训练阶段及测试阶段,训练阶段过程如下:

1)服务器采集不同用户处于不同光照条件下的脸部主要部位图像数据;

前置监控摄像头采集多名用户在不同光照条件下的脸部图像数据进行训练,根据场景的不同共采集6种光照条件下的脸部图像数据,6种光照条件所对应的光照强度分别为:小于10lx、10lx、20lx、50lx、100lx、大于1500lx,分别对应夜间、室内阴暗处、阴天室内、正常照明条件室内、晴天室内以及室外这六种常见场景,其中,小于10lx以及10lx光照条件下图像数据使用红外摄像头采集,其余情况使用常用日间摄像头采集。每组人脸图像数据由根据眼部睁闭状态、鼻唇沟出现情况、嘴部张闭状态区分的六个部分组成。共采集26000组日间人脸图像以及7750组夜间人脸图像。

2)服务器建立深度卷积神经网络模型进行训练;

根据日间及夜间数据服务器各训练两个深度卷积神经网络模型。

图2中为所采用的深度卷积神经网络模型基本结构,该深度卷积神经网络有三层卷积层与三层池化层,以及一层全连接层组成。输入图像为40*40人脸眼部、鼻唇沟或嘴部图像,每层卷积层对上一层输入特征图像进行线性卷积计算,并采用特定非线性算子提取卷积特征,形成特征热图作为下一层的输入,具体特征提取过程可按如下公式表示:

Fk=σ(Wk×xij+bk)

式中,Fk为第k层的输出特征热图,σ为特定非线性算子,Wk为第k层卷积层的权重矩阵,xij为第k-1层输入特征图第i行第j列的数值,bk为第k层的偏置值。

每层卷积层后有池化层对卷积层输出特征热图进行降维处理,减小计算复杂度。同时在池化层与对应卷积层之间使用ReLU激活函数保证特征热图的稀疏性,具体方式为:

g(x)ij=max(0,xij)

式中,xij为输入特征热图第i行第j列的数值,g(x)ij为特征热图第i行第j列经过激活函数计算后的数值。

深度卷积神经网络训练过程中,每一层的参数使用随机梯度下降法更新,首先根据每次迭代计算结果计算被训练数据集的损失函数J(θ),θ为需要更新的参数,损失函数J(θ)计算方式如下:

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>-</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>

式中,m为训练集的记录条数,y为类标,hθ(x)为需要拟合的函数,具体计算公式如下:

<mrow> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow>

式中,x为输入数据,j为参数个数。根据每个样本的损失函数,对θ求偏导得到对应梯度,并更新θ:

<mrow> <msubsup> <mi>&theta;</mi> <mi>j</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <mo>+</mo> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>-</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>)</mo> <mo>)</mo> </mrow> <msubsup> <mi>x</mi> <mi>j</mi> <mi>i</mi> </msubsup> </mrow>

式中,θ′j为更新后的参数。根据如上方法使用迭代计算的方式可训练深度卷积神经网络。

3)服务器计算输入数据对应概率向量,训练出最优分类策略;

根据深度卷积神经网络提取出的深度卷积特征热图,在深度卷积神经网络的全连接层后加入了Soft-max层,建立并解决二分类问题。由于本发明中卷积层使用的非线性算子为Sigmoid函数,则输入函数hθ(x)更新为:

<mrow> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

根据新的函数hθ(x),T表示周期,训练模型参数θ以最小化损失函数:

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mi>y</mi> <mi>i</mi> </msup> <mi>log</mi> <mi> </mi> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

根据给定的输入x,Soft-max层中将x分类为类别j的概率计算方法如下:

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>=</mo> <mi>j</mi> <mo>|</mo> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mi>j</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mi>i</mi> </msup> </mrow> </msup> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&theta;</mi> <mi>l</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mi>i</mi> </msup> </mrow> </msup> </mrow> </mfrac> </mrow>

根据概率函数,Soft-max层的输入为输入图像数据的概率向量,根据概率向量中的最大值,可计算得到输入图像数据的类标,解决二分类问题。同时根据概率向量,深度卷积神经网络进一步更新参数,优化网络,得到最优分类策略。

当用户开始使用对称性及异常检测时,系统进入测试阶段,测试阶段步骤如下:

步骤1:监控摄像头实时监控用户脸部活动,并上传图像数据至服务器;

监控摄像头在监控用户脸部活动的同时,监控周围光照条件,当光照强度小于15lx时,摄像头开启红外摄像模式,获取红外图像数据;当光照强度大于15lx时,则使用日间摄像头捕捉实时图像数据。

步骤2:服务器利用深度卷积神经网络提取脸部三部分图像特征;

得到监控摄像头监控图像数据后,将图像数据输入模型选择器,日间图像使用日间深度卷积神经网络处理,夜间红外图像使用夜间深度卷积神经网络处理。

步骤3:服务器建立并解决基于深度卷积特征的二分类问题,识别各部位状态;

步骤4:服务器根据二分类问题结果检测脸部对称性及异常,并生成眼部状态时间序列;

根据眼部、鼻唇沟、嘴部左右两边图像输入深度卷积神经网络的结果,使用滑动窗的方法判断其状态,滑动窗大小经验地取为3,以眼部为例,分别判断左右眼最近3帧图像的状态,通过投票的方式决定其状态。具体地,右眼最近的三帧图像结果为“睁、闭、睁”,则该时刻右眼的状态为“睁”,同样的判断左眼状态,若左右眼的同一时刻的状态不相同,则判断为异常。根据眼部、鼻唇沟、嘴部分别的状态判断,检测脸部的对称性与异常。同时,服务器记录左右两眼的状态并形成眼部状态时间序列。

步骤5:服务器返回检测结果至用户,同时根据眼部状态时间序列实时调整图像采样频率;

脸部各部分检测结果返回至用户处用于可穿戴设备的进一步处理。同时,根据已保存的眼部状态时间序列,服务器实时调整摄像头图像采样频率。具体地,根据所用摄像头的30fps最大帧率,以及人眨眼间隔约为2至8秒,眨眼时闭眼时间约为0.2至0.4秒,设定图像采样频率上下限,上限为30Hz,下限为20Hz。定义采样间隔τs

τs=BL+(BU-BL)r

式中,BL为最小采样时间间隔0.033秒,BU为最大采样时间间隔0.05秒,r为范围0至1的特定参数。我们将眼部状态时间序列中,连续的睁状态或闭状态看作同一状态点,则定义眨眼间隔τb为某闭状态前后最近两睁状态之间的时间间距。同时计算某一时刻点前2×M个采样区间的平均眨眼间隔时间,M为正整数。特别的,标记前M个采样区间内的平均眨眼间隔时间为后M个采样区间内的平均眨眼间隔时间为设置阈值τT,比较与并根据比较结果定义三种频率事件:

1)前进事件:若则表明眨眼频率增速大于阈值;

2)后退事件:若则表明眨眼频率减速大于阈值;

3)稳定事件:若则表明眨眼频率趋于稳定;

根据这三种事件,更新采样间隔τs中的特定参数r以改变采样频率。若出现前进事件,用以下方式更新r:

<mrow> <mi>r</mi> <mo>=</mo> <mover> <mi>r</mi> <mo>^</mo> </mover> <mo>-</mo> <msub> <mi>&alpha;</mi> <mi>D</mi> </msub> <mover> <mi>r</mi> <mo>^</mo> </mover> </mrow>

式中,为前一帧操作所得r,αD为范围0至1的常数。若出现后退事件,则用以下方法计算:

<mrow> <mi>r</mi> <mo>=</mo> <mover> <mi>r</mi> <mo>^</mo> </mover> <mo>+</mo> <msub> <mi>&alpha;</mi> <mi>I</mi> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mover> <mi>r</mi> <mo>^</mo> </mover> <mo>)</mo> </mrow> </mrow>

式中,αI为范围0至1的常数。根据如上更新方式,当r较小时,r的增加速度较快、减小速度较慢;当r较大时,r的增加速度较慢、减小速度较快,使得采样频率可实时合理调整。当出现稳定事件时,r不改变。服务器将更新后的采样频率返回至监控摄像头,在下一帧采样时使用。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1