一种头部照片分析方法、系统和设备与流程

文档序号:20371130发布日期:2020-04-14 13:11阅读:147来源:国知局
一种头部照片分析方法、系统和设备与流程

【技术领域】

本发明涉及计算机技术领域,特别涉及一种头部照片分析方法、系统和设备。



背景技术:

目前基于计算机视觉的深度学习算法应用越来越多,常见的有人脸识别、人证(人脸和身份证照片)比对、年龄性别分析、表情分析等等,这些算法在我们日常生活中开始有越来越多的实际应用场景,目前遇到的一个普遍问题是这些算法在公开数据集的高质量图片上测试可以得到非常优异的表现,但是在实际使用的时候由于各种不同型号的摄像头以及各种不同的拍摄场景,真实场景下所获取的图片质量参差不齐,常见的问题如失焦,运动模糊,佩戴帽子口罩眼镜等遮挡问题,在这种情况下拍到的照片如果直接用于进行人脸识别、人证比对以及年龄性别表情分析等算法使用,会导致算法在真实场景下的表现大幅度降低,甚至到不可使用的状态。



技术实现要素:

本发明要解决的技术问题,在于提供一种头部照片分析方法、系统和设备,能有效快速准确的检测各种媒体介质内头部照片的帽子、口罩、近视眼镜、墨镜及模糊度,通过合适的阈值选取判定,将质量差的数据过滤掉,得到高质量的人脸头部数据用于后续的比对、识别和特征分析等算法,可让人脸识别、人脸比对和属性分析等算法得到更加准确的结果。

第一方面,本发明提供了一种头部照片分析方法,包括:

步骤1、提取单张图片;

步骤2、通过mtcnn人脸检测模型对单张图片进行人脸检测,获取人脸框位置;之后从人脸框位置截取获得人脸图片;

步骤3、通过训练好的分析头部遮挡和模糊度的神经网络模型对截取后的人脸图片进行帽子、口罩、近视眼镜、墨镜及模糊度分析,获得照片内帽子、口罩、近视眼镜、墨镜的置信度及照片模糊度的回归值;

步骤4、根据比神经网络模型预测输出的结果与设定的阈值比较,若符合,则所述单张照片为高质量图片;若不符合,则所述单张照片为低质量图片。

进一步地,所述步骤1进一步具体为:获取各种媒体介质内图片或/和视频数据,从中提取单张图片。

进一步地,所述步骤2进一步具体为:

通过mtcnn神经网络模型对单张图片进行人脸框检测,获取人脸框位置;其中,人脸框位置包括人脸框的左上角顶点的坐标和人脸框右下角顶点的坐标;

根据人脸框位置,以人脸框下边中点作为扩增的基准点,分别计算基准点到图片最左边的距离d_l,基准点到图右边的距离d_r,基准点到图上边缘的距离d_u,以及人脸框底边边长l的l.5倍做基础扩增系数,取d_min为d_l、d_r、0.5*d_u、1.5*l中的最小值,则d_min为扩增后的正方形边框边长,以原始人脸框的下边缘中心为扩增后的正方形人脸框的下边缘中心,以d_min为边长,计算扩增后的人脸框位置,并以此截取图片,获得标准化的人脸图片。

进一步地,所述步骤3进一步具体为:训练好的分析头部遮挡和模糊度的神经网络模型使用lightcnn作为特征抽取层,使用人脸图片作为输入,经过lightcnn基础网络结构抽取特征后,将抽取的特征输入给全连接层最终输出五个值分别来表示照片中存在帽子、口罩、近视眼镜、墨镜的置信度以及照片模糊度的回归值。

第二方面,本发明提供了一种头部照片分析系统,包括:

提取模块,提取单张图片;

截取模块,通过mtcnn人脸检测模型对单张图片进行人脸检测,获取人脸框位置;之后从人脸框位置截取获得人脸图片;

计算模块,通过训练好的分析头部遮挡和模糊度的神经网络模型对截取后的人脸图片进行帽子、口罩、近视眼镜、墨镜及模糊度分析,获得照片内帽子、口罩、近视眼镜、墨镜的置信度及照片模糊度的回归值;

比较分析模块,根据比神经网络模型预测输出的结果与设定的阈值比较,若符合,则所述单张照片为高质量图片;若不符合,则所述单张照片为低质量图片。

进一步地,所述提取模块进一步具体为:获取各种媒体介质内图片或/和视频数据,从中提取单张图片。

进一步地,所述截取模块进一步具体为:

通过mtcnn神经网络模型对单张图片进行人脸框检测,获取人脸框位置;其中,人脸框位置包括人脸框的左上角顶点的坐标和人脸框右下角顶点的坐标;

根据人脸框位置,以人脸框下边中点作为扩增的基准点,分别计算基准点到图片最左边的距离d_l,基准点到图右边的距离d_r,基准点到图上边缘的距离d_u,以及人脸框底边边长l的l.5倍做基础扩增系数,取d_min为d_l、d_r、0.5*d_u、1.5*l中的最小值,则d_min为扩增后的正方形边框边长,以原始人脸框的下边缘中心为扩增后的正方形人脸框的下边缘中心,以d_min为边长,计算扩增后的人脸框位置,并以此截取图片,获得标准化的人脸图片。

进一步地,所述计算模块进一步具体为:训练好的分析头部遮挡和模糊度的神经网络模型使用lightcnn作为特征抽取层,使用人脸图片作为输入,经过lightcnn基础网络结构抽取特征后,将抽取的特征输入给全连接层最终输出五个值分别来表示照片中存在帽子、口罩、近视眼镜、墨镜的置信度以及照片模糊度的回归值。

第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

(1)本发明一种头部照片分析方法、系统和设备,能快速准确的确定媒体介质内头部照片的帽子、口罩、近视眼镜、墨镜及模糊度信息,能够显著提高一些对照片质量有要求的算法的效果,高质量的数据意味着品质的保证,在本发明的帮助下可以让各个场景进行更好的分析和利用数据;

(2)本发明一种头部照片分析方法、系统和设备,通过mtcnn模型检测到图片中的人脸框位置;对人脸框采用特定方法扩增后截取图片获得标准化的头部图片,能够提高预测头部照片的帽子、口罩、近视眼镜、墨镜和模糊度的神经网络模型对算力的利用率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

【附图说明】

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明实施例一中方法中的流程图;

图2为本发明实施例二中系统的结构示意图;

图3为本发明实施例四中方法流程图。

【具体实施方式】

本申请实施例中的技术方案,总体思路如下:

本发明公开了一种能快速准确的对头部照片进行帽子、口罩、近视眼镜、墨镜及模糊度分析的方法,其通过使用基于深度学习的mtcnn人脸检测算法和对头部照片帽子、口罩、近视眼镜、墨镜及模糊度分析算法对媒体介质进行预测,能够满足一些需要判断头部遮挡以及成像质量的需求场景。本发明能有效快速准确的各种媒体介质内的头部图片预测出其是否含有帽子、口罩、近视眼镜、墨镜属性及图片的模糊程度,以帮助一些对人脸质量有要求的算法、项目或者场景进行头部照片进行质量分析,进而可以更好的分析和利用数据。

本发明一种基于头部照片的帽子、口罩、近视眼镜、墨镜及模糊度分析方法,包括:

获取媒体介质内的数据,从中提取单张图片;

通过mtcnn神经网络模型对单张图片进行人脸检测,获取人脸框位置;根据人脸框位置进行特定方法截取图片,获得标准化的头部照片;

通过训练好的头部照片帽子、口罩、近视眼镜、墨镜及模糊度分析神经网络模型对标准化的头部图片进行帽子、口罩、近视眼镜、墨镜属性及模糊程度进行分析,获得头部照片中帽子、口罩、近视眼镜、墨镜属性的置信度以及模糊度的回归值;

根据模型预测出的头部照片中帽子、口罩、近视眼镜、墨镜属性的置信度以及模糊度的回归值结合适当的阈值,判断四个属性是否存在以模糊程度,然后根据后续的算法及使用的场景来过滤出符合质量要求的图片进行后续作业流程。

实施例一

本实施例提供一种方法,如图1所示,本发明头部照片分析方法,包括:

步骤1、获取各种媒体介质内图片或/和视频数据,从中提取单张图片;

步骤2、通过mtcnn神经网络模型对单张图片进行人脸框检测,获取人脸框位置;其中,人脸框位置包括人脸框的左上角顶点的坐标和人脸框右下角顶点的坐标;

根据人脸框位置,以人脸框下边中点作为扩增的基准点,分别计算基准点到图片最左边的距离d_l,基准点到图右边的距离d_r,基准点到图上边缘的距离d_u,以及人脸框底边边长l的l.5倍做基础扩增系数,取d_min为d_l、d_r、0.5*d_u、1.5*l中的最小值,则d_min为扩增后的正方形边框边长,以原始人脸框的下边缘中心为扩增后的正方形人脸框的下边缘中心,以d_min为边长,计算扩增后的人脸框位置,并以此截取图片,获得标准化的人脸图片;

步骤3、训练好的分析头部遮挡和模糊度的神经网络模型使用lightcnn作为特征抽取层,使用人脸图片作为输入,经过lightcnn基础网络结构抽取特征后,将抽取的特征输入给全连接层最终输出五个值分别来表示照片中存在帽子、口罩、近视眼镜、墨镜的置信度以及照片模糊度的回归值;

步骤4、根据比神经网络模型预测输出的结果与设定的阈值比较,若符合,则所述单张照片为高质量图片;若不符合,则所述单张照片为低质量图片。

基于同一发明构思,本申请还提供了与实施例一中的方法对应的系统,详见实施例二。

实施例二

在本实施例中提供了一种系统,如图2所示,本发明头部照片分析系统,包括:

提取模块,获取各种媒体介质内图片或/和视频数据,从中提取单张图片;

截取模块,通过mtcnn神经网络模型对单张图片进行人脸框检测,获取人脸框位置;其中,人脸框位置包括人脸框的左上角顶点的坐标和人脸框右下角顶点的坐标;

根据人脸框位置,以人脸框下边中点作为扩增的基准点,分别计算基准点到图片最左边的距离d_l,基准点到图右边的距离d_r,基准点到图上边缘的距离d_u,以及人脸框底边边长l的l.5倍做基础扩增系数,取d_min为d_l、d_r、0.5*d_u、1.5*l中的最小值,则d_min为扩增后的正方形边框边长,以原始人脸框的下边缘中心为扩增后的正方形人脸框的下边缘中心,以d_min为边长,计算扩增后的人脸框位置,并以此截取图片,获得标准化的人脸图片;

计算模块,训练好的分析头部遮挡和模糊度的神经网络模型使用lightcnn作为特征抽取层,使用人脸图片作为输入,经过lightcnn基础网络结构抽取特征后,将抽取的特征输入给全连接层最终输出五个值分别来表示照片中存在帽子、口罩、近视眼镜、墨镜的置信度以及照片模糊度的回归值;

比较分析模块,根据比神经网络模型预测输出的结果与设定的阈值比较,若符合,则所述单张照片为高质量图片;若不符合,则所述单张照片为低质量图片。

由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思,本申请提供了实施例一对应的电子设备实施例,详见实施例三。

实施例三

本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。

实施例四

如图3所示,本实施例中,一种基于头部照片的帽子、口罩、近视眼镜、墨镜及模糊度分析方法,具体包括如下步骤:

步骤1,基于头部照片分析帽子、口罩、近视眼镜、墨镜属性以及模糊程度的神经网络模型训练

在训练时使用mtcnn人脸检测模型来进行预测人脸框确定人脸框的位置,具体在实际使用的时候是结合mtcnn人脸检测模型进行图片和视频人脸检测,得到图片中人脸框位置,在得到人脸框的位置后,使用处理工具将图片中的人脸根据mtcnn预测的人脸框进行特定方法剪切。其实施方法为根据人脸框位置,考虑到所要分析的属性(帽子、口罩、近视眼镜、墨镜及照片模糊度)以及mtcnn输出的人脸框位置下边缘基本稳定在人脸的下颏位置,所以我们以人脸框下边中点作为扩增的基准点,考虑到人脸可能实在图片的边缘处,为确保我们在做扩增的方法不超出图像边界,于是分别计算基准点到图片最左边的距离d_l,基准点到图右边的距离d_r,基准点到图上边缘的距离d_u,以及人脸框底边边长l的l.5倍做基础扩增系数,取d_min为d_l,d_r,0.5*d_u,1.5*l中的最小值,则d_min为扩增后的正方形边框边长,可确保扩增后的人脸框位置覆盖面积更大且不会超出图像边缘并且不会导致人脸在图像中占比过小,此时以原始人脸框的下边缘中心为扩增后的正方形人脸框的下边缘中心,以d_min为边长,计算扩增后的人脸框位置,并以此截取图片,获得标准化的人脸图片。然后给到数据标注人员进行标注四个属性(帽子、口罩、近视眼镜和墨镜属性)并得到大量具有帽子、口罩、近视眼镜和墨镜属性标签的清晰的数据,然后使用opencv对清晰图片进行增加高斯模糊来模拟镜头失焦效果,并使用opencv的运动模糊方法对清晰图片增加效果来模拟摄像机拍摄的运动模糊效果,至此,我们训练数据就产生了,接下来将标注好的数据及相对应的帽子、口罩、近视眼镜、墨镜属性及模糊度量化标签送入神经网络模型中进行训练。本神经网络模型(分析帽子、口罩、近视眼镜和墨镜属性及模糊度模型)使用lightcnn作为特征抽取层,使用128pixel*128pixel*3channel的彩色图片作为输入,经过lightcnn基础网络结构抽取特征后,将抽取的特征输入给全连接层最终输出五个[0,1]的值分别来表示照片中存在帽子、口罩、近视眼镜、墨镜的置信度以及照片模糊度的回归值。

我们采用平均绝对误差损失函数l1loss(meanabsolutevalueloss)作为损失函数,其如下:

其中,表示所有预测的结果,y均表示所有真实标签,其中前四个标签的y1,y2,y3,y4∈{0,1},其中0代表本张图片没有这个属性,1代表本张图片有这个属性,第五个标签的y5∈(0,1),表示模糊度的真实标签,表示第个属性的预测值;yi表示第i个属性的真实值,j表示第j个样本,n代表预测的样本总个数。

经过大量训练调参,得到一个能够精确预测头部照片中帽子、口罩、近视眼镜、墨镜属性的置信度以及模糊度的回归值的模型,用于头部照片的帽子、口罩、近视眼镜、墨镜及模糊度分析。

步骤2,获取图片并进行预处理流程

步骤2.1,通过各种场景下的媒体存储介质内获取数据。

步骤2.2,使用mtcnn神经网络模型对各种场景下获取的数据进行人脸检测,得到人脸框位置(x,y,w,h),其中x和y为人脸框的左上角的坐标;w和h为人脸框的宽和高;然后使用opencv库作为工具先读取图片,然后再读取对应这张照片中人脸框的位置,根据人脸框位置采用上述特定的截取方法得到大量标准化的头部图片,以此作为前处理用于后面的帽子、口罩、近视眼镜、墨镜属性及模糊程度分析。

步骤3,使用训练好的神经网络模型进行预测帽子、口罩、近视眼镜、墨镜及模糊度

步骤3.1:使用已经训练好的用于分析头部照片中帽子、口罩、近视眼镜、墨镜以及模糊度神经网络模型对预处理好的头部图片进行预测,得到头部照片中帽子、口罩、近视眼镜、墨镜属性的置信度以及模糊度的回归值,进而用于下一步的属性选择;

步骤3.2:根据预测的头部照片中帽子、口罩、近视眼镜、墨镜属性的置信度以及模糊度的回归值的结果选取策略包括:

1.确定头部照片的帽子、口罩、近视眼镜、墨镜四个属性状态:

根据神经网络模型输出的结果的前四位输出分别表示帽子、口罩、近视眼镜和墨镜这四个属性的置信度,分别采用0.5作为阈值进行确定各个属性是否存在,并以此作为判断结果来确定是否需要滤掉图片,一般来说当头部照片中含有口罩,帽子或者墨镜这三个属性中的任意一个及以上的属性,表示该图片中人脸有相当程度的遮挡,则认为该图片不适合于人脸识别、人脸比对及年龄性别算法的使用。

2.确定头部照片模糊度:

根据神经网络模型输出的结果的第五位结果表示模糊度的回归值,我们根据大量的预测结果及图片效果将[0-0.35)区间设定为清晰,[0.35-0.65)区间设定为轻度模糊,[0.65-1]区间设定为重度模糊,在后续不同的算法可以采用不同的阈值,例如在人脸识别和人证比对算法中,则只取用无遮挡(带近视眼镜是正常的)且模糊度预测结果为清晰的图片来进行算法识别;而在年龄性别算法中,可取用无遮挡的清晰或者轻度模糊的照片来进行预测年龄性别。

步骤4,完成后续其他算法的对接。

本发明能有效快速准确预测出头部照片中帽子、口罩、近视眼镜、墨镜属性及模糊度,根据本发明方法预测输出的结果制定相应策略,可以满足一些高质量数据的需求场景。高质量的数据意味着高质量的产出,进而可以进行更好的数据分析和使用。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1