单人脸检测方法、装置及终端与流程

文档序号:12468258阅读:162来源:国知局
单人脸检测方法、装置及终端与流程

本公开涉及通信领域,特别涉及一种单人脸检测方法、装置及终端。



背景技术:

目前的智能终端提供了各种涉及智能图像处理的功能,例如相机功能等。在智能图像处理中,人脸检测是其中重要的部分,主要用于检测图像中的人脸。

相关技术中,提出了多种人脸检测的方法,例如基于模板匹配的人脸检测方法以及基于深度卷积神经网络的人脸检测方法。其中,基于模板匹配的人脸检测方法检测速度快,但是检测精度不高,在强光、侧脸、有遮挡的情况下,人脸丢失现象严重。基于深度卷积网络的人脸检测方法能够较好的解决人脸丢失的问题,但是运算速度慢,内存占用严重。



技术实现要素:

本公开实施例提供了一种单人脸检测方法、装置及终端,所述技术方案包括:

根据本公开实施例的第一方面,提供一种单人脸检测方法,包括:

接收待检测图像数据,所述待检测图像中包括人脸信息;

将所述待检测图像数据输入到第一卷积神经网络模型中,获取所述第一卷积神经网络模型的输出数据,其中,所述第一卷积神经网络的输出数据为四维坐标数据,所述四维坐标数据用于标识所述待检测图像中的人脸的位置坐标。

本公开实施例提供的技术方案可以包括以下有益效果:

通过特定的第一卷积神经网络模型对待检测图像数据进行处理,从而输出一个四维坐标数据,该四维坐标数据用于标识待检测图像中人脸的位置坐标,即,通过该特定的第一卷积神经网络可以确定出待检测图像中的人脸位置,从而实现了快速并且准确地完成单人脸检测。

进一步地,所述第一卷积神经网络模型包括5个卷积层、5个池化层以及1个全连接层,每个所述卷积层中的卷积核的大小为3*3。

本公开实施例提供的技术方案可以包括以下有益效果:

将全连接层的个数减少为1个,并且将每个卷积层的卷积核的大小设置为3*3,即进行了缩小,通过上述简化所得到的第一卷积神经网络模型占用的内存资源少,运算复杂度低,运算速度快,同时,又能够实现对待检测图像的人脸检测。

进一步地,所述将所述待检测图像数据输入到第一卷积神经网络模型中,获取所述第一卷积神经网络模型的输出数据之前,还包括:

使用第一目标算法训练所述第一卷积神经网络模型,其中,所述第一目标算法用于在每次训练完成后计算训练样本的预测结果与实际训练结果之间的欧式距离。

本公开实施例提供的技术方案可以包括以下有益效果:

通过用于计算训练样本的预测结果与实际训练结果之间的欧式距离的第一目标算法来进行第一卷积神经网络的训练,可以保证每次训练结束后都可以根据预测结果与实际训练结果之间的差异来调整第一卷积神经网络模型的参数,最终保证第一卷积神经网络模型的参数的正确性。

进一步地,还包括:

若第N次训练时,所述第一目标算法的计算结果小于预设阈值,则将第N次训练所对应的第一卷积神经网络模型中的参数作为第一卷积神经网络模型的目标参数,其中,N为大于0的整数。

本公开实施例提供的技术方案可以包括以下有益效果:

在每次训练完成后进行判断,当训练结果满足预设的要求时结束训练,从而保证最终所使用的第一卷积神经网络模型的准确性,进而保证基于第一卷积神经网络模型的单人脸检测结果的正确性。

进一步地,所述第一卷积神经网络模型的第一个卷积层的卷积核个数为16个,第二个卷积层至第5个卷积层的卷积核个数分别为64个。

进一步地,所述四维坐标数据分别表示:所述待检测图像中人脸的左上方坐标、人脸的长度以及人脸的宽度。

根据本公开实施例的第二方面,提供一种单人脸检测装置,包括:

接收模块,被配置为接收待检测图像数据,所述待检测图像中包括人脸信息;

处理模块,被配置为将所述待检测图像数据输入到第一卷积神经网络模型中,获取所述第一卷积神经网络模型的输出数据,其中,所述第一卷积神经网络的输出数据为四维坐标数据,所述四维坐标数据用于标识所述待检测图像中的人脸的位置坐标。

进一步地,所述第一卷积神经网络模型包括5个卷积层、5个池化层以及1个全连接层,每个所述卷积层中的卷积核的大小为3*3。

进一步地,还包括:

训练模块,被配置为使用第一目标算法训练所述第一卷积神经网络模型,其中,所述第一目标算法用于在每次训练完成后计算训练样本的预测结果与实际训练结果之间的欧式距离。

进一步地,还包括:

确定模块,被配置为若第N次训练时,所述第一目标算法的计算结果小于预设阈值,则将第N次训练所对应的第一卷积神经网络模型中的参数作为第一卷积神经网络模型的目标参数,其中,N为大于0的整数。

进一步地,所述第一卷积神经网络模型的第一个卷积层的卷积核个数为16个,第二个卷积层至第5个卷积层的卷积核个数分别为64个。

进一步地,所述四维坐标数据分别表示:所述待检测图像中人脸的左上方坐标、人脸的长度以及人脸的宽度。

根据本公开实施例的第三方面,提供一种终端,所述终端包括:

处理器;

用于存储所述处理器的可执行指令的存储器;

其中,所述处理器被配置为:

接收待检测图像数据,所述待检测图像中包括人脸信息;

将所述待检测图像数据输入到第一卷积神经网络模型中,获取所述第一卷积神经网络模型的输出数据,其中,所述第一卷积神经网络的输出数据为四维坐标数据,所述四维坐标数据用于标识所述待检测图像中的人脸的位置坐标。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种单人脸检测方法的流程示意图;

图2是根据一示例性实施例示出的一种单人脸检测方法的第一卷积神经网络模型的结构示意图;

图3是根据一示例性实施例示出的一种单人脸检测方法的检测示例图;

图4是根据一示例性实施例示出的一种单人脸检测装置的模块结构图;

图5是根据一示例性实施例示出的一种单人脸检测装置的模块结构图;

图6是根据一示例性实施例示出的一种单人脸检测装置的模块结构图;

图7是根据一示例性实施例示出的一种终端的实体的框图;

图8是根据一示例性实施例示出的一种终端1300的框图。

通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种单人脸检测方法的流程示意图,该方法的执行主体为可以进行单人脸检测的终端,例如手机、平板电脑等。如图1所示,该方法包括:

在步骤S101中,接收待检测图像数据,该待检测图像中包括人脸信息。

以用户使用手机中的相机拍摄照片为例,当用户打开手机中的相机,相机就开始捕获前方的画面,从而形成一幅待检测图像,相机将该待检测图像的数据发送到手机的后台处理模块。

在步骤S102中,将待检测图像数据输入到第一卷积神经网络模型中,获取第一卷积神经网络模型的输出数据,其中,第一卷积神经网络的输出数据为四维坐标数据,四维坐标数据用于标识待检测图像中的人脸的位置坐标。

在接收到待检测图像数据之后,终端使用第一卷积神经网络模型对待检测图像数据进行处理。其中,第一卷积神经网络模型是本公开在Alex Net网络模型的基础上提出的一种新的卷积神经网络模型。Alex Net网络模型主要用于解决图片识别的问题,其输出数据为一个N维向量c=[c0,…,cN-1],该N维向量中的每个元素值表示图片的类别是类别i的概率。而在本实施例中,第一卷积神经网络模型的输出数据为四维坐标数据,该四维坐标数据用于标识待检测图像中的人脸的位置坐标。当终端将待检测图像数据输入到第一卷积神经网络模型之后,无需执行其他任何操作,仅通过第一卷积神经网络模型就可自动输出待检测图像中的人脸的位置坐标。

进而,基于上述所获得的人脸的位置坐标,终端可以继续执行人脸识别、人脸显示效果修正等一系列操作,以满足用户的不同需要。

本实施例中,通过特定的第一卷积神经网络模型对待检测图像数据进行处理,从而输出一个四维坐标数据,该四维坐标数据用于标识待检测图像中人脸的位置坐标,即,通过该特定的第一卷积神经网络可以确定出待检测图像中的人脸位置,从而实现了快速并且准确地完成单人脸检测。

在一种优选的实施方式中,上述第一卷积神经网络模型包括5个卷积层、5个池化层以及1个全连接层,每个卷积层中的卷积核的大小为3*3。

图2是根据一示例性实施例示出的一种单人脸检测方法的第一卷积神经网络模型的结构示意图,如图2所示,该第一卷积神经网络模型包括5个卷积层、5个池化层以及1个全连接层,其中,每个卷积层之后都有一个池化层,全连接层位于卷积层和池化层之后。

在该第一卷积神经网络模型中,每个卷积层的卷积核大小为3*3。

而在已有的Alex Net网络模型中,其各卷积层中的卷积核大小分别为11*11、5*5以及3*3,并且,在已有的Alex Net网络模型中,全连接层的数量为3个。因此,已有的Alex Net网络模型庞大、每层处理的复杂度高,因此需要占用较多的内存资源。而手机、平板电脑等终端的内存资源相对紧张,如果在这些终端中直接部署Alex Net网络模型,会导致这些终端的处理能力急剧下降。因此,本实施例中所提出的第一卷积神经网络模型中的结构相对于已有的Alex Net网络模型的结构得到了极大的简化,首先,本实施例中将全连接层的个数减少为1个,其次,本实施例中将每个卷积层的卷积核的大小设置为3*3,即进行了缩小,通过上述简化所得到的第一卷积神经网络模型占用的内存资源少,运算复杂度低,运算速度快,同时,又能够实现对待检测图像的人脸检测。

由于本公开所提出的基于第一卷积神经网络模型的人脸检测方法所占用的内存资源少、运算速度快,因此,特别适用于使用手机、平板电脑等终端进行自拍、秀场直播等只需检测单人脸检测同时硬件性能有限的场景。

进一步地,在一种可选的实施方式中,上述第一卷积神经网络模型的第一个卷积层的卷积核个数为16个,第二个卷积层至第5个卷积层的卷积核个数分别为64个。

以第一个卷积层为例,当接收到输入的待检测图像数据后,第一个卷积层使用16个3*3的卷积核分别对输入的待检测图像数据进行16次卷积操作,从而输出16个经卷积操作之后的输出数据,再经过池化层处理后,再输入到第二个卷积层,第二个卷积层对16个输入数据分别使用64个3*3的卷积核再进行卷积处理,从而输出16*64个经卷积操作之后的输出数据,以此类推,最终由全连接层对多次卷积操作之后的数据进行全连接处理,并输出前述的四维坐标数据。

另一实施例中,上述四维坐标数据分别表示:待检测图像中人脸的左上方坐标、人脸的长度以及人脸的宽度。

以下以图3为示例来进行说明,图3是根据一示例性实施例示出的一种单人脸检测方法的检测示例图,对于图3中所示的待检测图像中的人脸,第一卷积神经网络模型能够输出左上方坐标、人脸长度以及人脸宽度,通过这几个值,就可以形成一个框定人脸的矩形框,该矩形框,从而确定出人脸的位置信息,用于后续的人脸图像处理。

在上述实施例的基础上,本实施例涉及训练第一卷积神经网络的具体方法。即,在上述步骤S102之前,还包括:

使用第一目标算法训练第一卷积神经网络模型,其中,该第一目标算法用于在每次训练完成后计算训练样本的预测结果与实际训练结果之间的欧式距离。

在使用第一卷积神经网络进行单人脸检测之前,需要首先对第一卷积神经网络进行训练,以获取第一卷积神经网络中的各参数值,例如,各卷积层中的卷积核参数。在第一次训练第一卷积神经网络时,首先获取并记录一幅特定检测图像中的人脸位置坐标,即已知人脸位置坐标,进而,设定随机的第一卷积神经网络模型参数值,将已知人脸位置坐标的特定检测图像输入到具有随机参数值的第一卷积神经网络中,获取到输出数据。进而,针对已知的位置坐标,即预测结果与本次训练的输出数据,即实际训练结果,使用本实施例的第一目标算法来计算这两个数值之间的欧式距离,即计算预测结果与实际训练结果之间的差异。根据预测结果与实际训练结果之间的差异,调整第一卷积神经网络模型中的参数值,并基于调整后的参数值继续进行下一轮的训练。

本实施例中,通过用于计算训练样本的预测结果与实际训练结果之间的欧式距离的第一目标算法来进行第一卷积神经网络的训练,可以保证每次训练结束后都可以根据预测结果与实际训练结果之间的差异来调整第一卷积神经网络模型的参数,最终保证第一卷积神经网络模型的参数的正确性。

在上述实施例的基础上,本实施例涉及第一卷积神经网络模型训练结束的处理方法,即,上述方法还包括:

若第N次训练时,所述第一目标算法的计算结果小于预设阈值,则将第N次训练所对应的第一卷积神经网络模型中的参数作为第一卷积神经网络模型的目标参数。

如前所述,在每次训练过程中,都会使用第一目标算法计算预测结果与实际训练结果之间的差异,并根据预测结果与实际训练结果之间的差异调整第一卷积神经网络的参数。本实施例中,在每次训练完成后,都将第一目标算法的计算结果与预设阈值进行比较,如果计算结果小于预设阈值,则可以确定第一卷积神经网络模型的训练结果已经收敛到理想的范围内,因此,就可以停止训练,将本次训练所使用的第一卷积神经网络模型的参数作为第一卷积神经网络模型的目标参数,即最终用于单人脸检测的参数。

本实施例中,在每次训练完成后进行判断,当训练结果满足预设的要求时结束训练,从而保证最终所使用的第一卷积神经网络模型的准确性,进而保证基于第一卷积神经网络模型的单人脸检测结果的正确性。

下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。

图4是根据一示例性实施例示出的一种单人脸检测装置的模块结构图,如图4所示,该装置包括:

接收模块501,被配置为接收待检测图像数据,该待检测图像中包括人脸信息。

处理模块502,被配置为将待检测图像数据输入到第一卷积神经网络模型中,获取第一卷积神经网络模型的输出数据,其中,第一卷积神经网络的输出数据为四维坐标数据,该四维坐标数据用于标识待检测图像中的人脸的位置坐标。

另一实施例中,上述第一卷积神经网络模型包括5个卷积层、5个池化层以及1个全连接层,每个卷积层中的卷积核的大小为3*3。

图5是根据一示例性实施例示出的一种单人脸检测装置的模块结构图,如图5所示,该装置还包括:

训练模块503,被配置为使用第一目标算法训练第一卷积神经网络模型,其中,第一目标算法用于在每次训练完成后计算训练样本的预测结果与实际训练结果之间的欧式距离。

图6是根据一示例性实施例示出的一种单人脸检测装置的模块结构图,如图6所示,该装置还包括:

确定模块504,被配置为若第N次训练时,第一目标算法的计算结果小于预设阈值,则将第N次训练所对应的第一卷积神经网络模型中的参数作为第一卷积神经网络模型的目标参数,其中,N为大于0的整数。

另一实施例中,上述第一卷积神经网络模型的第一个卷积层的卷积核个数为16个,第二个卷积层至第5个卷积层的卷积核个数分别为64个。

另一实施例中,上述四维坐标数据分别表示:待检测图像中人脸的左上方坐标、人脸的长度以及人脸的宽度。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种终端的实体的框图,如图7所示,该终端包括:

存储器91和处理器92。

存储器91用于存储处理器92的可执行指令。

处理器92被配置为:

接收待检测图像数据,所述待检测图像中包括人脸信息;

将所述待检测图像数据输入到第一卷积神经网络模型中,获取所述第一卷积神经网络模型的输出数据,其中,所述第一卷积神经网络的输出数据为四维坐标数据,所述四维坐标数据用于标识所述待检测图像中的人脸的位置坐标。

在上述终端的实施例中,应理解,处理器92可以是中央处理子模块(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,而前述的存储器可以是只读存储器(英文:read-only memory,缩写:ROM)、随机存取存储器(英文:random access memory,简称:RAM)、快闪存储器、硬盘或者固态硬盘。SIM卡也称为用户身份识别卡、智能卡,数字移动电话机必须装上此卡方能使用。即在电脑芯片上存储了数字移动电话客户的信息,加密的密钥以及用户的电话簿等内容。结合本公开实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

图8是根据一示例性实施例示出的一种终端1300的框图。其中,终端1300可以是移动电话,计算机,平板设备,个人数字助理等。

参照图8,终端1300可以包括以下一个或多个组件:处理组件1302,存储器1304,电源组件1306,多媒体组件1308,音频组件1310,输入/输出(I/O)的接口1312,传感器组件1314,以及通信组件1316。

处理组件1302通常控制终端1300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1302可以包括一个或多个处理器1320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1302可以包括一个或多个模块,便于处理组件1302和其他组件之间的交互。例如,处理组件1302可以包括多媒体模块,以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在终端1300的操作。这些数据的示例包括用于在终端1300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件1306为终端1300的各种组件提供电力。电源组件1306可以包括电源管理系统,一个或多个电源,及其他与为终端1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述终端1300和用户之间的提供一个输出接口的触控显示屏。在一些实施例中,触控显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1308包括一个前置摄像头和/或后置摄像头。当终端1300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1310被配置为输出和/或输入音频信号。例如,音频组件1310包括一个麦克风(MIC),当终端1300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中,音频组件1310还包括一个扬声器,用于输出音频信号。

I/O接口1312为处理组件1302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1314包括一个或多个传感器,用于为终端1300提供各个方面的状态评估。例如,传感器组件1314可以检测到终端1300的打开/关闭状态,组件的相对定位,例如所述组件为终端1300的显示器和小键盘,传感器组件1314还可以检测终端1300或终端1300一个组件的位置改变,用户与终端1300接触的存在或不存在,终端1300方位或加速/减速和终端1300的温度变化。传感器组件1314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件1316被配置为便于终端1300和其他设备之间有线或无线方式的通信。终端1300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,终端1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述单人脸检测方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1304,上述指令可由终端1300的处理器1320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端1300的处理器执行时,使得终端1300能够执行一种单人脸检测方法。所述方法包括:

接收待检测图像数据,所述待检测图像中包括人脸信息;

将所述待检测图像数据输入到第一卷积神经网络模型中,获取所述第一卷积神经网络模型的输出数据,其中,所述第一卷积神经网络的输出数据为四维坐标数据,所述四维坐标数据用于标识所述待检测图像中的人脸的位置坐标。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1