一种人脸朝向估计方法、装置、电子设备及存储介质与流程

文档序号：24804515发布日期：2021-04-23 16:32阅读：170来源：国知局

1.本发明涉及人脸图像检测技术领域，尤其涉及一种人脸朝向估计方法、装置、电子设备及非易失性计算机可读存储介质。

背景技术：

2.随着人工智能、机器人相关技术的快速发展，人们对人脸识别的要求也越来越高。人脸朝向估计有着广泛的应用场景，比如人机交互、驾驶员行为分析、3d人脸重建、安全监控等领域，它是人脸研究领域的一个重要组成部分。人脸朝向估计是指给定一张人脸图片，确定该人脸图像中的人脸朝向，即人脸的欧拉角度：偏转角(yaw)、俯仰角(pitch)、滚动角(roll)。
3.专利号为cn110781728a，发明名称为“一种人脸朝向估计方法、装置、电子设备及存储介质”的在先专利公开了一种人脸朝向估计方法，该方法首先根据多个样本人脸图像获取对应的位置图，然后再根据多个位置图对对应的样本人脸图像进行监督训练，确定各样本人脸图像的人脸朝向，最终根据训练结果生成人脸朝向估计网络。
4.现有技术中还公开了一种常见的人脸朝向估计方法，其通过检测人脸图像上眼、鼻、嘴角等关键点在图像中的位置，与3d人脸模板中特征点的三维坐标，建立空间点到图像点的对应关系，再结合相机的焦距等信息，使用pnp(perspective
‑
n
‑
point)方法，求解出人脸在相机坐标中的欧拉角，从而得到人脸的朝向信息。
5.上述现有技术中的人脸朝向估计方法，其虽然在一定程序上能够得到人脸朝向信息，但其至少存在以下几点的缺点：
6.(1)现有技术的方法一在获取到待估计的人脸图像后，将整个人脸图像作为朝向网络的输入，由此造成数据量运算大，不易于在低端移动设备或资源紧张的设备上部署。
7.(2)方法二使用pnp方法建立起人脸关键点位置与人脸朝向的数学映射关系，其最终准确度取决于关键点的检测准确性及3d人脸模板与真实人脸之间的差异；当环境变化或人脸角度较大时，关键点检测难度较大，准确度降低，且容易产生抖动，人脸朝向估计往往有较大跳变，准确度大大降低。

技术实现要素：

8.本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此，本发明提出了一种人脸朝向估计方法，所述方法只使用少量特征向量作为人脸朝向估计算法的输入，计算量少，速度快，准确度可满足一般使用要求，便于在低端移动设备上部署；而且该方法使用神经网络估计人脸朝向，抗干扰能力强。
9.根据本发明的人脸朝向估计方法，所述方法包括以下步骤：
10.获取待检测人脸图像，其中，所述待检测人脸图像包括关键点坐标；
11.提取所述待检测人脸图像的人脸检测框，并对所述关键点坐标进行归一化处理以形成归一化关键点坐标，以得到包含所述归一化关键点坐标的多维特征向量，其中，所述归
一化关键点坐标与所述关键点坐标、所述人脸检测框的中心点坐标以及所述人脸检测框的宽、高相关联；
12.采用人脸朝向估计网络对所述多维特征向量进行处理，以确定所述待检测人脸图像的人脸朝向。
13.根据本发明的人脸朝向估计方法，所述方法只使用少量特征向量作为人脸朝向估计算法的输入，计算量少，速度快，准确度可满足一般使用要求，便于在低端移动设备上部署；而且该方法使用神经网络估计人脸朝向，抗干扰能力强。
14.另外，根据本发明上述的人脸朝向估计方法，还可以具有如下附加的技术特征：
15.所述获取待检测人脸图像的具体步骤包括：使用mtcnn、retinaface、dbface人脸检测算法中的至少一个来获取人脸图像及人脸图像的关键点坐标。
16.所述提取所述待检测人脸图像的人脸检测框，并对所述关键点坐标进行归一化处理以形成归一化关键点坐标，以得到包括所述归一化关键点坐标的多维特征向量的具体步骤包括：
17.从所述待检测人脸图像中提取人脸检测框，将所述关键点坐标的横坐标、纵坐标分别经过坐标变换以形成归一化关键点横坐标、归一化关键点纵坐标，其中，所述归一化关键点横坐标由所述关键点的横坐标、所述人脸检测框的中心点坐标以及所述人脸检测框的宽数值所确定；所述归一化关键点纵坐标由所述关键点的纵坐标、所述人脸检测框的中心点坐标以及所述人脸检测框的高数值所确定。
18.所述待检测人脸图像的关键点包括：左眼、右眼、鼻尖、左嘴角以及右嘴角。
19.所述归一化关键点横坐标为所述归一化关键点纵坐标为
20.其中，公式中x
i
表示一关键点在人脸图像坐标系下的横坐标，x
o
表示所述人脸检测框的中心点在人脸图像坐标系下的横坐标，y
i
表示一关键点在人脸图像坐标系下的纵坐标，y
o
表示所述人脸检测框的中心点在人脸图像坐标系下的纵坐标，w表示所述人脸检测框的宽数值，h表示所述人脸检测框的高数值。
21.所述人脸朝向估计网络包括bp神经网络。
22.所述采用人脸朝向估计网络对所述多维特征向量进行处理，以确定所述待检测人脸图像的人脸朝向的具体步骤包括：
23.将所述归一化关键点横坐标、所述归一化关键点纵坐标以及所述人脸检测框的高宽比作为训练样本，并将所述训练样本输入到所述人脸朝向估计网络中训练，以输出所述待检测人脸图像的欧拉角，其中，所述人脸朝向估计网络包括bp神经网络。
24.本发明还提供了一种人脸朝向估计装置，所述装置包括：
25.人脸图像获取模块，用于获取待检测人脸图像，其中，所述待检测人脸图像包括关键点坐标；
26.人脸检测框提取模块，用于从所述待检测人脸图像中提取出人脸检测框；
27.坐标转换模块，用于对所述关键点坐标进行归一化处理以形成归一化关键点坐标，以得到包含所述归一化关键点坐标的多维特征向量，其中，所述归一化关键点坐标与所述关键点坐标、所述人脸检测框的中心点坐标以及所述人脸检测框的宽、高相关联；以及
28.人脸朝向确定模块，用于采用人脸朝向估计网络对所述多维特征向量进行处理，以确定所述待检测人脸图像的人脸朝向。
29.根据本发明的人脸朝向估计装置，所述装置只使用少量特征向量作为人脸朝向估计算法的输入，计算量少，速度快，准确度可满足一般使用要求，便于在低端移动设备上部署；而且该装置使用神经网络估计人脸朝向，抗干扰能力强。
30.本发明还提供了一种电子设备，所述电子设备包括：
31.一个或多个处理器、存储器；和
32.一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被所述一个或多个处理器执行，所述程序包括用于执行上述任意的人脸朝向估计方法的指令。
33.本发明还提供了一种包含计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，使得所述处理器执行上述任意的人脸朝向估计方法。
附图说明
34.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
35.图1是本发明的一个实施例的人脸朝向估计方法的流程图；
36.图2是本发明的一个实施例的人脸朝向估计装置的结构框图；
37.图3是本发明的一个实施例的人脸图像中关键点的坐标示意图；
38.图4是本发明的一个实施例的电子设备的模块示意图；以及
39.图5是本发明的一个实施例的计算机可读存储介质与处理器的连接关系示意图。
具体实施方式
40.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
41.本发明提供了一种人脸朝向估计方法，所述方法相对于传统的方法，计算量少，速度快，便于在低端移动设备上部署，而且抗干扰能力强。
42.图1是本发明的一个实施例的人脸朝向估计方法的流程图。参考图1，本发明提供了一种人脸朝向估计方法，该方法用于估计人脸图像的朝向。
43.本发明的人脸朝向估计方法包括以下步骤：
44.s10、获取待检测人脸图像，其中，所述待检测人脸图像包括关键点坐标。
45.具体的，所述待检测人脸图像可以是视频中的某一帧的人脸图像，也可以是包含人脸图像的图片。
46.在具体实施中，本发明可以采用mtcnn(multi
‑
task convolutional neural network；多任务卷积神经网络)、retinaface、dbface人脸检测算法中的至少一个来获取所述人脸图像以及人脸图像的关键点坐标，即可以采用一个或者一个以上的人脸检测算法来确定人脸图像的关键点坐标。
47.通常地，包含人脸图像的视频帧或者图片为人体全身像或者半身像，其不仅包括
人脸图像，还包括诸如胳膊、腿等除人脸部以外的其他身体部分，图片中还可能包含背景。因此，本发明的方法为了便于集中处理人脸图像，可先通过一人脸检测框从原始视频帧或者图片中截取包含整个人脸的人脸图像，人脸检测框通常呈矩形。本发明的人脸图像的关键点包括人脸左上角、右上角、左眼、右眼、鼻尖、左嘴角、右嘴角等，人脸左上角即人脸检测框的左上角，人脸右上角及人脸检测框的右上角，左眼为左眼球的中心点，右眼为右眼球的中心点。
48.人脸左上角、右上角、左眼、右眼、鼻尖、左嘴角、右嘴角等关键点在人脸图像坐标系下具有坐标值，不同关键点的坐标值不相同，每一关键点在图像坐标下均具有其唯一的坐标值。例如，可将人脸检测框的左上角设置为坐标原点，水平向右为x轴，竖直向下为y轴，则人脸左上角、右上角、左眼、右眼、鼻尖、左嘴角、右嘴角在以该人脸检测框的图像坐标系下均具有唯一的坐标点。
49.s20、提取所述待检测人脸图像的人脸检测框，并对所述关键点坐标进行归一化处理以形成归一化关键点坐标，以得到包含所述归一化关键点坐标的多维特征向量，其中，所述归一化关键点坐标与所述关键点坐标、所述人脸检测框的中心点坐标以及所述人脸检测框的宽、高相关联。
50.具体的，在上述步骤中，在将人脸图像的各关键点在图像坐标系下设置不同的坐标以后，本发明将所述关键点的坐标进行归一化加工处理以形成归一化关键点坐标，并得到包含所述归一化关键点坐标的多维特征向量，所述多维特征向量包括各关键点的归一化后的坐标所组成的集合。即通过归一化处理后，所述人脸图像的各关键点坐标由图像坐标系下的坐标变更为归一化坐标，而且各关键点的归一化坐标由在原图像坐标系下的坐标、人脸检测框的中心点坐标、人脸检测框的宽和高的所决定。人脸检测框的中心点即呈矩形的人脸检测框的两对角线的交点，人脸检测框的中心点坐标即该中心点在原图像坐标系下的坐标。
51.s30、采用人脸朝向估计网络对所述多维特征向量进行处理，以确定所述待检测人脸图像的人脸朝向。
52.具体的，本发明通过bp神经网络(back propagation神经网络，是一种按照误差逆向传播算法训练的多层前馈神经网络)来对包含归一化关键点坐标的人脸图像的多维特征向量进行处理，其输入为所述各关键点的归一化坐标，输出为3维向量，该3维向量表示欧拉角的3个角度：偏转角(yaw)、俯仰角(pitch)、滚动角(roll)，从而确定该待检测人脸图像的人脸朝向。
53.本发明的人脸朝向估计方法，其输入到人脸朝向估计网络中进行训练的数据量只有少量的个数，从而使得计算量极少，速度极快，准确度满足一般使用要求，便于在低端移动设备上部署；而且使用神经网络估计人脸朝向，抗干扰能力强，网络的输出稳定，在环境变化或人脸角度大的场合，造成关键点检测准确度降低、关键点易发生抖动时，网络输出不会发生大的跳变。
54.在具体实施中，所述提取所述人脸图像的人脸检测框，并对所述关键点坐标进行归一化处理以形成归一化关键点坐标，以得到包括所述归一化关键点坐标的多维特征向量的具体步骤包括：
55.从所述待检测人脸图像中提取人脸检测框，将所述关键点坐标的横坐标、纵坐标
分别经过坐标变换以形成归一化关键点横坐标、归一化关键点纵坐标，其中，所述归一化关键点横坐标由所述关键点的横坐标、所述人脸检测框的中心点坐标以及所述人脸检测框的宽数值所确定；所述归一化关键点纵坐标由所述关键点的纵坐标、所述人脸检测框的中心点坐标以及所述人脸检测框的高数值所确定。
56.具体的，人脸图像的关键点坐标由横坐标和纵坐标组成，本发明的方法将关键点的横坐标、纵坐标归一化处理，从而形成该关键点的归一化横坐标、归一化纵坐标，且关键点的归一化横坐标由该关键点在图像坐标系下的原始横坐标、人脸检测框的中心点在图像坐标系下的中心点坐标以及人脸检测框的宽数值所确定；同样地，关键点的归一化纵坐标由该关键点在图像坐标系下的原始纵坐标、人脸检测框的中心点在图像坐标系下的中心点坐标以及人脸检测框的高数值所确定。其中，人脸检测框的宽数值可以是人脸检测框宽的长度值，也可以是人脸检测框宽所占的像素值。
57.本发明的方法，在对人脸图像的关键点坐标进行归一化处理后以将所述关键点坐标转换成归一化关键点坐标，所述初始人脸图像的关键点原始坐标经过归一化处理后即形成了包含归一化关键点坐标的多维特征向量。
58.在具体实施中，所述归一化关键点横坐标为所述归一化关键点纵坐标为
59.其中，公式中x
i
表示一关键点在人脸图像坐标系下的横坐标，x
o
表示所述人脸检测框的中心点在人脸图像坐标系下的横坐标，y
i
表示一关键点在人脸图像坐标系下的纵坐标，y
o
表示所述人脸检测框的中心点在人脸图像坐标系下的纵坐标，w表示所述人脸检测框的宽数值，h表示所述人脸检测框的高数值。可以理解的是，本发明的人脸图像包括多个关键点，每个关键点的坐标值均不相同。
60.具体的，参考图3，图3为本发明的人脸图像中关键点的坐标示意图，在该图中，以人脸检测框的中心点o作为坐标原点，水平向右为x轴，垂直向上为y轴，a点为左眼坐标点，b点为右眼坐标点，c点为鼻尖坐标点，d点为左嘴角坐标点，e点为右嘴角坐标点，其中，a点位于该直角坐标系的第二象限，b点位于该直角坐标系的第一象限，c点位于该直角坐标系的y轴上，d点位于该直角坐标系的第三象限，e点位于该直角坐标系的第四象限，h、w分别为人脸检测框的高数值和宽数值。
61.本发明的方法，以左眼角a点为例，其将a点通过归一化处理将其在原图像坐标系下的坐标变换成归一化坐标的具体步骤为：分别对a点的横坐标与纵坐标进行归一化处理，其中，横坐标归一化运算过程为：将a点的横坐标与人脸检测框中心点横坐标作差值计算，然后再对人脸检测框的宽数值作商值运算，a点的横坐标的运算公式为：
[0062][0063]
在公式(1)中，表示a点经过归一化运算后的横坐标，x
a
表示a点在原图像坐标系下的坐标，x
o
表示所述人脸检测框的中心点在原图像坐标系下的横坐标，w表示所述人脸检测框的宽数值。
[0064]
a点纵坐标归一化运算过程为：将a点的纵坐标与人脸检测框中心点纵坐标作差值计算，然后再对人脸检测框的高数值作商值运算，a点的横坐标的运算公式为：
[0065][0066]
在公式(2)中，表示a点经过归一化运算后的纵坐标，y
a
表示a点在原图像坐标系下的纵坐标，y
o
表示所述人脸检测框的中心点在原图像坐标系下的纵坐标，h表示所述人脸检测框的宽数值。
[0067]
采用与公式(1)和(2)同样的归一化处理方法，可以分别得到b点、c点、d点和e点的归一化后的坐标，分别为形成以下公式：
[0068][0069][0070][0071][0072][0073][0074][0075][0076]
在具体实施中，本发明的方法，在上述对人脸图像的关键点的坐标进行归一化处理，以形成包含归一化关键点坐标的多维特征向量以后，还包括以下步骤：
[0077]
将所述归一化关键点横坐标、所述归一化关键点纵坐标以及所述人脸检测框的高宽比作为训练样本，并将所述训练样本输入到所述人脸朝向估计网络中训练，以输出所述待检测人脸图像的欧拉角。
[0078]
具体的，本发明的方法，在对人脸图像的左眼、右眼、鼻尖、左嘴角、右嘴角等5个关键点的横坐标、纵坐标分别进行归一化处理以后，形成了5个关键点的归一化后的横坐标、纵坐标共10个数据，再加上人脸检测框的高宽比r共11个数据形成了基本的训练数据集该数据集包括11个训练数据。本发明的方法，通过将所述包括11个训练数据的数据集及作为标签的偏转角、俯仰角、滚动角一起作为一个训练样本输入到人脸朝向估计网络中训练，经过所述人脸朝向估计网络的训练之后形成所述待检测人脸图像的欧拉角，进而确定所述待检测人脸图像的人脸朝向。具体的，本发明的方法，其将包括11个训练数据的数据集输入到人脸朝向估计网络中进行训练的过程包括：将数据集中的每个训练数据的归一化处理后的坐标点与偏转角、俯仰角、滚动角进行训练，通过机器学习来确定每个坐标点对应的是偏转角、俯仰角、滚动角中的哪个/哪些，并确定相应的角度。
[0079]
本发明的方法，仅使用少量特征向量作为人脸朝向估计训练模型的输入，计算量极少，速度极快，准确度满足一般使用要求，便于在低端移动设备上部署；仅以网络输入大小为例，现有技术中的方案一中如果输入图像大小为100x100，其输入向量长度为10000，而
本方案输入向量为11，仅输入端数据量为方案一的1/1000，极大地减少了运算量，运算速度极快；本发明的方法，其相对于现有技术中的方案二，网络输出稳定，关键点检测准确度高，抗干扰能力强，原因在于现有技术中的方案二，其使用pnp方法建立人脸关键点位置与人脸朝向的数学映射关系，其准确度取决于关键点的检测准确性及3d人脸模板与真实人脸之间的差异，而本发明的方案的准确度取决于网络输出的准确性；当环境发生变化或者人脸角度较大时，现有技术中的方案二的检测关键点易发生抖动，人脸朝向估计往往发生较大跳变，而本发明的方案在关键点发生抖动时，由于采用归一化处理使得处理后的关键点坐标与人脸检测框的宽/高、人脸检测框的中心点坐标、关键点在初始图像坐标系下的坐标相关，即使在关键点发生抖动时也会归一化的关键点坐标进行补偿，从而使得其经过人脸估计网络训练后的网络输出并不会随着关键点的抖动而发生较大的跳变。
[0080]
参考图3，本发明还提供了一种人脸朝向估计装置，所述人脸朝向估计装置包括人脸图像获取模块100、人脸检测框提取模块200、坐标转换模块300以及人脸朝向确定模块400。
[0081]
人脸图像获取模块100用于获取待检测人脸图像，其中，所述待检测人脸图像包括关键点坐标。
[0082]
人脸检测框提取模块200用于从所述待检测人脸图像中提取出人脸检测框。
[0083]
坐标转换模块300用于对所述关键点坐标进行归一化处理以形成归一化关键点坐标，以得到包含所述归一化关键点坐标的多维特征向量，其中，所述归一化关键点坐标与所述关键点坐标、所述人脸检测框的中心点坐标以及所述人脸检测框的宽、高相关联。
[0084]
人脸朝向确定模块400用于采用人脸朝向估计网络对所述多维特征向量进行处理，以确定所述待检测人脸图像的人脸朝向。
[0085]
本发明的人脸朝向估计装置，所述装置输入到人脸朝向估计网络中进行训练的数据量只有少量的个数，从而使得计算量极少，速度极快，准确度满足一般使用要求，便于在低端移动设备上部署；而且使用神经网络估计人脸朝向，抗干扰能力强，网络的输出稳定，在环境变化或人脸角度大的场合，造成关键点检测准确度降低、关键点易发生抖动时，网络输出不会发生大的跳变。
[0086]
参考图4，本发明还提供了一种电子设备，所述电子设备包括：
[0087]
一个或多个处理器10、存储器20；和
[0088]
一个或多个程序，其中所述一个或多个程序被存储在所述存储器20中，并且被所述一个或多个处理器10执行，所述程序包括用于执行上述任意的人脸朝向估计方法的指令。
[0089]
存储器20用于存放可在处理器10上运行的计算机程序，处理器10执行程序时实现上述任一实施方式中的人脸朝向估计方法。
[0090]
存储器20可能包含高速ram存储器，也可能还包括非易失性存储器(non
‑
volatilememory)，例如至少一个磁盘存储器。进一步地，电子设备还可包括通信接口30，通信接口用于存储器20和处理器10之间的通信。
[0091]
如果存储器20、处理器10和通信接口30独立实现，则通信接口30、存储器20和处理器10可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture，简称为isa)总线、外部设备互连
(peripheralcomponent，简称为pci)总线或扩展工业标准体系结构(extended industry standardarchitecture，简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0092]
可选的，在具体实现上，如果存储器20、处理器10及通信接口30，集成在一块芯片上实现，则存储器20、处理器10及通信接口30可以通过内部接口完成相互间的通信。
[0093]
处理器10可能是一个中央处理器(central processing unit，简称为cpu)，或者是特定集成电路(application specific integrated circuit，简称为asic)，或者是被配置成实施本申请实施例的一个或多个集成电路。
[0094]
参考图5，本发明还提供了一种包含计算机程序的非易失性计算机可读存储介质500，当所述计算机程序501被一个或多个处理器10执行时，使得所述处理器10执行上述任意的人脸朝向估计方法。
[0095]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结果、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结果、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0096]
尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄寅;张涛
技术所有人：深圳市普渡科技有限公司
我是此专利的发明人

上一篇：一种电熔炉用炉盖固定升降装置的制作方法
上一篇：用于植物培育装置中的虹吸装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。