基于三点定位方法的多尺寸人脸表情识别方法及装置与流程

文档序号：14750405发布日期：2018-06-22 12:38阅读：740来源：国知局

本申请涉及人脸识别技术，特别涉及人脸表情识别技术。

背景技术：

人脸表情是人类交流的一种有效表达方式，影视剧娱乐公司为了促进文化和自身公司的商业发展，提升公演和播放的影视剧作品的价值至关重要，其中，通过分析观众在观剧时的表情能够有助于公司自身制定更好的战略，并且，通过分析表演过程中观众在观看精彩或失误的片段时的表情，能够促进影视剧作品以及表演者演技的进一步提升。这就需要在环境昏暗、光照闪烁不定的剧场环境中，对观众的表情进行准确的识别。

现有的表情识别的方法中，通常是服务器先使用人脸检测器检测出图像信息中的待进一步检测的人脸数据，然后对待进一步检测的人脸数据进行五点定位，即通过人脸的五个特征点(左眼、右眼、鼻子、左嘴角和右嘴角)，定位成功的人脸数据将会被输入到表情识别模型，并由表情识别模型输出人脸数据所具有的表情。

然而由于剧场的空间很大，拍摄图片时人脸在图片中所占的比例很小，一个人脸可能只有20×20像素，在800万像素的画面可以同时容纳80-120个人脸，因此服务器使用五点定位法对于人脸的关键特征点的捕捉难度非常大，人脸定位的准确度低下，这样就难以得到准确的人脸数据，以至难以准确输出人脸数据的表情。

技术实现要素：

本申请实施例提供了基于三点定位方法的多尺寸人脸表情识别的方法以及装置，能够通过对人脸进行三点定位，准确捕捉人脸的关键特征点，提高了对小人脸定位的准确度，得到更准确的人脸数据和表情数据。

本申请实施例提供了基于三点定位方法的多尺寸人脸表情识别的方法，包括：

服务器接收摄像头拍摄的图像信息，所述图像信息中包含有第一人脸数据；

所述服务器将所述图像信息输入人脸检测器；

所述服务器根据人脸检测器检测出所述第一人脸数据中的候选人脸数据；

所述服务器对所述候选人脸数据进行三点定位；

所述服务器判断所述候选人脸数据是否三点定位成功；

若是，则所述服务器确定第二人脸数据；

所述服务器将所述第二人脸数据输入至表情识别模型；

所述服务器利用所述表情识别模型输出所述第二人脸数据所具有的表情。

可选地，所述三点定位为所述服务器对所述候选人脸数据中的左眼中心、右眼中心以及鼻尖进行定位。

可选地，所述人脸检测器为多尺寸人脸检测器。

可选地，所述表情识别模型是输出为64位的FaceNet。

本申请实施例提供了一种基于三点定位方法的多尺寸人脸表情识别装置，包括：

接收单元，用于接收摄像头拍摄的图像信息，所述图像信息中包含有第一人脸数据；

第一输入单元，用于将所述图像信息输入人脸检测器；

检测单元，用于根据人脸检测器检测出所述第一人脸数据中的候选人脸数据；

定位单元，用于对所述候选人脸数据进行三点定位；

判断单元，用于判断所述候选人脸数据是否三点定位成功；若是，则确定第二人脸数据；

第二输入单元，用于将所述第二人脸数据输入至表情识别模型；

输出单元，用于利用所述表情识别模型输出所述第二人脸数据所具有的表情。

可选地，所述三点定位为所述服务器对所述候选人脸数据中的左眼中心、右眼中心以及鼻尖进行定位。

可选地，所述表情识别模型是输出为64位的FaceNet。

本申请实施例提供了一种基于三点定位方法的多尺寸人脸表情识别装置，该基于三点定位方法的多尺寸人脸表情识别装置具有实现上述基于三点定位方法的多尺寸人脸表情识别的方法中基于三点定位方法的多尺寸人脸表情识别装置的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

本申请实施例提供了一种计算机存储介质，该计算机存储介质用于储存上述基于三点定位方法的多尺寸人脸表情识别装置所用的计算机软件指令，其包括用于执行为基于三点定位方法的多尺寸人脸表情识别装置所设计的程序。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现上述基于三点定位方法的多尺寸人脸表情识别方法的流程。

从以上技术方案可以看出，本申请实施例具有以下优点：服务器根据人脸检测器检测出候选的人脸数据后，对候选人脸数据进行三点定位，即对人脸的左眼、右眼和鼻子进行定位，然后将三点定位成功的人脸数据输入表情识别模型，并由表情识别模型输出人脸数据所具有的表情。由于剧场中拍摄的图片上有很多人脸，且这些人脸所占图片的比例都很小，人脸中的各个器官部位清晰度较差，甚至会发生服务器无法准确辨认人脸中的各个部位，例如难以辨认左嘴角和鼻子的准确位置，使用三点定位法，只需对人脸的三个部位进行定位，这样即使出现部分人脸器官的位置难以辨认的情况，也不会影响定位的准确性，从而准确捕捉人脸的关键特征点，提高了对小人脸定位的准确度，得到更准确的人脸数据和表情数据。

附图说明

图1为本申请实施例中基于三点定位方法的多尺寸人脸表情识别方法的一个实施例示意图；

图2为本申请实施例中基于三点定位方法的多尺寸人脸表情识别方法的另一个实施例示意图；

图3为本申请实施例中基于三点定位方法的多尺寸人脸表情识别方法的另一个实施例示意图；

图4为本申请实施例中基于三点定位方法的多尺寸人脸表情识别装置的一个实施例示意图；

图5为本申请实施例中基于三点定位方法的多尺寸人脸表情识别装置的另一个实施例示意图。

具体实施方式

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术。人脸识别系统(即人脸识别器)主要包括四个组成部分，分别为：人脸图像采集及检测、人脸图像预处理、人脸图像特征提取以及匹配与识别。输入人脸识别系统的一般是一张或者一系列含有未确定身份的人脸图像，以及人脸数据库中的若干已知身份的人脸图像或者相应的编码，而其输出则是一系列相似度得分，表明待识别的人脸的身份。

面部表情识别是指利用计算机对人脸的面部表情信息进行特征提取，按照人的认识和思维方式加以归类和理解，进而从人脸表情信息中去分析理解人的情绪，如高兴、悲伤、惊讶、恐惧、愤怒和厌恶等。表情识别系统(即表情识别器)一般分为四个处理过程，人脸图像的获取与预处理、人脸检测、表情特征提取和表情分类。特征提取是人脸表情识别中的核心步骤，是识别技术的关键，决定着最终的识别结果，直接影响识别率的高低。

近年来在机器学习领域出现了以深度学习(Deep Learning)为突破点的纯数据驱动的特征学习算法，其本质上是对深层结构的模型进行训练的一类方法的统称。深层结构模型通过分层逐级地表示特征，它舍弃了依靠人工精心设计的显式特征提取方法，通过逐层地构建一个多层的深度神经网络(拥有数十隐层、数千万甚至过亿的网络参数)，让机器自主地从样本数据中学习到表征这些样本的更加本质的特征，从而使得学习到的特征更具有推广性和表征能力。

本申请实施例提供了基于三点定位方法的多尺寸人脸表情识别方法及装置，能够通过对人脸进行三点定位，准确捕捉人脸的关键特征点，提高了对小人脸定位的准确度，得到更准确的人脸数据和表情数据。

下面结合附图对本申请实施例提供的基于三点定位方法的多尺寸人脸表情识别方法及装置做详细说明。

请参阅图1，本申请实施例中基于三点定位方法的多尺寸人脸表情识别的方法的一个实施例包括：

101、服务器接收摄像头拍摄的图像信息，该图像信息中包含有第一人脸数据；

摄像头拍摄的图像信息中包含有第一人脸数据，该图像信息可以是图片，也可以是一段视频，此处具体不做限定，且在服务器上可以预先设置接收图片的张数和视频的长度的阈值，具体此处不做限定。

102、服务器将图像信息输入人脸检测器；

服务器在接收到图像信息后，将图像信息输入到人脸检测器中。本实施例中，人脸检测通过在剧场环境收集到的10万级别的人脸数据集，可以通过深度学习训练人脸检测器。人脸检测器的算法可以是人工神经网络(artificial neural networks，ANN)模型，也可以是支持向量机(support vector machine，SVM)模型或者Adaboost模型，本实施例在此不做限定。ANN模型是模拟神经元活动的数学模型，用来对人脸的诸多特征(例如，人的眼睛大小以及睁闭、发型、肤色等)进行模拟、检测的模型。

103、服务器根据人脸检测器检测出第一人脸数据中的候选人脸数据；

服务器在将包含人脸区域的图像信息输入到人脸检测器后，人脸检测器中的ANN模型分类器或SVM分类器就会对图像信息进行检测，检测出图像信息的第一人脸数据中的候选人脸信息。由于图像信息中的人脸多数是小人脸，因此由人脸检测器粗略检测出来的人脸信息可能包括部分非人脸的信息在内，该包括部分非人脸信息在内的人脸信息为候选人脸数据。

104、服务器对候选人脸数据进行三点定位；

在服务器检测出候选人脸数据后，由于本实施例是对小脸进行检测，因此对于人脸关键特征点(例如，人脸的五个特征点，左眼、右眼、鼻子、左嘴角和右嘴角)的捕捉难度非常大，因此本实施例中采用三点定位的方法对人脸进行定位，三点分别对应人脸的三个关键特征点即可(例如只对应左眼、右嘴角以及鼻子)。三点定位中，服务器同样使用人脸检测器中的ANN模型分类器或SVM分类器对每一个候选人脸数据中的候选人脸进行三点定位，并使用线性回归方式回归获取三个关键点位置。本实施例中，三点定位的人脸部位可以预先选定并设置在人脸检测器中，对于选定的人脸部位，具体此处不做限定。

105、服务器判断候选人脸数据是否三点定位成功；

本实施例中，服务器在对候选人脸数据进行三点定位时，如果定位不成功，即使用线性回归方式回归后得不到人脸的三个关键特征点(例如左眼、右嘴角以及鼻子)，则表示候选的人脸可能只是一个误识别，而不是真正的人脸。只有通过三点定位确切地得到人脸的三个关键特征点，才确定该候选人脸是真正的人脸，而确定为该真正的人脸的数据即是待识别表情的人脸数据，本实施例中称之为第二人脸数据。

106、服务器将第二人脸数据输入至表情识别模型；

本实施例中，服务器在确定第二人脸数据后，将该第二人脸数据输入到表情识别模型中。表情识别模型对于表情特征的提取根据图像性质的不同可以分为静态图像特征提取和序列图像特征提取。静态图像中提取的是表情的形变特征，即表情的暂态特征，而对于序列图像不仅要提取每一帧的表情形变特征还要提取连续序列的运动特征。表情识别特征中基于迁移学习的暗光源表情识别的方法还可包含有基于模板的匹配方法、基于神经网络的方法、基于概率模型的方法等，具体此处不做限定。

107、服务器利用表情识别模型输出第二人脸数据所具有的表情。

第二人脸数据输入至表情识别模型之后，会与表情识别模型中的训练分类器里的各类表情进行匹配，随后，服务器里利用表情识别模型输出匹配好的表情种类。对于表情识别，可以分为六个类别，正常的、开心的、不安的、悲伤的、恶心的、惊讶的，具体此处不做限定。表情识别模型的训练分类器可以是极限学习机，即ELM分类器(extreme learning machine,ELM)，也可以是支持向量机，即SVM分类器，具体此处不做限定。

本申请实施例中，针对图像信息中的小人脸使用了三点定位法，由于只需对小人脸的三个部位进行定位，这样即使出现部分人脸器官的位置难以辨认的情况也不会影响定位的准确性，从而准确捕捉人脸的关键特征点，提高了对小人脸定位的准确度，能够得到更准确的人脸数据和表情数据。

下面对另一个实施例进行描述，请参阅图2，图2示出了本发明实施例提供的基于三点定位方法的多尺寸人脸表情识别方法的具体实现流程。

201、服务器接收摄像头拍摄的图像信息，图像信息中包含有原始人脸数据；

步骤201与上述图1的实施例中的步骤101类似，具体此处不再赘述。

202、服务器将图像信息输入至多尺寸人脸检测器；

本实施例中，服务器接收到摄像头拍摄的图像信息后，将图像信息输入到多尺寸人脸检测器中。多尺寸人脸检测器可以通过使用三层的神经网络(神经网络的细节如图3)，用多种方法实现检测器，一种方法主要学习尺度不同的特征表示(scale-invariant methods),一种方法主要是通过学习多尺寸特征从而对不同尺寸使用不同的网络进行检测，具体此处不做限定。

203、服务器根据多尺寸人脸检测器检测出原始人脸数据中的候选人脸数据；

服务器在将包含人脸区域的图像信息输入到多尺寸人脸检测器后，多尺寸人脸检测器就会对图像信息进行检测，检测出图像信息的原始人脸数据中的候选人脸信息。多尺寸人脸检测器不同于固定尺寸的人脸检测器，在模型训练的过程中，为了达到多尺寸检测的目的，在设置模型的深度学习模型中，可以在深度学习模型中设置六层隐藏层，多尺寸人脸检测器就会根据该六层隐藏层分析得到的数据得到最终的判断结果，使得隐藏层中所导致的图像数据大小变化的结果可以被记录和使用在最后的多尺寸判断中。候选人脸信息的定义在上述步骤实施例的步骤203中已经详细说明，此处不再赘述。

204、服务器对候选人脸数据中的左眼中心、右眼中心以及鼻尖进行定位；

本实施例中，在服务器检测出候选人脸数据后，服务器对人脸的三个关键特征点，即左眼中心、右眼中心以及鼻尖进行定位，通过线性回归方式获取三点位置。人脸部位的三个关键特征点可以预先选定并设置在人脸检测器中，具体此处不做限定。

205、服务器判断候选人脸数据中是否对左眼中心、右眼中心以及鼻尖定位成功；

本实施例中，服务器对左眼中心、右眼中心以及鼻尖进行定位，如果定位不成功，即使用线性回归方式不能成功得到左眼中心、右眼中心以及鼻尖的位置，则表示候选的人脸可能只是一个误识别，而不是真正的人脸。只有对左眼中心、右眼中心以及鼻尖成功定位，才确定该候选人脸是真正的人脸，该确定为真正的人脸的数据即为待识别表情的人脸数据，本实施例中称之为待识别人脸数据。

206、服务器将待识别人脸数据输入至表情识别模型；

本实施例中，表情识别模型可以是根据深度学习得到的表情识别模型，例如可以是经典的FaceNet模型。需要说明的是，表情识别模型可以是通过人脸三点定位(本实施例中，即对左眼中心、右眼中心以及鼻尖进行定位)后，通过对人脸位置的预估，得到人脸的像素的信息。而对于本实施例中采用多尺寸人脸检测得到的人脸，会产生很多较小的人脸，此时可以使用通过生成式模型创建的超分辨重构技术，对人脸进行特征重构，然后重新将重构后的人脸作为输入数据，训练一个4层的深度学习模型，该深度学习模型的输出即为表情分类器。

目前已有的技术方案是将人脸的信息通过FaceNet网络转换到128维的特征空间，但由于图像信息中的人脸部分的像素数据比较少，所以不适合将人脸数据划分到128维，因此本实施例的技术方案是服务器将FaceNet原本输出的128维修改为64维，并且对人脸数据进行重新训练，从而得到输出为64位的新的神经网络，简称FaceNet-64。FaceNet-64模型对每个人脸输出64维特征，进而服务器将每个人脸的64维特征作为训练数据，每个人脸有对应的表情标签，包括正常的、开心的、不安的、悲伤的、恶心的、惊讶的，进而对数据进行分类训练，获得表情识别模型。表情识别模型的分类训练可以采用多线性回归模型的方法，具体此处不做限定。

207、服务器利用表情识别模型输出待识别人脸数据为表情识别模型中已分类的每种表情类型的概率；

本实施例中，表情识别模型的训练分类器中预存有各种类型的表情，服务器利用表情识别模型将待识别的人脸数据与训练分类器中已分类的每种表情类型相比对，得到每种表情类型的概率。表情识别模型的训练分类器可以采用多线性回归模型的方法，具体此处不做限定。

208、服务器选择最大概率的表情类型作为待识别人脸数据所具有的表情。

本实施例中，服务器可以选择最大概率的表情类型作为待识别人脸数据所具有的表情，也可以列表显示待识别人脸数据所具有的表情概率，具体此处不做限定。

本实施例的有益效果是，服务器通过使用三点定位法，只需对图像信息中小人脸的三个部位进行定位，这样即使出现部分人脸器官的位置难以辨认的情况，也不会影响定位的准确性，从而准确捕捉人脸的关键特征点，提高了对小人脸定位的准确度，得到更准确的人脸数据和表情数据。

上面对本申请实施例中的基于三点定位方法的多尺寸人脸表情识别方法进行了描述，下面对本申请实施例中的基于三点定位方法的多尺寸人脸表情识别装置进行描述，请参阅图4，本申请实施例中基于三点定位方法的多尺寸人脸表情识别装置的一个实施例包括：

接收单元401，用于接收摄像头拍摄的图像信息，所述图像信息中包含有第一人脸数据；

第一输入单元402，用于将所述图像信息输入人脸检测器；

检测单元403，用于根据人脸检测器检测出所述第一人脸数据中的候选人脸数据；

定位单元404，用于对所述候选人脸数据进行三点定位；

判断单元405，用于判断所述候选人脸数据是否三点定位成功；若是，则确定第二人脸数据；

第二输入单元406，用于将所述第二人脸数据输入至表情识别模型；

输出单元407，用于利用所述表情识别模型输出所述第二人脸数据所具有的表情。

本实施例中，三点定位可以是对候选人脸数据中的左眼中心、右眼中心以及鼻尖进行定位。

本实施例中，人脸检测器可以是多尺寸人脸检测器。

本实施例中，表情识别模型可以是输出为64维的FaceNet。

本实施例中，基于三点定位方法的多尺寸人脸表情识别装置中各单元所执行的流程与前述图1和图2所示的实施例中描述的方法流程类似，此处不再赘述。

本实施例中，检测单元403根据人脸检测器检测出候选的人脸数据后，定位单元404对候选人脸数据进行三点定位(例如对人脸的左眼、右眼和鼻子进行定位)，第二输入单元406将根据判断单元405确定为三点定位成功的人脸数据输入到表情识别模型中，最后由输出单元407输出由表情识别模型识别出的人脸数据所具有的表情。使用三点定位法，由于只需对图像信息中小人脸的三个部位进行定位，这样即使出现部分人脸器官的位置难以辨认的情况，也不会影响定位的准确性，从而准确捕捉人脸的关键特征点，提高了对小人脸定位的准确性，得到更准确的人脸数据和表情数据。

以上是本申请实施例中基于三点定位方法的多尺寸人脸表情识别装置的一个实施例。请参阅图5，本申请实施例中基于三点定位方法的多尺寸人脸表情识别装置的另一个实施例包括：

该基于三点定位方法的多尺寸人脸表情识别装置500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units,CPU)501(例如，一个或一个以上处理器)和存储器505，该存储器505中存储有一个或一个以上的应用程序或数据。

其中，存储器505可以是易失性存储或持久存储。存储在存储器505的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器501可以设置为与存储器505通信，在基于三点定位方法的多尺寸人脸表情识别装置500上执行存储器505中的一系列指令操作。

基于三点定位方法的多尺寸人脸表情识别装置500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统，例如Windows Server TM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

本实施例中基于三点定位方法的多尺寸人脸表情识别装置500中的中央处理器501所执行的流程与前述图1、图2所示的实施例中描述的方法流程类似，此处不再赘述。

本申请实施例还提供一种计算机存储介质，该计算机存储介质用于储存为前述基于三点定位方法的多尺寸人脸表情识别装置所用的计算机软件指令，其包括用于执行为基于三点定位方法的多尺寸人脸表情识别装置所设计的程序。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现前述图1、图2以及图4所示的实施例中的方法流程。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗韵
技术所有人：深圳极视角科技有限公司;深圳润艺文化发展有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。