基于表情识别的智能家居控制方法及系统

文档序号:33468824发布日期:2023-03-15 07:38阅读:46来源:国知局
基于表情识别的智能家居控制方法及系统

1.本发明涉及智能家居控制技术领域,特别涉及基于表情识别的智能家居控制方法及系统。


背景技术:

2.目前的智能家居系统大部分为场景互动或语音交互,例如通过手机app控制智能家居系统中的智能设备,再例如通过语音控制智能家居系统执行对应的功能,智能家居系统识别用户的语音后执行相应的操作。虽然智能家居系统的发展势头迅猛,但是目前国内的智能家居系统在智能家居环境控制方面并未充分地考虑到用户的不同情感状态对家居环境的需求,鲜少有智能家居系统融合用户的情感状态来实现对家居环境的调节,智能化程度不高,降低了用户的使用体验。
3.面部表情识别技术由于其高信息量、情感交互的作用,吸引更多研究者的关注。随着计算机技术的不断发展,基于深度学习的面部表情识别技术正在得到充分挖掘和应用。若将面部表情识别技术与智能家居系统进行融合,则可识别出用户实际情绪,进而充分地考虑到用户的不同情感状态对家居环境的需求。但是,若用户在佩戴口罩时使用融合了面部表情识别技术的智能家居系统,由于口罩遮挡人脸表情的绝大部分信息,使得戴口罩的人脸表情识别具有高度复杂性,可能导致智能家居系统无法准确地识别用户的感情状态,进而无法实现用户的不同情感状态对家居环境的需求。


技术实现要素:

4.本发明的目的是提供基于表情识别的智能家居控制方法及系统,通过表情识别模型准确识别用户的感情状态,根据感情状态对智能家居环境进行调节,进而实现用户的不同情感状态对家居环境的需求。
5.本发明解决其技术问题的解决方案是:第一方面,本技术提供基于表情识别的智能家居控制方法,包括如下步骤:
6.实时获取视频信息,将所述视频信息分解为按时间排序的图像序列,预处理所述图像序列,所述图像序列携带有对应的时间戳;
7.对预处理后的所述图像序列进行人脸识别和口罩检测,得到人脸区域以及口罩检测结果;
8.根据所述口罩检测结果,结合与所述口罩检测结果对应的表情识别模型对所述人脸区域进行表情识别,得到表情情绪数据,所述表情情绪数据携带有与所述人脸区域对应的身份信息;
9.根据所述表情情绪数据、所述身份信息和所述时间戳,输出与所述表情情绪数据对应的控制指令控制智能家居设备启动,对当前智能家居环境进行调节;
10.其中,所述口罩检测结果包括:所述人脸区域包括有口罩或所述人脸区域未包括有口罩中的任一种;
11.所述与所述口罩检测结果对应的表情识别模型包括第一表情识别模型或第二表情识别模型中的任一种;
12.所述表情情绪数据包括第一表情情绪数据或第二表情情绪数据中的任一种;
13.其中,所述根据所述口罩检测结果,结合与所述口罩检测结果对应的表情识别模型进行表情识别,得到表情情绪数据,包括:
14.当所述口罩检测结果为所述人脸区域包括有口罩,则通过所述第一表情识别模型结合所述人脸区域进行表情情绪识别,得到第一表情情绪数据,所述第一表情情绪数据携带有与所述人脸区域对应的身份信息;
15.或者,当所述口罩检测结果为所述人脸区域未包括有口罩,则通过所述第二表情识别模型结合所述人脸区域进行表情情绪识别,得到第二表情情绪数据,所述第二表情情绪数据携带有与所述人脸区域对应的身份信息。
16.另一方面,本技术提供了基于表情识别的智能家居控制系统,所述系统包括:
17.至少一个处理器;
18.至少一个存储器,用于存储至少一个程序;
19.当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的基于表情识别的智能家居控制方法。
20.本发明的有益效果是:提供基于表情识别的智能家居控制方法及系统,充分考虑到智能家居的用户可能佩戴有口罩导致无法进行面部表情情绪的识别和检测这一现象,通过分辨用户是否佩戴有口罩,进而调用不同的表情识别模型进行人脸表情情绪的识别和检测,能够有效地提高人脸表情情绪识别的准确率,避免用户因佩戴口罩而无法进行表情情绪识别的现象发生;并且,本技术根据所得到的人脸表情情绪对智能家居环境进行调节,使得调节后的智能家居环境更贴近用户的实际情绪,进而满足用户的不同情感状态对家居环境的需求。
21.本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
22.附图用来提供对本技术技术方案的进一步理解,并且构成说明书的一部分,与本技术的实施例一起用于解释本技术的技术方案,并不构成对本技术技术方案的限制。
23.图1为本技术实施例提供的基于表情识别的智能家居控制方法的流程图;
24.图2为本技术实施例提供的基于表情识别的智能家居控制方法的结构图;
25.图3为本技术实施例提供的进行人脸检测和口罩检测的流程图;
26.图4为本技术实施例提供的根据第一表情识别模型,输出第一表情情绪数据的流程图;
27.图5为本技术实施例提供的训练第一表情识别模型的流程图;
28.图6为本技术实施例提供的根据第二表情识别模型,输出第二表情情绪数据的流程图;
29.图7为本技术实施例提供的训练第二表情识别模型的流程图;
30.图8为本技术实施例提供的根据表情情绪数据对当前智能家居环境进行调节的流程图。
具体实施方式
31.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
32.下面结合说明书附图和具体的实施例对本技术进行进一步的说明。所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
33.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
34.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
35.对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
36.(1)智能家居(smart home),是物联网的一个重要的应用,通常是指利用住宅为平台,利用综合布线技术、网络通信技术等技术将家居生活有关的设施集成,构建高效的住宅设施与家庭日程事务的管理系统。智能家居能够提供全方位的信息交互功能,帮助家庭与外部保持信息交流畅通,优化人们的生活方式,帮助人们有效安排时间,增强家居生活的安全性,甚至为各种能源费用节约资金。
37.(2)人脸识别(face recognition),是指基于人的脸部特征信息进行身份识别的一种生物识别技术用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,并对检测到的人脸进行特征提取,与模板库中的人脸图像特征做比对,达到识别不同人身份的目的。人脸识别的步骤通常包括人脸图像的采集;人脸定位;人脸图像的预处理与特征提取;人脸识别。
38.(3)面部表情识别(facial expression recognition,fer),其在智能人机交互中有重要的意义,使机器人能够读懂人的情感,更具人性化。面部表情识别通过对静态的表情和动态变化的表情提取特征,并分析判断,获取人的情感信息,从而达到了解人的情绪,并基于表情属性满足人们的某些需要和提供某些服务。
39.随着通信技术、智能技术、移动互联网技术的发展,智能家居将成为今后家居和住宅发展的必然方向。虽然智能家居系统的发展势头迅猛,然而目前国内的智能家居系统在智能家居环境控制方面并未充分地考虑到用户的不同情感状态对家居环境的需求,鲜少有智能家居系统融合用户的情感状态对智能家居设备进行控制,智能化程度低,不能实现用户的个性化需求,导致用户的使用体验降低。
40.在人工智能领域中,人脸面部表情是最直接、最有效的情感状态表达模式。早在20世纪ekman等专家就通过跨文化调研提出了七类基础表情,分别是生气,害怕,厌恶,开心,
悲伤,惊讶以及中立。面部表情识别技术由于其高信息量、情感交互的作用,吸引更多研究者的关注。若将面部表情识别技术与智能家居系统进行融合,则可识别出用户实际情绪,进而充分地考虑到用户的不同情感状态对家居环境的需求。但是,若用户在佩戴口罩时使用融合了面部表情识别技术的智能家居系统,由于口罩遮挡人脸表情的绝大部分信息,使得戴口罩的人脸表情识别具有高度复杂性,可能导致智能家居系统无法准确地识别用户的感情状态,进而无法实现根据不同情感状态对家居环境的需求。
41.针对以上现有技术中所存在的技术问题,本技术提供了基于表情识别的智能家居控制方法及系统,通过对人脸图像进行人脸识别和口罩检测,针对佩戴有口罩和未佩戴有口罩的人脸图像两种情况,结合对应的表情识别模型进行人脸情绪识别,得到表情情绪数据,根据表情情绪数据对控制智能家居设备进行控制。本技术对佩戴有口罩和未佩戴有口罩的人脸图像两种情况分别进行人脸识别,能够有效地提高人脸表情情绪识别的准确率,充分地考虑到用户的不同情感状态对家居环境的需求,实现了用户的个性化需求,提高了用户的使用体验。
42.参照图1所示,图1为本技术实施例提供的基于表情识别的智能家居控制方法的流程图。本技术的一个实施例,下面将对智能家居控制方法进行说明和阐述。智能家居控制方法可以包括但不限于以下步骤。
43.100,实时获取视频信息,将视频信息分解为按时间排序的图像序列,预处理图像序列。
44.需要说明的是,图像序列携带有对应的时间戳。时间戳定义为采集视频信息的时间值。
45.可选地,视频信息通过设置在智能家居内的摄像头设备获取。
46.本步骤中,实时采集视频信息,把视频信息分解成多幅连续单帧的图像,多幅连续单帧的图像依据时间戳的大小进行排序。
47.200,对预处理后的图像序列进行人脸识别和口罩检测,得到人脸区域以及口罩检测结果。
48.需要说明的是,口罩检测结果包括:人脸区域包括有口罩或人脸区域未包括有口罩中的任一种。可以理解的是人脸区域包含口罩代表用户佩戴有口罩,人脸区域没有包含口罩代表用户没有佩戴口罩。
49.本步骤中,通过预设的人脸识别模型和口罩检测模型对图像序列分别执行人脸检测和口罩识别的操作,并根据人脸检测的结果输出人脸区域,根据口罩识别的结果结合人脸区域输出口罩检测结果。
50.300,根据口罩检测结果,结合与口罩检测结果对应的表情识别模型对人脸区域进行表情识别,得到表情情绪数据。
51.需要说明的是,对应的表情识别模型包括第一表情识别模型或第二表情识别模型中的任一种。表情情绪数据包括第一表情情绪数据或第二表情情绪数据中的任一种,表情情绪数据携带有与人脸区域对应的身份信息。
52.进一步地,步骤300具体包括:
53.310,当口罩检测结果为人脸区域包括有口罩,则通过第一表情识别模型结合人脸区域进行表情情绪识别,得到第一表情情绪数据,第一表情情绪数据携带有与人脸区域对
应的身份信息。
54.需要说明的是,第一表情识别模型为预先训练好的神经网络模型,第一表情识别模型通过第一表情数据集训练而得到。
55.或者,步骤300包括以下步骤:
56.320,当口罩检测结果为所述人脸区域未包括有口罩,则通过第二表情识别模型结合人脸区域进行表情情绪识别,得到第二表情情绪数据,第二表情情绪数据携带有与人脸区域对应的身份信息。
57.需要说明的是,第二表情识别模型为预先训练好的神经网络模型,第二表情识别模型通过第二表情数据集训练而得到。
58.以上步骤中,当步骤200中检测出人脸区域包含有口罩时,即用户在这一时间戳佩戴有口罩,则调用第一表情识别模型对人脸区域执行面部表情情绪的检测和识别,输出第一表情情绪数据。若步骤200中未检测出人脸区域包含口罩,即用户在这一时间戳并未佩戴有口罩,则调用第二表情识别模型对人脸区域执行面部表情情绪的检测和识别,输出第二表情情绪数据。
59.400,根据表情情绪数据、身份信息和时间戳,输出与表情情绪数据对应的控制指令控制智能家居设备启动,对当前智能家居环境进行调节。
60.需要说明的是,身份信息和时间戳用于识别在同一时间值内图像序列是否出现有多个身份信息。若出现有多个身份信息,则根据身份信息的权限及其对应的表情情绪数据来实现智能家居设备的控制。其中,优先选择身份信息权限高的表情情绪数据来作为控制智能家居设备的基础。
61.请参照图2所示,图2所示为本技术实施例提供的基于表情识别的智能家居控制方法的结构图。本技术提供的智能家居控制方法的实现过程为:通过智能家居内设置的摄像头设备获取实时的视频信息,并记录采集视频信息的时间戳。将视频信息分解为多个图像序列,检测图像序列是否有人脸,并根据检测到的人脸区域进行身份确认,得到身份信息。其中,若没有检测到人脸,则说明用户并不在智能家居内;若检测到有人脸,则说明此时用户在智能家居内活动。之后,检测是否佩戴有口罩。若检测到人脸区域包括口罩,则说明此时用户佩戴有口罩;若未检测到人脸区域包括有口罩,则说明此时用户未佩戴有口罩。之后,根据用户是否佩戴口罩的结果,输入至不同的表情识别模型,得到对应的表情情绪数据。之后,根据时间戳、身份信息以及对应的表情情绪数据,对智能家居环境进行调控,使得智能家居环境的氛围更贴合用户的实际情绪。
62.本技术充分考虑到用户可能佩戴有口罩导致无法进行面部表情情绪的识别和检测这一现象,通过分辨用户是否佩戴有口罩,进而调用不同的表情识别模型进行面部表情情绪的识别和检测,能够有效地提高佩戴有口罩和未佩戴有口罩的人脸图像的人脸识别的准确率,使得所获得的用户的表情情绪更贴近用户的实际情绪,进而满足用户的不同情感状态对家居环境的需求。
63.本技术的一个可选实施例,步骤100中对图像序列进行预处理可以包括但不限于以下步骤。
64.110,对图像序列进行灰度化操作。
65.需要说明的是,灰度化操作定义为将三通道彩色图像序列转换为单通道灰度图像
序列。本技术采用的灰度化操作为亮度灰度化操作。在yuv的颜色空间中,y的分量的物理意义是点的亮度,由该值反映亮度等级。根据图像序列的rgb和yuv颜色空间的变化关系可建立亮度y与r、g、b三个颜色分量的对应,以这个亮度值表达图像的灰度值。
66.需要说明的是,灰度化操作满足以下公式:
67.gray(x,y)=red(x,y)
×
0.3+green(x,y)
×
0.59+blue(x,y)
×
0.11
68.其中,(x,y)为图像序列,red为图像序列的r通道,green为图像序列的g通道,blue为图像序列的b通道。
69.120,通过中值滤波法对图像序列进行滤波处理。
70.需要说明的是,中值滤波法是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术,中值滤波的基本原理是把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替,让周围的像素值接近真实值,从而消除孤立的噪声点。
71.需要说明的是,中值滤波法满足以下公式:
[0072][0073]
其中,g(x,y)为去噪后的图像帧,为高通滤波后的图像帧,a为二维模板,θ选取为3
×
3区域。
[0074]
本技术中,视频信息在采集的过程中受环境的影响,如受光照强度的影响,以及传输过程中噪声或者设备本身的影响,视频信息的质量会下降。若直接对图像序列进行人脸识别和口罩检测,则可能会导致差异较大。因此,在人脸识别和口罩检测之前,需要先对图像序列进行初步的处理,降低计算量的同时提高图像序列的质量。以上步骤中,先通过将图像序列转换为单通道的灰度图,之后对图像序列进行滤波处理,使得图像序列变得更加清晰,去除图像序列中的噪声,避免图像序列模糊导致表情情绪识别效果不佳。
[0075]
参照图3所示,图3所示为本技术实施例提供的进行人脸检测和口罩检测的流程图。本技术的一个实施例,下面将对步骤200进行进一步地说明和阐述。步骤200可以包括但不限于以下步骤。
[0076]
210,将图像序列分别输入至预设的人脸识别模型和口罩检测模型中进行人脸识别和口罩检测,输出人脸区域和口罩区域。
[0077]
需要说明的是,人脸识别模型为预先训练好的神经网络模型。其中,人脸识别模型通过人脸数据集训练得到。人脸数据集包含有若干张不佩戴有口罩的人脸图像和若干张佩戴有口罩的人脸图像,人脸数据集中的样本数据均携带有人脸的标签信息。
[0078]
需要说明的是,口罩检测模型为预先训练好的神经网络模型。其中,口罩检测模型通过口罩数据集训练得到。口罩数据集包含有若干张佩戴有口罩的人脸图像,口罩数据集中的样本数据均携带有口罩的标签信息。
[0079]
需要说明的是,若用户佩戴有口罩,那么该口罩与人脸必然会有重合的区域。如果仅通过若干张不佩戴有口罩的人脸图像来训练得到人脸识别模型,那么该人脸识别模型将无法识别出佩戴有口罩的用户,换言之,当识别佩戴有口罩的用户时,该人脸识别模型会将该类用户划分为不含有人脸区域的一类。为了避免出现该现象,以及提高人脸识别的准确率,本技术通过若干张不佩戴有口罩的人脸图像和若干张佩戴有口罩的人脸图像训练神经网络模型,所得到的人脸识别模型可以同时识别佩戴有口罩的人脸和未佩戴有口罩的人
convolutional networks,多任务级联卷积神经网络)的神经网络模型,也是预先训练得到的模型。mtcnn为一种可以同时处理人脸检测和人脸特征点定位的卷积神经网络,所述多任务级联卷积神经网络包括三个多任务卷积神经网络,分别为推荐网络(proposal network,p-net)、优化网络(refine network,r-net)、输出网络(output network,o-net),每个多任务卷积神经网络均有三个学习任务,这三个学习任务分别为人脸分类任务、边框回归任务和人脸特征点定位任务。
[0094]
本技术通过预先训练好的多任务级联卷积神经网络对人脸区域进行人脸检测和人脸的局部特征点提取。需要注意的是,在将人脸区域输入至mtcnn之前,需要对人脸区域进行预处理以调整成符合mtcnn的输入格式。
[0095]
312,通过局部人脸特征信息识别出对应的身份信息。
[0096]
本步骤中,每一个人的局部人脸特征信息均不相同,比如一个人的眼距和另一个人的眼距可能相同,但这个人的其他局部特征信息必然不会和另一个人的其他局部特征信息一致。实际上,可以通过局部人脸特征信息来表征一个人的身份信息,而身份信息的作用是后续获取该用户在智能家居系统中的权限。
[0097]
313,将人脸区域输入至第一表情识别模型进行表情情绪识别,输出第一表情情绪数据。
[0098]
本技术的一个实施例,下面将对步骤311进行进一步地说明和阐述。步骤311可以包括但不限于以下步骤。
[0099]
对人脸区域进行回归预测并通过非最大压制合并,输出第一输出框。
[0100]
本步骤中,人脸区域输入至推荐网络中,推荐网络获得人脸区域的候选窗口与边界框的回归向量;用该边界框做回归预测并对候选窗口进行校准;通过非最大压制(nms)合并输出第一输出框。
[0101]
搭建多层卷积神经网络,对第一输出框中的非人脸候选窗口进行滤除,滤除非人脸候选窗口后的第一输出框通过全连接层输出。
[0102]
本步骤中,第一输出框作为优化网络的输入。优化网络通过多层卷积神经网络滤除绝大部分的非人脸候选窗口。之后,选用全连接层进行训练,利用边界框微调第一输出框,最后通过非最大压制(nms)去除重叠的候选窗口,输出处理后的第一输出框。
[0103]
滤除非人脸候选窗口后的第一输出框中的重叠候选窗口,输出局部人脸特征信息。
[0104]
本步骤中,对于处理后的第一输出框,输出网络对其进行二次重叠候选窗口的滤除操作,最终完成对人脸区域的特征点的提取,输出局部人脸特征信息。
[0105]
本技术的一个实施例,下面对步骤312进行进一步地说明和阐述。步骤312可以包括但不限于以下步骤。
[0106]
调取身份数据库。
[0107]
需要说明的是,身份数据库包含有若干个具备使用智能家居的权限的用户的信息。用户的信息至少包括对应的多个人脸特征信息。
[0108]
遍历身份数据库,找寻与局部人脸特征信息对应的身份信息并输出。
[0109]
参照图5所示,图5所示为本技术实施例提供的训练第一表情识别模型的流程图。本技术的一个实施例,下面将对训练第一表情识别模型的过程进行进一步地说明和阐述。
训练第一表情识别模型可以包括但不限于以下步骤。
[0110]
基于mini_xception网络和注意力机制搭建第一初始识别模型,将第一表情数据集按照第一比例分为第一训练集和测试集。
[0111]
需要说明的是,为了神经网络学习表情情绪识别的需要,创建第一表情数据集。第一表情数据集中包含有若干个尺寸均为48
×
48的第一人脸图像;并且第一人脸图像标签有相应的情绪类别标签,情绪类别标签包括高兴、悲伤、伤心、紧张、放松或惊讶中的任一种。其中,第一表情数据集分为第一训练集和测试集。可选地,第一表情数据集的80%用于训练,20%用于测试。即,上述第一比例满足第一训练集:测试集=8:2。
[0112]
本技术中,由于第一表情识别模型适用于佩戴有口罩的人脸表情情绪识别,因此,第一人脸图像的获取步骤为:采集原始人脸图像;对原始人脸图像,结合人脸关键点技术进行人脸戴口罩,并进行灰度化处理,最后输出第一人脸图像。可选地,人脸关键点技术为dlib包。
[0113]
需要说明的是,第一初始识别模型为基于mini_xception架构的深度神经网络模型。mini_xception是以xception架构为基础的,其含有四个残差深度可分离卷积,且去除了全连接层,批标准化及relu激活函数添加至每个卷积后,在预测过程中使用全局平均池和soft-max激活函数,且模型参数比传统的cnn少几十倍。
[0114]
本技术在构建基于mini_xception架构的神经网络模型后,在mini_xception网络的基础上,在全局平均池和卷积层之间添加通道注意力机制。注意力机制是聚焦于局部信息的机制。通道注意力机制原理是通过建模每个特征通道的重要程度,然后针对不同的任务增强或抑制不同的通道。添加注意力机制至网络模型中,使每个特征通道的重要性变得不一样,让神经网络重点关注权重值大一些的通道。
[0115]
将第一训练集输入至第一初始识别模型并进行训练。
[0116]
需要说明的是,在第一初始识别模型学习和训练的过程中,输入至神经网络中的第一人脸图像被转换为矩阵数据,通过卷积操作进行运算,在不断地迭代中,卷积核会逐渐对某类特征逐渐形成敏感性,即更新卷积核矩阵参数以减少评价指标loss值。
[0117]
可选地,若在第一初始识别模型训练过程中出现过拟合的情况,则停止训练。对第一人脸数据集中的第一人脸图像采用拉伸、平移、调节亮度等方法进行数据增强。之后,重新根据第一人脸数据集的第一训练集进行网络的训练。这样做可以提高数据集的数据量,使得训练的网络鲁棒性更强。
[0118]
通过测试集评估训练后的第一初始识别模型的性能;
[0119]
当训练后的第一初始识别模型的性能达到预设的条件时,输出第一表情识别模型。
[0120]
以上步骤中,通过测试集计算第一初始识别模型的准确率,以准确率作为评价模型性能的最主要指标。根据准确率和损失函数loss值来判断网络是否对当前特征敏感,如准确率收敛水平达不到标准或收敛速度过慢,更改网络结构、网络参数重新进行模型的训练,直至达到标准,保存网络参数权重。
[0121]
可选地,根据预设的第一时间周期重新训练第一表情识别模型。重新训练第一表情识别模型所使用的数据集为第一子表情数据集。第一子表情数据集中包含若干个尺寸均为48
×
48的第一子人脸图像,第一子人脸图像是历史进行表情识别时所采集的佩戴口罩的
用户的图像序列,而第一子人脸图像所标签的情绪类别标签为对应的表情情绪数据。这样做可以使得第一人脸数据集更具有针对性,使得第一表情识别模型的性能更贴近和符合佩戴口罩的用户的情绪识别。
[0122]
参照图6所示,图6所示为本技术实施例提供的根据第二表情识别模型,输出第二表情情绪数据的流程图。本技术的一个实施例,下面将对步骤320进行进一步地说明和阐述。步骤320可以包括但不限于以下步骤。
[0123]
321,当口罩检测结果为人脸区域未包括有口罩,通过人脸特征提取模型提取整体人脸特征信息。
[0124]
需要说明的是,整体人脸特征信息为人脸的所有特征点。在本技术实施例中,整体人脸特征信息包括眉毛特征信息、眉间特征信息、眼高特征信息、眼距特征信息、左眼特征信息、右眼特征信息、鼻尖特征信息、双嘴角特征信息中的一种或多种。在在本技术的其他实施例中,整体人脸特征信息也可以包括其他的特征点信息。
[0125]
需要说明的是,提取整体人脸特征信息的人脸特征提取模型与提取局部人脸特征信息的人脸特征提取模型相同。本技术对此不再赘述。
[0126]
322,通过整体人脸特征信息识别出对应的身份信息。
[0127]
本步骤中,每一个人的整体人脸特征信息均不相同,比如一个人的眼距和另一个人的眼距可能相同,但这个人的其他整体特征信息必然不会和另一个人的其他整体特征信息一致。实际上,可以通过整体人脸特征信息来表征一个人的身份信息,而身份信息的作用是后续获取该用户在智能家居系统中的权限。
[0128]
323,将整体人脸特征信息输入至第二表情识别模型进行表情情绪识别,输出第二表情情绪数据。
[0129]
本技术的一个实施例,下面将对步骤321进行进一步地说明和阐述。步骤321可以包括但不限于以下步骤。
[0130]
对人脸区域进行回归预测并通过非最大压制合并,输出第一输出框。
[0131]
本步骤中,人脸区域输入至推荐网络中,推荐网络获得人脸区域的候选窗口与边界框的回归向量;用该边界框做回归预测并对候选窗口进行校准;通过非最大压制(nms)合并输出第一输出框。
[0132]
搭建多层卷积神经网络,对第一输出框中的非人脸候选窗口进行滤除,滤除非人脸候选窗口后的第一输出框通过全连接层输出。
[0133]
本步骤中,第一输出框作为优化网络的输入。优化网络通过多层卷积神经网络滤除绝大部分的非人脸候选窗口。之后,选用全连接层进行训练,利用边界框微调第一输出框,最后通过非最大压制(nms)去除重叠的候选窗口,输出处理后的第一输出框。
[0134]
滤除非人脸候选窗口后的第一输出框中的重叠候选窗口,输出整体人脸特征信息。
[0135]
本步骤中,对于处理后的第一输出框,输出网络对其进行二次重叠候选窗口的滤除操作,最终完成对人脸区域的特征点的提取,输出整体人脸特征信息。
[0136]
本技术的一个实施例,下面将对步骤322进行进一步地说明和阐述。步骤322可以包括但不限于以下步骤。
[0137]
调取身份数据库。
[0138]
需要说明的是,身份数据库包含有若干个具备使用智能家居的权限的用户的信息。用户的信息至少包括对应的多个人脸特征信息。
[0139]
遍历身份数据库,找寻与整体人脸特征信息对应的身份信息并输出。
[0140]
参照图7所示,图7所示为本技术实施例提供的训练第二表情识别模型的流程图。本技术的一个实施例,下面将对训练第二表情识别模型的过程进行进一步地说明和阐述。训练第二表情识别模型可以包括但不限于以下步骤。
[0141]
以第二比例将第二表情数据集分为第二训练集和验证集。
[0142]
需要说明的是,数据集分为第二训练集和验证集。可选地,数据集的80%用于训练,20%用于测试。即第二比例满足第二训练集:验证集=8:2。
[0143]
本实施例中,为了神经网络学习表情情绪识别的需要,创建第二表情数据集,第二表情数据集中包含有若干个第二人脸图像。第二人脸图像标签有相应的情绪类别标签。情绪类别标签包括高兴、悲伤、伤心、紧张、放松或惊讶中的任一种。需要说明的是,第二人脸图像均为未遮挡人脸部分的人脸图像。
[0144]
基于vgg16神经网络构建第二初始识别模型,将第二训练集输入至第二初始识别模型并进行训练。
[0145]
需要说明的是,在第二表情数据集输入至第二初始识别模型之前,第二人脸图像需要先转换为第二初始识别模型的输入格式。
[0146]
本实施例中,第二初始识别模型采用vgg16(visual geometry group-16)卷积神经网络结构。vgg16卷积神经网络包含有13个卷积层、5个池化层、3个全连接层和1个输出层。
[0147]
其中,创建vgg19卷积神经网络结构的方法包括:
[0148]
步骤一,创建第一层卷积,包含两层卷积网络和一层maxpool层,两层卷积网络均为conv3-64,通过非线性校正,将得到的特征图传入下层处理。
[0149]
步骤二,创建第二层卷积,包含两层卷积网络和一层maxpool层,两层卷积网络均为conv3-128,通过非线性校正,将得到的特征图传入下层处理;
[0150]
步骤三,创建第三层卷积,包含三层卷积网络和一层maxpool层,三层卷积网络均为conv3-256,通过非线性校正,将得到的特征图传入下层处理;
[0151]
步骤四,创建第四层卷积,包含三层卷积网络和一层maxpool层,三层卷积网络均为conv3-512,通过非线性校正,将得到的特征图传入下层处理;
[0152]
步骤五,创建全连接层,包括三层全连接层和一层softmax层,三层全连接层分别为fc-4096、fc-4096和fc-1000,将得到的特征图传入下层处理。
[0153]
需要说明的是,全连接层fc-1000负责分类。
[0154]
步骤六,创建损失函数。
[0155]
需要说明的是,损失函数采用交叉熵损失函数。其中,交叉熵损失函数满足以下公式:
[0156][0157]
以上步骤中,maxpool层为池化层,可以大大缩减模型大小,提高计算速度,并可以提高提取特征的鲁棒性,增加非线性校正。
[0158]
可选地,若在第二初始识别模型训练过程中出现过拟合的情况,则停止训练。对第二人脸数据集中的第二人脸图像采用拉伸、平移、调节亮度等方法进行数据增强。之后,重新根据第二人脸数据集的第二训练集进行网络的训练。这样做可以提高数据集的数据量,使得训练的网络鲁棒性更强。
[0159]
通过验证集评估训练后的第二初始识别模型的性能;
[0160]
当训练后的第二初始识别模型的性能达到预设的条件时,输出第二表情识别模型。
[0161]
以上步骤中,通过验证集计算第二初始识别模型的准确率,以准确率作为评价模型性能的最主要指标。根据准确率和损失函数loss值来判断网络是否对当前特征敏感,如准确率收敛水平达不到标准或收敛速度过慢,更改网络结构、网络参数重新进行模型的训练,直至达到标准,保存网络参数权重。
[0162]
可选地,根据预设的第二时间周期重新训练第二表情识别模型。重新训练第二表情识别模型所使用的数据集为第二子表情数据集。第二子表情数据集中包含若干个尺寸均为48
×
48的第二子人脸图像,第二子人脸图像是历史进行表情识别时所采集的未佩戴有口罩的用户的图像序列,而第二子人脸图像所标签的情绪类别标签为对应的表情情绪数据。这样做可以使得第二人脸数据集更具有针对性,使得第二表情识别模型的性能更贴近和符合未佩戴口罩的用户的情绪识别。
[0163]
参照图8所示,图8所示为本技术实施例提供的根据表情情绪数据对当前智能家居环境进行调节的流程图。本技术的一个实施例,下面将对步骤400进行进一步地说明和阐述。步骤400可以包括但不限于以下步骤。
[0164]
410,获取表情情绪数据、身份信息和时间戳,判断同一时间戳是否存在有多个身份信息。
[0165]
需要说明的是,表情情绪数据通过第一表情识别模型或第二表情识别模型获得;身份信息通过整体人脸特征信息或局部人脸特征信息获得;时间戳为采集视频信息时的时间值。
[0166]
420,当同一时间戳存在有多个身份信息时,通过身份数据库识别身份信息对应的权限等级,筛选出具有最高权限等级的身份信息。
[0167]
本步骤中,若同一时间戳内有多个身份信息,则说明在装配有智能家居系统的环境下的用户数量大于或等于二,而所识别到的表情情绪数据也是大于或等于二。针对该情况,为了提供更优的智能家居控制策略,本技术遍历身份数据库获取对应的权限等级,选择具备最高权限等级的身份信息。例如,在在装配有智能家居系统的环境下的用户的数量为三个,第一用户的权限最高,其表情为高兴;第二用户的权限最低,其表情为惊讶;第三用户的权限适中,其表情为紧张。由于第一用户的权限最高,则根据第一用户的表情情绪对智能家居设备进行控制,如控制音响设备播放愉快的音乐。
[0168]
430,获取当前智能家居环境,根据基于先验知识的数据融合算法生成与当前智能家居环境对应的环境实际值;
[0169]
440,根据具有最高权限等级的身份信息对应的表情情绪数据,对智能家居环境进行融合分析,得到环境期望值;
[0170]
450,根据环境实际值和环境期望值之间的差值,生成与表情情绪所对应的控制指
令,通过控制指令控制智能家居设备启动,对当前智能家居环境进行调节,直到当前智能家居环境达到环境期望值。
[0171]
可选地,调取智能家居环境调控的历史记录,获取历史调控时环境实际值和环境期望值之间的差值以及历史调控指令,记作历史环境调控数据。根据环境实际值和环境期望值之间的差值,结合历史环境调控数据,自动匹配出最优的表情情绪所对应的控制指令。
[0172]
以上步骤中,若当前的智能家居环境与用户的表情情绪不对应,则依据基于先验知识的数据融合算法得到环境实际值,将用户的表情情绪对应的环境值进行分析和处理,生成环境期望值。本实施例中,引入用户不同情感状态与智能家居环境数据相关联的的先验知识,设定智能家居环境数据的基准数据向量集,采用基于先验知识的数据融合算法对数据进行融合分析,将情感状态加入到环境数据向量集中,为智能家居环境控制加入情感调节,增强了智能家居环境的舒适化和人性化特征。
[0173]
本具体实施例中,装配有智能家居系统的环境下可能存在有多个使用者,此时则会出现多个身份信息和多个表情情绪数据,而一个表情情绪数据对应一个智能家居控制策略。以上步骤中分辨同一时间戳是否有多个身份信息是为了分辨装配有智能家居系统的环境下的使用者的数量,根据使用者的数量提供更优的智能家居控制策略。本技术遍历身份数据库获取对应的权限等级,选择具备最高权限等级的身份信息,根据该身份信息对智能家居设备进行对应的控制。
[0174]
进一步地,步骤410中,若同一所述时间戳不存在有多个所述身份信息时,则执行以下步骤:
[0175]
460,同一所述时间戳不存在有多个所述身份信息时,直接输出与表情情绪所对应的控制指令控制智能家居设备启动,对当前智能家居环境进行调节。
[0176]
本技术的一个可选实施例,步骤400还可以包括以下步骤:
[0177]
如果在相邻两个时间戳内的表情情绪数据出现变化,根据相邻两个时间戳内的表情情绪数据,结合复合情绪映射表,得出相邻两个时间戳内的表情情绪数据所对应的复合情绪数据,复合情绪数据作为表情情绪数据输出。
[0178]
本实施例中,经不断的研究发现包括高兴、悲伤、伤心、紧张、放松或惊讶这七类基本表情并不能完全涵盖人们在日常生活中所表露的情感。针对该问题,2014年的pnas上发表的一篇文章研究提出了符合表情的概念,并且指出多个离散的基础表情能结合在一起从而形成复合表情。例如当人们遇到意外的惊喜时,应该是既开心又惊讶的。当智能家居的使用用户的表情情绪为复合情绪时,若直接根据表情情绪数据对智能家居设备进行控制,则可能会导致出现控制误差,反而会满足不了用户的实际需求。为了进一步地提高表情情绪识别的准确率,本技术通过计算相邻两个时间戳内的表情情绪数据是否有变化,若相邻两个时间戳内的表情情绪数据有变化,则可以说明用户的表情情绪实际上是复合情绪。对此,调取预设的复合情绪映射表,得到实际上用户的表情情绪。
[0179]
另外,本技术还提供了基于表情识别的智能家居控制系统,系统包括:
[0180]
至少一个处理器;
[0181]
至少一个存储器,用于存储至少一个程序;
[0182]
当至少一个程序被至少一个处理器执行,使得至少一个处理器实现上述基于表情识别的智能家居控制方法。
[0183]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。
[0184]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0185]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0186]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0187]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0188]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0189]
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1