基于轻量级人脸表情强度识别的人机交互控制方法和装置

文档序号:32987005发布日期:2023-01-17 22:53阅读:23来源:国知局
基于轻量级人脸表情强度识别的人机交互控制方法和装置

1.本发明涉及人机交互系统技术领域,尤其涉及一种基于轻量级人脸表情强度识别的人机交互控制方法和装置。


背景技术:

2.人脸表情作为人类情感表达的一个重要方式,在日常生活中的情感表达最为常见、直接和有效。ekman和friesen在1971研究了面部表情普适性的问题,研究表明具有相同文化人群的情绪概念与面部行为具有关联性,同时概括出6种人类的基本表情(即高兴、恐惧、愤怒、悲伤、惊讶、厌恶),连同中性的表情,成为此后至今人脸表情识别和分类的最常用的基础表情。目前人脸表情识别的方法主要可以分为基于传统的机器学习的方法和基于深度学习的方法。其中基于机器学习的方法是通过人工设计表情特征的描述算法来提取人脸的表情特征,再将这些特征输入到分类器中进行表情的分类,最终输出人脸表情的标签;而基于深度学习的方法起源于神经网络,是机器学习的一个分支,通过深层的网络结构对神经网络进行高效的训练,可以自动的提取人脸表情的特征,并进行分类。在表情的类别分类的基础上,进一步对提取的表情特征进行回归拟合或者强度的细分类,从而获取表情的强度信息。但是在人机交互的自然环境下,由于头部运动和光线变化等因素,容易引入遮挡、视角偏移、照片模糊和光线不均等干扰,从而影响表情识别的准确。为了降低干扰因素的影响,需要提高对正常面部区域特征提取能力,同时为了便于识别系统在普通设备的部署,需要对精简算法模型的大小和计算复杂度,在精度和轻量化方面取得平衡。
3.下面介绍相关专利:
4.(1)表情强度变化的人脸表情识别方法、系统及存储介质。
5.公开号cn114550247 a;
6.摘要:本发明公开了一种表情强度变化的人脸表情识别方法、系统及存储介质。该方法包括:获取数据样本集,所述数据样本集包括峰值表情样本和非峰值表情样本;利用人脸特定点定位,获取人脸的关键区域,再提取所述数据样本集中每个样本的特征向量,所有样本的特征向量组成特征矩阵;再构建第一邻接矩阵和第二邻接矩阵;将所述特征矩阵、所述第一邻接矩阵和所述第二邻接矩阵输入到图卷积神经网络进行训练。本发明能够充分利用强度相似表情之间的局部信息、峰值表情与非峰值表情之间的峰导信息,能够有效提高强度变化表情的分类精度。
7.(2)一种基于隐变量分析的人脸表情强度识别方法及系统。
8.公开号cn112686117 a;
9.摘要:本发明公开了一种基于隐变量分析的人脸表情强度识别方法及系统。该方法采用孪生卷积神经网络结构,将卷积神经网络前端提取到的人脸特征通过隐变量分析方法划分为正交的身份子空间和表情子空间,最小化孪生网络两个支路的身份子空间特征差异,能有效地分离身份特征和表情特征,同时对表情子空间做基于时序的排序约束和半监督回归训练,得到表情强度识别模型,可用于连续的人脸表情强度识别。本发明将隐变量分
析用于表情强度识别,将人脸特征划分为身份相关特征和表情相关特征,抑制身份信息对表情强度信息的干扰,能有效提高表情强度识别的鲁棒性。
10.(3)一种用于康复护理机器人床的控制方法和设备。
11.公开号cn104622655 b;
12.摘要:本发明涉及一种用于康复护理机器人床控制方法和设备,康复护理机器人床用于对患者进行康复护理,康复护理机器人床包括多个运动部件,方法包括步骤:a.根据患者需求设定各运动部件的翻转速度;b.接收动作指令;c.根据动作指令生成各运动部件的翻转动作,并控制各运动部件执行相应翻转动作。与现有技术相比,本发明具有控制舒适、可减少医护人员以及解放劳动力等优点。
13.(4)一种基于智能陪伴机器人的人脸表情识别方法。
14.公开号cn111191598 a;
15.摘要:本发明属于视频监控技术领域,涉及一种人脸表情识别方法。包括:对待检测视频图像进行预处理;对预处理后的视频帧采用人脸检测算法进行人脸检测,得到人脸信息;对检测出的人脸的面部表情进行识别,并输出识别结果。本发明的方法,采用多种级联分类器相结合的人脸检测方法,通过提取输入图像的多种不同特征并结合不同的分类器,可得到图像中更准确的人脸位置及人脸总数,检测精确度高、误检少;自搭建用于表情识别的深度卷积网络模型;采用adam算法来优化损失函数,速度快、学习效率高且可解决学习率消失等常见问题;通过添加卷积层来加深卷积神经网络的深度,可得到输入人脸图像的更具代表性的特征,提高表情分类结果,算法实现简单、耗费资源少。
16.人脸表情强度识别算法部署于人机交互系统时需要考虑与硬件设备的兼容,这就对算法的参数量和计算复杂性有较高的要求。目前对于人脸表情的识别的研究主要集中在对人脸表情的分类任务,对于表情强度的研究及轻量化设计仍不足,尤其限制算法在有实时控制需求的人机交互系统中的应用。
17.基于人脸表情的人机交互系统的主要利用人脸的表情的类别实现用户的意图理解,完成相应的系统相应或控制目标,但是忽略了表情的强度信息,致使难以实现较为的实现对用户意图和心理的状态的理解,难以完成复杂的系统响应和更为人性化的控制。
18.因此,如何解决当前技术尚无表情强度识别的轻量化设计,和如何避免人机交互控制过程中没有更人性化控制的弊端,仍然是本领域技术人员亟待解决的问题。


技术实现要素:

19.本发明提供一种基于轻量级人脸表情强度识别的人机交互控制方法和装置,用以解决当前技术尚无表情强度识别的轻量化设计和人机交互控制过程中没有更人性化控制的问题。
20.本发明提供一种基于轻量级人脸表情强度识别的人机交互控制方法,包括:
21.采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像;
22.对人脸图像进行预处理,得到预处理后的目标人脸图像;
23.将所述目标人脸图像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型;
24.将所述表情类别和表情强度量化,得到表情类别强度值;
25.将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。
26.本发明还提供的一种基于轻量级人脸表情强度识别的人机交互控制装置,包括:
27.采集检测单元,用于采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像;
28.预处理单元,用于对人脸图像进行预处理,得到预处理后的目标人脸图像;
29.类别强度单元,用于将所述目标人脸图像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型;
30.量化单元,用于将所述表情类别和表情强度量化,得到表情类别强度值;
31.人机交互单元,用于将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。
32.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的基于轻量级人脸表情强度识别的人机交互控制方法的步骤。
33.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的基于轻量级人脸表情强度识别的人机交互控制方法的步骤。
34.本发明提供的基于轻量级人脸表情强度识别的人机交互控制方法和装置,通过采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像;对人脸图像进行预处理,得到预处理后的目标人脸图像;将所述目标人脸图像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型;将所述表情类别和表情强度量化,得到表情类别强度值;将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。本发明提供的方法和装置分别设计高性能和轻量化的多任务学习人脸表情及强度识别网络,再通过知识蒸馏将高性能模型的知识蒸馏到轻量级模型中,从而在不过分降低网络识别精度的同时降低网络的冗余结构,获取具有较高性能的轻量级人脸表情强度识别模型,便于在人机交互系统中的部署,还根据人脸表情的强度,以运动训练的运动控制为背景,提出了以表情类别及强度进行人机交互和系统控制的方法,增强系统的交互智能性。
附图说明
35.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
36.图1为本发明提供的基于轻量级人脸表情强度识别的人机交互控制方法的流程示意图;
37.图2为本发明提供的基于知识蒸馏的轻量级多任务表情识别方法结构图;
38.图3为本发明提供的人机交互控制网络的结构示意图;
39.图4为本发明提供的基于人脸表情强度的人机交互控制方法系统流程图;
40.图5为本发明提供的基于轻量级人脸表情强度识别的人机交互控制装置的结构示意图;
41.图6是本发明提供的电子设备的结构示意图。
具体实施方式
42.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.由于当前技术尚无表情强度识别的轻量化设计和存在人机交互控制过程中没有更人性化控制的问题。下面结合图1描述本发明的基于轻量级人脸表情强度识别的人机交互控制方法。图1为本发明提供的基于轻量级人脸表情强度识别的人机交互控制方法的流程示意图,如图1所示,该方法包括:
44.步骤110,采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像。
45.具体地,先采集用户图像,再进行人脸检测,人脸检测即将用户图像输入人脸检测模型,输出人脸定位结果,其中,人脸检测模型是通过大量用户图像和对应的人脸定位结果标签进行训练后得到的,人脸检测的核心部分是人脸/非人脸的二分类器和人脸边界的回归框标定。首先对采集到的人脸图片进行灰度化处理,以减少数据量,提升检测精度。再将处理好的图像输入到人脸检测网络进行人脸定位和边界框的标定,对于样本xi,人脸区域检测部分的交叉熵损失函数为:
[0046][0047]
其中,pi为该区域检测网络检测到的人脸概率,为该人脸概率的真实标签。
[0048]
在获取人脸区域的同时,还需要进一步的标定人脸区域的边界框,从而便于后续基于人脸随动的图像数据采集。采用欧式距离的损失函数实现对边界框的回归计算:
[0049][0050]
其中,为经过神经网络回归计算出的人脸边界框坐标框值,为真实标签的人脸边界框坐标值。
[0051]
在获取人脸边界框的坐标值后,即可根据框内的人脸图像进行人脸识别任务。
[0052]
继续进行人脸识别,在人脸表情识别前需要采集用户的人脸图片构建数据库,数据库中包含用户的人脸图像及姓名标签。在人脸识别的过程中,首先需要对人脸检测采集到的人脸边界图像进行归一化处理,再输入到人脸识别的主干网络中进行特征的提取,然
后通过神经网络的全连接层进行展平获取特征向量以代替输入的图像信息,接着通过欧几里得范数进行标准化处理,便于后续的人脸比对:
[0053][0054]
最后通过三元组的欧几里得距离求解损失函数,获取识别的置信度:
[0055][0056]
其中,为采集到的基准图像的特征向量,为正样本,为负样本。
[0057]
步骤120,对人脸图像进行预处理,得到预处理后的目标人脸图像。
[0058]
具体地,对人脸图像进行预处理,优选对人脸图像进行归一化预处理。
[0059]
步骤130,将所述目标人脸图像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型。
[0060]
具体地,将目标人脸图像输入表情模型,输出表情类别和表情强度,其中表情模型是基于大量的人脸图像样本、对应的表情类型标签和对应的表情强度标签进行训练得到的,而且训练过程中采用了知识蒸馏训练方法,以训练完成后得到的轻量级网络构建表情类别和表情强度的识别网络模型。
[0061]
步骤140,将所述表情类别和表情强度量化,得到表情类别强度值。
[0062]
具体地,再获得表情类别和表情强度后,需要使表情类别和表情结果统一量化成数值表示,此处需要说明的是,表情类别分为7种,分别是愤怒,厌恶、恐惧、高兴、悲伤和惊讶,加上中性的表情。
[0063]
步骤150,将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。
[0064]
具体地,基于模糊控制具有快速响应的优势和pid控制具有较好的控制性能的优势,在本发明中,以模糊pid方法为例,被控对象为驱动单元(驱动单元可以是电机,但本发明实施例不局限于电机),控制量为驱动单元的转速,搭建基于表情强度的模糊pid人机交互控制方法,通过人脸的表情信息实现对系统的速度调节和设定值/模式的调整。人机交互控制网络中包括两个模糊控制器,其中,第一模糊控制器负责实现对速度值设定的调整(模式),其主要作用是通过表情信息进行快速响应;第二模糊控制负责对速度的稳定性进行调节,主要是通过表情信息实现对驱动单元的转矩的控制,实现系统对用户训练的助力。
[0065]
本发明提供的方法,通过采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像;对人脸图像进行预处理,得到预处理后的目标人脸图像;将所述目标人脸图像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型;将所述表情类别和表情强度量化,得到表情类别强度值;将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。本发明提供的方法分别设计高性能和轻量化的多任务学习人脸表情及强度识别网络,再通过知识蒸馏将高性能模型的知识蒸馏到轻量级模型中,从而在不过分降低网络识别精度的同时降低网络的冗余结构,获取具有较高性能的轻量级人脸表情强度识别模型,便于在人机交互系统中的部署,还根据人脸表情的
强度,以运动训练的运动控制为背景,提出了以表情类别及强度进行人机交互和系统控制的方法,增强系统的交互智能性。
[0066]
基于上述实施例,该方法中,在对人脸图像进行预处理之前,还包括:
[0067]
通过比对摄像头的视觉中心与人脸检测所获取的人脸边界框中心的坐标进行摄影头的位置修正,连续人脸随动的采集用户图像。
[0068]
具体地,基于人脸的随动图像采集,需要采用有俯仰和偏航角摄像头云台或三维电机伺服系统,通过比对摄像头的视觉中心与人脸检测所获取的人脸边界框中心的坐标进行摄影头的位置修正,以保证在人机交互过程中,消除人体移动对人脸跑出检测区域的影响,同时保证检测的人脸相对校正,以降低头部姿态对于表情强度识别的影响。
[0069]
基于上述实施例,该方法中,所述知识蒸馏训练方法,具体包括:
[0070]
构建基于多任务学习的深层神经网络作为教师网络,构建基于多任务学习的浅层神经网络作为学生网络,利用表情数据集对所述教师网络进行训练,并使所述学生网络学习所述教师网络的参数及结果输出,训练完成的学生网络作为所述表情模型的轻量化网络结构。
[0071]
具体地,知识蒸馏是神经网络轻量化的一个重要方法,在本发明中,采用知识蒸馏的方法构建轻量级的表情及轻度识别网络模型。其主要的思想是通过构建基于多任务学习的深层神经网络作为教师网络,再构建基于多任务学习的浅层神经网络作为学生网络,之后设置初始超参数,初始参数,并选择优化算法,接着利用表情数据集对教师网络进行训练,并指导学生网络学习教师网络的相关参数及结果输出,从而在不过分降低准确率的同时实现对网络的结构的精简,实现网络的轻量化,教师网络和学生网络的区别在于教师网络的模型更大结构更复杂,对特征的提取能力更强,图2为本发明提供的基于知识蒸馏的轻量级多任务表情识别方法结构图,网络轻量化的总体结构如图2所示。
[0072]
在教师网络和学生网络中,均采用多任务学习的方式进行表情类别和表情强度的识别,以关联任务共享特征信息,提升网络的性能并减少设备内存量的占用。均可采用交叉熵损失函数,计算公式为:
[0073][0074]
其中,lc是表情类别识别任务的损失函数,m表示训练批次的样本数,n为表情类别数,p(x
ij
)表示表情样本的类别标签,q(x
ij
)表示i类别样本被判别为j的概率,li是表情强度识别任务的损失函数,o表示表情的强度等级,w(x
ij
)表示表情强度的真实标签,h(x
ij
)表示i样本强度被判别为j强度的概率。
[0075]
通过教师网络和学生网络联合训练的方式实现网络的知识蒸馏,其计算公式为:
[0076]
ld=λl
soft
+(1-λl
hard
)
[0077]
其中,l
soft
是在同一温度下学生网络softmax的输出与教师网络产生的软目标交叉熵,其计算公式为:
[0078]
[0079]
其中,n表示标签的总数量,和表示在温度t下,教师和学生网络在j类的输出值,计算式为:
[0080][0081]
其中,vi和zi分别表示教师和学生网络的softmax层的概率输出。
[0082]
l
hard
表示硬标签的损失,计算公式为:
[0083][0084]
其中,cj为的真实标签,cj∈{0,1},正标签为1,负标签为0。
[0085]
基于上述实施例,该方法中,所述教师网络中引入无参的simam注意力机制。
[0086]
具体地,在神经网络中采用注意力机制模块进一步增强知识教师网络对关键特征的提取能力,为了不影响教师网络的结构,在本发明中引入无参的simam注意力机制,其表达式为:
[0087][0088]
其中,分别代表除t以外的神经元平均值和方差,m表示每个通道有m个能量函数,xi表示目标神经元和输入特征单通道的其他神经元。该公式表明,能量函数越低,其对视觉处理的作用就越重要。
[0089]
通过同或运算的缩放,实现对特征进行细化,其公式为:
[0090][0091]
其中,e是所有跨通道和空间维度的x表示输入的特征,sigmoid的作用是限制e的值,防止其过大,且不会影响该神经元的重要性。
[0092]
基于上述实施例,该方法中,将所述表情类别和表情强度量化,得到表情类别强度值,具体包括:
[0093]
以高兴表情作为积极表情,生气、厌恶、悲伤、害怕和惊讶作为消极表情,中性表情的强度为0,定义积极表情的强度为正值,消极表情的强度为负值,初始表情类别强度值通过如下公式获取:
[0094][0095]
其中,s是表情类别的强度值;
[0096]
再通过归一化处理初始表情类别强度值,得到量化后的表情类别强度值,公式如下:
[0097][0098]
其中,max(s)是表情强度最大值,min(s)是表情强度最小值。
[0099]
具体地,对于多输入的控制系统,随着数量的递增,其控制的复杂度会大幅增加,严重影响控制的实时性,因此,对于表情信息输入,需要进行量化,将两输入的信息量化为单一输入的信号。对于状态的划分,也可以进一步的简化,在实际的控制中可以将表情划分为积极和消极两类,从而减少对控制方案的设计,也可以保留原有的表情类别以丰富人机交互响应的多样性。
[0100]
在本发明中,以积极和消极表情及其强度作为输入信号,其中高兴表情作为积极表情,生气、厌恶、悲伤、害怕和惊讶作为消极表情,中性表情的强度为0。定义积极情绪的强度为正值,消极情绪的强度为负值。
[0101][0102]
最后进行归一化,计算公式为:
[0103][0104]
表情强度s的最大值和最小值为强度的取值区间,由表情模型设定。
[0105]
基于上述实施例,该方法中,所述人机交互控制网络的结构为:
[0106]
表情类别强度值分别连接第一模糊控制器的第一输入端和第二模糊控制器的第二输入端,所述第一模糊控制器输出端连接速度值设定模块的输入端,所述速度值设定模块的输出端连接比较器的第一输入端,所述比较器的输出端分别连接微分器的输入端和优化算法模块的输入端,所述微分器的输出端连接所述优化算法模块的输入端,所述优化算法的输出端分别连接所述第一模糊控制器的第二输入端和所述第二模糊控制器的第二输入端,所述第二模糊控制器输出三个控制器参数kp、ki和kd控制pid控制器,pid控制器控制驱动单元输出特定转速,所述驱动单元输出的特定转速通过速度检测器测量后输出至所述比较器的第二输入端。
[0107]
具体地,图3为本发明提供的人机交互控制网络的结构示意图,基于模糊控制具有快速响应的优势和pid控制具有较好的控制性能的优势,在本发明中,以模糊pid方法为例,被控对象以电机作为驱动单元(本发明不局限于电机),控制量为驱动单元的转速,搭建基于表情强度的模糊pid人机交互控制方法,通过人脸的表情信息实现对系统的速度调节和设定值/模式的调整,如图3所示。第一模糊控制器相当于图3中的模糊控制器a,第二模糊控制器相当于图3中的模糊控制器b,模糊控制器a负责实现对速度值设定的调整(模式),其主要作用是通过表情信息进行快速响应;模糊控制b负责对速度的稳定性进行调节,主要是通过表情信息实现对驱动单元的转矩的控制,实现系统对用户训练的助力。
[0108]
在本发明实施例中,第一模糊控制器和第二模糊控制器的模糊控制其均分为五部分,分别是:输入层、模糊化层、模糊推理层、归一化层,输出层。
[0109]
如图3所示,在输入层中,包含三个输入,分别是偏差e、偏差变化率de/dt和表情信
息s,设定为:
[0110][0111]
其中和分别代表模糊控制器的输入和输出。
[0112]
在模糊化层,首先需要对输入量进行模糊量化,从而计算输入分量的隶属度值。设定误差e的取值区间为e∈[a,b],则其模糊论域为[a1,b1],通过离散精确量法进行模糊量化,计算公式为:
[0113][0114]
设定输出变量的模糊论域和语言变量划分与输入一致,假定语言变量设为h个,则经过隶属度函数后模糊化层的语言变量为3h个,公式为:
[0115][0116]
其中,d
ij
为隶属度函数的中心,l
ij
为隶属度函数的宽度,是模糊化层的输入,是输入层的输出;
[0117]
在模糊推理层,模糊规则有h3个,通过模糊规则的适用度进行模糊规则的匹配,计算公式为:
[0118][0119]
其中,βn为模糊规则的适用度,是模糊推理层的输入,是模糊化层的输出;
[0120]
归一化层的运算公式为:
[0121][0122]
其中,是归一化层的输入,是模糊推理层的输出;
[0123]
模糊控制器a的输出层对应速度设定值的参数m,模糊控制器b的输出层对应pid控制器的参数,k
p
、ki和kd,公式为:
[0124][0125]
基于上述实施例,该方法中,所述优化算法模块采用粒子群优化算法。
[0126]
具体地,通过优化算法,对模糊控制器的速度输入信息e和ec进行迭代更新,从而获取全局的最优解。优化算法也是优化控制的策略,以粒子群优化算法为例,其计算公式
为:
[0127][0128]
其中,vi(t)表示粒子速度,xi(t)表示粒子位置,ω表示惯性权重,c1,c2为学习因子,t为当前的迭代次数,r1,r2∈[0,1]为随机数,pbesti(t)为个体最优解,gbesti(t)为全局最优解。
[0129]
如图3所示,当输入量e和ec完成迭代优化,获取全局最优解时,将量化因子ke和kec输入于模糊控制器,从而转化为pid控制器,进行参数调节。
[0130]
基于上述实施例,本发明还提供一种基于人脸表情强度的人机交互控制方法,图4为本发明提供的基于人脸表情强度的人机交互控制方法系统流程图,如图4所示,该方法主要包括以下步骤:
[0131]
步骤一:人脸检测及识别。进行初步的图像采集,判断用户是否在监控的画面内。
[0132]
(1)人脸检测
[0133]
人脸检测的核心部分是人脸/非人脸的二分类器和人脸边界的回归框标定。首先对采集到的人脸图片进行灰度化处理,以减少数据量,提升检测精度。再将处理好的图像输入到人脸检测网络进行人脸定位和边界框的标定,对于样本xi,人脸区域检测部分的交叉熵损失函数为:
[0134][0135]
其中,pi为该区域检测网络检测到的人脸概率,为该人脸概率的真实标签。
[0136]
在获取人脸区域的同时,还需要进一步的标定人脸区域的边界框,从而便于后续基于人脸随动的图像数据采集。采用欧式距离的损失函数实现对边界框的回归计算:
[0137][0138]
其中,为经过神经网络回归计算出的人脸边界框坐标框值,为真实标签的人脸边界框坐标值。
[0139]
(2)人脸识别
[0140]
在人脸表情识别前需要采集用户的人脸图片构建数据库,数据库中包含用户的人脸图像及姓名标签。在人脸识别的过程中,首先需要对人脸检测采集到的人脸边界图像进行归一化处理,再输入到人脸识别的主干网络中进行特征的提取,然后通过神经网络的全连接层进行展平获取特征向量以代替输入的图像信息,接着通过欧几里得范数进行标准化处理,便于后续的人脸比对:
[0141][0142]
最后通过三元组的欧几里得距离求解损失函数,获取识别的置信度:
[0143][0144]
其中,为采集到的基准图像的特征向量,为正样本,为负样本。当采集的图像中出现用户人脸,即可进行后续操作。
[0145]
步骤二:根据人脸检测及识别所获取的用户人脸边界框,实现对摄像头云台的控制,从而获取相对正脸的人脸图像,并进行归一化预处理。
[0146]
基于人脸的随动图像采集,需要采用有俯仰和偏航角摄像头云台或三维电机伺服系统,通过比对摄像头的视觉中心与人脸检测所获取的人脸边界框中心的坐标进行摄影头的位置修正,以保证在人机交互过程中,消除人体移动对人脸跑出检测区域的影响,同时保证检测的人脸相对校正,以降低头部姿态对于表情强度识别的影响。
[0147]
步骤三:利用神经网络进行人脸表情的特性提取,实现对人脸表情类别和强度识别,最后采用知识蒸馏机制对网络进行轻量级改进。
[0148]
知识蒸馏是神经网络轻量化的一个重要方法,在本发明中,采用知识蒸馏的方法构建轻量级的表情及轻度识别网络模型。其主要的思想是通过构建基于多任务学习的深层神经网络作为教师网络,再构建基于多任务学习的浅层神经网络作为学生网络,之后设置初始超参数,初始参数,并选择优化算法,接着利用表情数据集对教师网络进行训练,并指导学生网络学习教师网络的相关参数及结果输出,从而在不过分降低准确率的同时实现对网络的结构的精简,实现网络的轻量化,总体结构如图2所示。
[0149]
在本发明中,令数据集为:
[0150]
d={(c1,i1),(c2,i2),...,(cn,in)},i=1,2,...,n
[0151]
其中,ci是表情的类别信息和ii为表情的强度信息。
[0152]
在神经网络中采用注意力机制模块进一步增强知识教师网络对关键特征的提取能力,为了不影响教师网络的结构,在本发明中引入无参的simam注意力机制,其表达式为:
[0153][0154]
其中,分别代表除t以外的神经元平均值和方差,m表示每个通道有m个能量函数,xi表示目标神经元和输入特征单通道的其他神经元。该公式表明,能量函数越低,其对视觉处理的作用就越重要。
[0155]
通过同或运算的缩放,实现对特征进行细化,其公式为:
[0156][0157]
其中,e是所有跨通道和空间维度的x表示输入的特征,sigmoid的作用是限制e的值,防止其过大,且不会影响该神经元的重要性。
[0158]
在教师网络和学生网络中,均采用多任务学习的方式进行表情类别和表情强度的识别,以关联任务共享特征信息,提升网络的性能并减少设备内存量的占用。均可采用交叉熵损失函数,计算公式为:
[0159][0160]
其中,lc是表情类别识别任务的损失函数,m表示训练批次的样本数,n为表情类别
数,p(x
ij
)表示表情样本的类别标签,q(x
ij
)表示i类别样本被判别为j的概率,li是表情强度识别任务的损失函数,o表示表情的强度等级,w(x
ij
)表示表情强度的真实标签,h(x
ij
)表示i样本强度被判别为j强度的概率。
[0161]
通过教师网络和学生网络联合训练的方式实现网络的知识蒸馏,其计算公式为:
[0162]
ld=λl
soft
+(1-λl
hard
)
[0163]
其中,l
soft
是在同一温度下学生网络softmax的输出与教师网络产生的软目标交叉熵,其计算公式为:
[0164][0165]
其中,n表示标签的总数量,和表示在温度t下,教师和学生网络在j类的输出值,计算式为:
[0166][0167]
其中,vi和zi分别表示教师和学生网络的softmax层的概率输出。
[0168]
l
hard
表示硬标签的损失,计算公式为:
[0169][0170]
其中,cj为的真实标签,cj∈{0,1},正标签为1,负标签为0。
[0171]
经过知识蒸馏,实现由教师到学生网络的知识迁移,完成网络的轻量化压缩。
[0172]
步骤四:将网络的识别人脸表情结果作为信号输入到人机交互系统,实现基于人脸表情强度的人机交互控制。
[0173]
基于模糊控制具有快速响应的优势和pid控制具有较好的控制性能的优势,在本发明中,以模糊pid方法为例,被控对象为驱动单元,控制量为驱动单元的转速,搭建基于表情强度的模糊pid人机交互控制方法,通过人脸的表情信息实现对系统的速度调节和设定值/模式的调整,如图3所示。
[0174]
(1)表情及强度的输入量化
[0175]
对于多输入的控制系统,随着数量的递增,其控制的复杂度会大幅增加,严重影响控制的实时性,因此,对于表情信息输入,需要进行量化,将两输入的信息量化为单一输入的信号。对于状态的划分,也可以进一步的简化,在实际的控制中可以将表情划分为积极和消极两类,从而减少对控制方案的设计,也可以保留原有的表情类别以丰富人机交互响应的多样性。
[0176]
在本发明中,以积极和消极表情及其强度作为输入信号,其中高兴表情作为积极表情,生气、厌恶、悲伤、害怕和惊讶作为消极表情,中性表情的强度为0。定义积极情绪的强度为正值,消极情绪的强度为负值。
[0177][0178]
最后进行归一化,计算公式为:
[0179][0180]
表情强度s的最大值和最小值为强度的取值区间,由表情强度识别网络设定。
[0181]
(2)优化算法
[0182]
通过优化算法,对模糊控制器的速度输入信息e和ec进行迭代更新,从而获取全局的最优解。以粒子群优化算法为例,其计算公式为:
[0183][0184]
其中,vi(t)表示粒子速度,xi(t)表示粒子位置,ω表示惯性权重,c1,c2为学习因子,t为当前的迭代次数,r1,r2∈[0,1]为随机数,pbesti(t)为个体最优解,gbesti(t)为全局最优解。
[0185]
当输入量e和ec完成迭代优化,获取全局最优解时,将量化因子ke和kec输入于模糊控制器,从而转化为pid控制器,进行参数调节。
[0186]
(3)基于表情强度的人机交互控制
[0187]
模糊控制器a负责实现对速度值设定的调整(模式),其主要作用是通过表情信息进行快速响应;模糊控制b负责对速度的稳定性进行调节,主要是通过表情信息实现对电机的转矩的控制,实现系统对用户训练的助力。
[0188]
在本发明中,模糊控制其均分为五部分,分别是:输入层、模糊化层、模糊推理层、归一化层,输出层。
[0189]
在输入层中,包含三个输入,分别是偏差e、偏差变化率de/dt和表情信息s,设定为:
[0190][0191]
其中和分别代表模糊控制器的输入和输出。
[0192]
在模糊化层,首先需要对输入量进行模糊量化,从而计算输入分量的隶属度值。设定误差e的取值区间为e∈[a,b],则其模糊论域为[a1,b1],通过离散精确量法进行模糊量化,计算公式为:
[0193][0194]
设定输出变量的模糊论域和语言变量划分与输入一致,假定语言变量设为h个,则经过隶属度函数后模糊化层的语言变量为3h个,公式为:
[0195][0196]
其中,d
ij
为隶属度函数的中心,l
ij
为隶属度函数的宽度,是模糊化层的输入,是输入层的输出;
[0197]
在模糊推理层,模糊规则有h3个,通过模糊规则的适用度进行模糊规则的匹配,计算公式为:
[0198][0199]
其中,βn为模糊规则的适用度,是模糊推理层的输入,是模糊化层的输出;
[0200]
归一化层的运算公式为:
[0201][0202]
其中,是归一化层的输入,是模糊推理层的输出;
[0203]
模糊控制器a的输出层对应速度设定值的参数m,模糊控制器b的输出层对应pid控制器的参数,k
p
、ki和kd,公式为:
[0204][0205]
目前基于人脸表情的人机交互系统仅仅使用表情类别作为响应,其交互方式较为单一,且忽略了表情的强度信息,此外,在人脸表情识别中,轻量化程度仍有较大的提升空间,因此本发明提出了一种结合基于轻量级人脸表情强度识别的人机交互控制的方法,着重于在精简人脸表情识别网络的结构的同时,将丰富的表情强度信息引入人机交互系统中,实现更加丰富的人机交互。本发明的优点在于人脸表情及强度识别系统能够部署于低存储和低计算能力的设备,同时将表情强度引入于人机交互系统,丰富人机交互的控制途径。
[0206]
下面对本发明提供的基于轻量级人脸表情强度识别的人机交互控制装置进行描述,下文描述的基于轻量级人脸表情强度识别的人机交互控制装置与上文描述的基于轻量级人脸表情强度识别的人机交互控制方法可相互对应参照。
[0207]
图5为本发明提供的基于轻量级人脸表情强度识别的人机交互控制装置的结构示意图,如图5所示,该装置包括状态采集检测单元510、预处理单元520、类别强度单元530、量化单元540和人机交互单元550,其中,
[0208]
所述采集检测单元510,用于采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像;
[0209]
所述预处理单元520,用于对人脸图像进行预处理,得到预处理后的目标人脸图像;
[0210]
所述类别强度单元530,用于将所述目标人脸图像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型;
[0211]
所述量化单元540,用于将所述表情类别和表情强度量化,得到表情类别强度值;
[0212]
所述人机交互单元550,用于将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。
[0213]
本发明提供的装置,通过采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像;对人脸图像进行预处理,得到预处理后的目标人脸图像;将所述目标人脸图像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型;将所述表情类别和表情强度量化,得到表情类别强度值;将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。本发明提供的装置分别设计高性能和轻量化的多任务学习人脸表情及强度识别网络,再通过知识蒸馏将高性能模型的知识蒸馏到轻量级模型中,从而在不过分降低网络识别精度的同时降低网络的冗余结构,获取具有较高性能的轻量级人脸表情强度识别模型,便于在人机交互系统中的部署,还根据人脸表情的强度,以运动训练的运动控制为背景,提出了以表情类别及强度进行人机交互和系统控制的方法,增强系统的交互智能性。
[0214]
基于上述实施例,该装置中,还包括人脸随动单元,用于:
[0215]
通过比对摄像头的视觉中心与人脸检测所获取的人脸边界框中心的坐标进行摄影头的位置修正,连续人脸随动的采集用户图像。
[0216]
基于上述实施例,该装置中,所述知识蒸馏训练方法,具体包括:
[0217]
构建基于多任务学习的深层神经网络作为教师网络,构建基于多任务学习的浅层神经网络作为学生网络,利用表情数据集对所述教师网络进行训练,并使所述学生网络学习所述教师网络的参数及结果输出,训练完成的学生网络作为所述表情模型的轻量化网络结构。
[0218]
基于上述实施例,该装置中,所述教师网络中引入无参的simam注意力机制。
[0219]
基于上述实施例,该装置中,将所述表情类别和表情强度量化,
[0220]
得到表情类别强度值,具体包括:
[0221]
以高兴表情作为积极表情,生气、厌恶、悲伤、害怕和惊讶作为消极表情,中性表情的强度为0,定义积极表情的强度为正值,消极表情的强度为负值,初始表情类别强度值通过如下公式获取:
[0222][0223]
其中,s是表情类别的强度值;
[0224]
再通过归一化处理初始表情类别强度值,得到量化后的表情类别强度值,公式如下:
[0225][0226]
其中,max(s)是表情强度最大值,min(s)是表情强度最小值。
[0227]
基于上述实施例,该装置中,所述人机交互控制网络的结构为:
[0228]
表情类别强度值分别连接第一模糊控制器的第一输入端和第二模糊控制器的第二输入端,所述第一模糊控制器输出端连接速度值设定模块的输入端,所述速度值设定模块的输出端连接比较器的第一输入端,所述比较器的输出端分别连接微分器的输入端和优化算法模块的输入端,所述微分器的输出端连接所述优化算法模块的输入端,所述优化算法的输出端分别连接所述第一模糊控制器的第二输入端和所述第二模糊控制器的第二输入端,所述第二模糊控制器输出三个控制器参数kp、ki和kd控制pid控制器,pid控制器控制驱动单元输出特定转速,所述驱动单元输出的特定转速通过速度检测器测量后输出至所述比较器的第二输入端。
[0229]
基于上述实施例,该装置中,所述优化算法模块采用粒子群优化算法。
[0230]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于轻量级人脸表情强度识别的人机交互控制方法,该方法包括:采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像;对人脸图像进行预处理,得到预处理后的目标人脸图像;将所述目标人脸图像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型;将所述表情类别和表情强度量化,得到表情类别强度值;将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。
[0231]
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0232]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于轻量级人脸表情强度识别的人机交互控制方法,该方法包括:采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像;对人脸图像进行预处理,得到预处理后的目标人脸图像;将所述目标人脸图
像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型;将所述表情类别和表情强度量化,得到表情类别强度值;将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。
[0233]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于轻量级人脸表情强度识别的人机交互控制方法,该方法包括:采集用户图像,对所述用户图像进行人脸检测和识别,得到人脸图像;对人脸图像进行预处理,得到预处理后的目标人脸图像;将所述目标人脸图像输入表情模型,输出表情类别和表情强度,其中,所述表情模型是通过知识蒸馏训练方法构建的轻量级表情类别和表情强度的识别网络模型;将所述表情类别和表情强度量化,得到表情类别强度值;将所述表情类别强度值作为控制信号输入人机交互控制网络,所述人机交互控制网络通过其包含的两个模糊控制器和pid控制器控制驱动单元转动,所述驱动单元用于转动时带动所述用户的躯体做运动训练。
[0234]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0235]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0236]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1