基于人脸特征点信息与双网络联合训练的表情识别方法与流程

文档序号:16136255发布日期:2018-12-01 01:01阅读:197来源:国知局

本发明公开了一种基于深度学习的图片序列表情识别方法,涉及到自动表情识别领域。

背景技术

人脸表情识别是计算机视觉领域的经典问题之一,在人机交互、医疗、娱乐等领域拥有广阔的应用前景。表情图片序列相比于单张静态的人脸表情图片,包含了随着时间的推移而发生的表情变化,信息更加丰富,在表情识别中更加有效。传统的表情识别方法一般可划分为3个步骤:特征学习、特征选择、分类器构建。深度学习方法可将三者合一,自动学习更有鉴别力的特征,可以取得远高于传统方法的识别率,但深度学习的方法通常需要大量训练数据以训练深层网络结构,较为耗费资源,在计算资源有限的工程应用中存在困难。此外,由于实际情形中人脸表情图片序列的长度不定,需要经过抽样处理才能直接作为深度学习的输入。如何在抽样过程中减少信息损失,同样是亟待解决的问题。



技术实现要素:

本发明所要解决的技术问题是:为了克服现有技术中存在的不足,本发明提供一种基于人脸特征点信息和双网络联合训练的表情识别方法,旨在高效完成图片序列的抽样,以及减小深度学习的时间复杂度。

本发明为了解决以上技术问题,而采用以下技术手段:

本发明提出的一种基于人脸特征点信息与双网络联合训练的表情识别方法包括以下步骤:

(1)抽取关键帧步骤:采集人脸图片序列,进行人脸特征点定位,累计图片子序列中所有相邻图片的特征点位移,抽取累计位移最大的图片子序列为关键帧序列;

(2)数据预处理步骤:对关键帧序列的特征点信息进行归一化及加噪处理,作为输入特征;

(3)独立训练步骤:将输入特征分别送入双层双向长短期记忆网络和四层全连接网络,分别独立训练;

(4)联合训练步骤:将双层双向长短期记忆网络和四层全连接网络的特征层相加,基于来自双层双向长短期记忆网络和四层全连接网络的验证信号,以及自身的损失函数,继续训练两个子网络,得到最终的判别结果;

进一步的,抽取关键帧步骤具体如下:

将l个人脸特征点坐标对齐,其中第ln个特征点为位于鼻子中心的特征点:

图片序列的最短长度为qmin,待抽帧序列的长度为qcur,所需抽取的图片序号为tj,1,2,...,qmin,选取tj满足:

进一步的,数据预处理步骤如下:

根据图片序列中所有横纵坐标的方差分别为σx,σy,并对坐标归一化,加入均值为0,方差为原值5%的高斯噪声得到关键帧序列特征

进一步的,独立训练步骤具体如下:

全连接网络的顶层特征v3最后经过softmax激活,计算当前表情为q的概率为:

双向双层长短期记忆网络在t时刻的输入特征为ft,σ(·)为sigmoid激活函数,⊙表示按位相乘,第1层lstm单元内的正向lstm单元的输入门、遗忘门、输出门、隐藏状态、输出分别为

其中,→表示正向单元,i,f,o,c,h分别代表输入门、遗忘门、输出门、隐藏状态、输出,其下标表示第1层,上标t、t-1分别代表t、t-1时刻;在输入门i的计算中,w1i表示t时刻的输入特征ft与t时刻的输入门间的权重矩阵,v1i表示t-1时刻的输出与t时刻的输入门间的权重矩阵,表示t时刻的输入门的偏置矩阵;遗忘门f的计算中,w1f表示t时刻的输入特征ft与t时刻的遗忘门f1t间的权重矩阵,v1f表示t-1时刻的输出与t时刻的遗忘门f1t间的权重矩阵,表示t时刻的遗忘门f1t的偏置矩阵;输出门o的计算中,w1o表示t时刻的输入特征ft与t时刻的输出门间的权重矩阵,v1o表示t-1时刻的输出与t时刻的输出门间的权重矩阵,表示t时刻的输出门的偏置矩阵;隐藏状态c的计算中,w1c表示t时刻的输入特征ft与t时刻的隐藏状态间的权重矩阵,v1c表示t-1时刻的输出与t时刻的隐藏状态间的权重矩阵,表示t时刻的隐藏状态的偏置矩阵;输出h的计算中,表示t时刻的输出;

反向lstm单元的输入门、遗忘门、输出门、隐藏状态、输出分别为:

其中,←表示反向单元,i,f,o,c,h分别代表输入门、遗忘门、输出门、隐藏状态、输出,其下标1表示第1层,上标t、t+1分别代表t、t+1时刻;在输入门i的计算中,w1i表示t时刻的输入特征ft与t时刻的输入门间的权重矩阵,v1i表示t+1时刻的输出与t时刻的输入门间的权重矩阵,表示t时刻的输入门的偏置矩阵;遗忘门f的计算中,w1f表示t时刻的输入特征ft与t时刻的遗忘门f1t间的权重矩阵,v1f表示t+1时刻的输出与t时刻的遗忘门f1t间的权重矩阵,表示t时刻的遗忘门f1t的偏置矩阵;输出门o的计算中,w1o表示t时刻的输入特征ft与t时刻的输出门间的权重矩阵,v1o表示t+1时刻的输出与t时刻的输出门间的权重矩阵,表示t时刻的输出门的偏置矩阵;隐藏状态c的计算中,w1c表示t时刻的输入特征ft与t时刻的隐藏状态间的权重矩阵,v1c表示t+1时刻的输出与t时刻的隐藏状态间的权重矩阵,表示t时刻的隐藏状态的偏置矩阵;输出h的计算中,表示t时刻的输出;

将全连接网络和双向双层长短期记忆网络分别记为网络1、网络2,若网络k判别当前表情为q的概率为而yq代表当前的表情是否为q:如是,则为1;如否,则为0;那么网络k进行独立训练的交叉熵损失函数为:

第2层lstm单元在t时刻的输入为第1层t时刻正向与反向输出向量的拼接:

第2层的隐藏层输出经过拼接后,计算顶层特征r3:

再经softmax激活后得到表情的概率分布:

pdyn-nn=softmax(r3)。

进一步的,联合训练步骤具体如下:

全连接网络和双向长短期记忆网络的顶层特征按位相加,融合为新的顶层特征u3,再经softmax激活,计算融合网络的表情概率分布pfus-nn

u3=r3+v3

pfus-nn=softmax(u3)

融合网络的损失函数由全连接网络和双向长短期记忆网络各自的交叉熵损失,以及基于两个网络顶层特征差异l2范数的验证损失求和得到:

联合训练过程中,仅更新顶层特征与它的前一层之间的权重参数。

本发明采用以上技术方案,与现有技术相比所具有的优点在于:

本发明能够有效地在尽可能减少信息丢失、增强输入信息的表征能力的前提下,将不定帧数图片序列转化为指定帧数。通过仅基于人脸时序特征点序列进行表情识别,相比于使用人脸图片作为输入,可以显著减少计算量。同时设计了全连接网络与双向长短期记忆网络的融合方式、损失函数、联合训练机制,提升识别准确率,取得了较好的识别效果与计算资源的平衡。

附图说明

图1是本发明一种基于人脸特征点信息与双网络联合训练的表情识别方法的处理流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例和说明书附图1对本发明的技术方案进行清楚、完整的描述,显然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

本发明提出一种基于人脸特征点信息与双网络联合训练的表情识别方法,如图1所示,通过基于人脸特征点信息进行双网络联合训练实现了平衡计算资源与识别效果的目的,具体包括如下步骤:

(1)抽取关键帧步骤:采集人脸图片序列,进行人脸特征点定位,累计图片子序列中所有相邻图片的特征点位移,抽取累计位移最大的图片子序列为关键帧序列;

(2)数据预处理步骤:对关键帧序列的特征点信息进行归一化及加噪处理,作为输入特征;

(3)独立训练步骤:将输入特征分别送入双层双向长短期记忆网络和四层全连接网络,分别独立训练;

(4)联合训练步骤:将双层双向长短期记忆网络和四层全连接网络的特征层相加,基于来自双层双向长短期记忆网络和四层全连接网络的验证信号,以及自身的损失函数,继续训练两个子网络,得到最终的判别结果;

所述抽取关键帧步骤可以在尽可能减少信息丢失、增强输入信息的表征能力的前提下,将不定帧数图片序列转化为指定帧数,具体步骤如下:

将l个人脸特征点坐标对齐,其中第ln个特征点为位于鼻子中心的特征点:

图片序列的最短长度为qmin,待抽帧序列的长度为qcur,所需抽取的图片序号为tj,j=1,2,...,qmin,选取tj满足:

所述数据预处理步骤可以扩大训练样本集,增强算法鲁棒性,具体步骤如下:

根据图片序列中所有横纵坐标的方差分别为σx,σy,并对坐标归一化,加入均值为0,方差为原值5%的高斯噪声得到关键帧序列特征

所述独立训练步骤将独立训练子网络,具体步骤如下:

全连接网络的顶层特征v3最后经过softmax激活,计算当前表情为q的概率为:

双向双层长短期记忆网络在t时刻的输入特征为ft,σ(·)为sigmoid激活函数,⊙表示按位相乘,第1层lstm单元内的正向lstm单元的输入门、遗忘门、输出门、隐藏状态、输出分别为:

其中,→表示正向单元,i,f,o,c,h分别代表输入门、遗忘门、输出门、隐藏状态、输出,其下标表示第1层,上标t、t-1分别代表t、t-1时刻;在输入门i的计算中,w1i表示t时刻的输入特征ft与t时刻的输入门间的权重矩阵,v1i表示t-1时刻的输出与t时刻的输入门间的权重矩阵,表示t时刻的输入门的偏置矩阵;遗忘门f的计算中,w1f表示t时刻的输入特征ft与t时刻的遗忘门f1t间的权重矩阵,v1f表示t-1时刻的输出与t时刻的遗忘门f1t间的权重矩阵,表示t时刻的遗忘门f1t的偏置矩阵;输出门o的计算中,w1o表示t时刻的输入特征ft与t时刻的输出门间的权重矩阵,v1o表示t-1时刻的输出与t时刻的输出门间的权重矩阵,表示t时刻的输出门的偏置矩阵;隐藏状态c的计算中,w1c表示t时刻的输入特征ft与t时刻的隐藏状态间的权重矩阵,v1c表示t-1时刻的输出与t时刻的隐藏状态间的权重矩阵,表示t时刻的隐藏状态的偏置矩阵;输出h的计算中,表示t时刻的输出;

反向lstm单元的输入门、遗忘门、输出门、隐藏状态、输出分别为:

其中,←表示反向单元,i,f,o,c,h分别代表输入门、遗忘门、输出门、隐藏状态、输出,其下标1表示第1层,上标t、t+1分别代表t、t+1时刻;在输入门i的计算中,w1i表示t时刻的输入特征ft与t时刻的输入门间的权重矩阵,v1i表示t+1时刻的输出与t时刻的输入门间的权重矩阵,表示t时刻的输入门的偏置矩阵;遗忘门f的计算中,w1f表示t时刻的输入特征ft与t时刻的遗忘门f1t间的权重矩阵,v1f表示t+1时刻的输出与t时刻的遗忘门f1t间的权重矩阵,表示t时刻的遗忘门f1t的偏置矩阵;输出门o的计算中,w1o表示t时刻的输入特征ft与t时刻的输出门间的权重矩阵,v1o表示t+1时刻的输出与t时刻的输出门间的权重矩阵,表示t时刻的输出门的偏置矩阵;隐藏状态c的计算中,w1c表示t时刻的输入特征ft与t时刻的隐藏状态间的权重矩阵,v1c表示t+1时刻的输出与t时刻的隐藏状态间的权重矩阵,表示t时刻的隐藏状态的偏置矩阵;输出h的计算中,表示t时刻的输出;

将全连接网络和双向双层长短期记忆网络分别记为网络1、网络2,若网络k判别当前表情为q的概率为而yq代表当前的表情是否为q:如是,则为1;如否,则为0;那么网络k进行独立训练的交叉熵损失函数为:

第2层lstm单元在t时刻的输入为第1层t时刻正向与反向输出向量的拼接:

第2层的隐藏层输出经过拼接后,计算顶层特征r3:

再经softmax激活后得到表情的概率分布:

pdyn-nn=softmax(r3)。

所述联合训练步骤将融合子网络信息,利用两个子网络的验证信号,完成联合训练,具体步骤如下:

全连接网络和双向长短期记忆网络的顶层特征按位相加,融合为新的顶层特征u3,再经softmax激活,计算融合网络的表情概率分布pfus-nn

u3=r3+v3

pfus-nn=softmax(u3)

融合网络的损失函数由全连接网络和双向长短期记忆网络各自的交叉熵损失,以及基于两个网络顶层特征差异l2范数的验证损失求和得到:

如图1虚线所示,融合网络的损失将被用于在联合训练过程中,更新顶层特征与它的前一层之间的权重参数。

本技术领域技术人员可以理解的是,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

本技术领域技术人员可以理解的是,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

上面结合附图对本发明的实施方式作了详细地说明,但是本发明并不局限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1