本发明涉及人脸表情识别,更具体的说是涉及一种基于时空相对变换的视频人脸表情类别识别方法和系统。
背景技术:
1、人脸表情识别是一种从面部图像或视频序列中理解人类情绪的技术,通过面部表情,可以了解对方的情感,感知其内在心理状态。因此,使机器能够像人一样识别人类的情感,能够更好的促进机器人与人类的互动,使其实现真正意义上的智能。
2、现实世界中,面部表情是动态的,基于视频的数据可以提供更丰富的面部信息。近几年,随着许多大规模视频人脸表情数据集提出,使得真实动态人脸表情识别任务具有场景变化、姿态变化以及光照不同等多种挑战问题。
3、目前,有一些先进的深度表情识别模型被提出,比如zhao et al.提出基于transformer技术的former-dfer方法和wang et al.提出的双路径多激励协同网络。但是现有视频表情识别方法的特征提取能力较弱,难以抽取更为精确的和更具判别性的时空特征,使得目前的方法识别准确率精度很低,仍然需要进一步的提高和改进。
技术实现思路
1、有鉴于此,本发明提供了一种基于时空相对变换的视频人脸表情类别识别方法和系统,目的在于提高特征提取能力,进而提高视频中人脸表情识别的准确率。
2、为了实现上述目的,本发明采用如下技术方案:
3、一方面,本申请提供了一种基于时空相对变换的视频人脸表情类别识别方法,包括如下步骤:
4、提取视频中每帧图像的局部空间特征;
5、基于欧氏距离对每个局部空间特征进行空间相对变换,对所得空间相对变换特征进行加权融合以及聚合学习,得到每帧图像空间特征;
6、基于欧氏距离和双曲距离对所述每帧图像空间特征进行时序相对变换,对所得时序相对变换特征进行加权融合以及聚合学习,得到视频的时空情绪特征;
7、根据所述视频的时空情绪特征识别人脸表情类别。
8、较佳的,基于欧式距离对每帧图像空间特征进行时序相对变换,得到欧式空间中的第一时序相对变换特征,基于双曲距离对每帧图像空间特征进行时序相对变换,得到双曲空间中的第二时序相对变换特征,对所述第一时序相对变换特征,第二时序相对变换特征进行加权融合以及聚合学习后,得到视频的时空情绪特征。
9、较佳的,所述空间相对变换特征,为对应的局部空间特征与其他局部空间特征的欧氏距离组成的一维向量;
10、所述第一时序相对变换特征,为对应帧图像空间特征与其他帧图像空间特征的欧式距离组成的一维向量;
11、所述第二时序相对变换特征,为对应帧图像空间特征与其他帧图像空间特征的双曲距离组成的一维向量。
12、较佳的,计算双曲距离时,先通过庞加莱圆盘模型按如下公式,将每帧图像空间特征映射到双曲几何空间中,
13、
14、其中,tanh(·)表示双曲正切函数,c表示球负曲率;sfi表示第i帧图像空间特征。
15、较佳的,在所述双曲空间中,按如下公式计算任意两帧图像空间特征的双曲距离;
16、
17、
18、其中,表示特征shyi和shyj的双曲距,shyi和shyj分别表示第i帧和第j帧图像空间特征在双曲空间中对应的时序特征,表示双曲空间下加法运算,其中x,y表示对于双曲空间中的任意两点。
19、较佳的,加权融合的过程包括:
20、通过全连接层,学习所述空间相对变换特征/所述第一时序相对变换特征/所述第二时序相对变换特征的注意力权重,
21、利用sigmoid函数进行规整,得到对应的注意力系数,
22、将所述空间变换特征按照对应的所述注意力系数进行加权后与对应的所述局部空间特征进行拼接,得到加权空间相对变换特征;或
23、将所述所述第一时序相对变换特征/所述第二时序相对变换特征按照对应的所述注意力系数进行加权后与对应帧的图像空间特征进行拼接,得到加权时序相对变换特征。
24、较佳的,将加权融合的变换特征依次通过多头注意力和多层感知机进行聚合学习;其中,
25、在对空间相对变换特征进行聚合学习前,先设置空间动态类别令牌,并拼接到加权融合的空间相对变换特征中,
26、在对时序相对变换特征进行聚合学习前,先设置时序动态类别令牌,并拼接到加权融合的时序相对变换特征中,以及确定时序位置编码,并嵌入到对应的加权融合的时序相对变换特征中。
27、较佳的,得到每帧图像空间特征后先按时间进行排序,根据排序后的图像空间特征获取时序相对变换特征。
28、另一方面,本发明公开了一种基于时空相对变换的视频人脸表情类别识别系统,包括,
29、空间相对变换模块,用于根据欧式距离对每帧图像的局部空间特征进行空间相对变换,得到空间相对变换特征;
30、空间特征交互模块,用于对所述空间相对变换特征进行加权融合以及聚合学习,得到每帧图像空间特征;
31、时序相对变换模块,用于根据欧氏距离和双曲距离对每帧图像空间特征进行时序变换,得到时序相对变换特征;
32、时序特征交互模块,用于对所述时序相对变换特征进行加权融合以及聚合学习,得到视频的时空情绪特征。
33、较佳的,还包括,
34、局部空间特征提取模块,用于提取视频中每帧图像的局部空间特征;以及
35、人脸表情类别识别模块,用于根据所述视频的时空情绪特征识别人脸表情类别。
36、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于时空相对变换的视频人脸表情类别识别方法和系统,通过欧氏空间距离计算得到空间相对变换特征,并利用其自身学到的融合注意力系数将其与原始空间特征加权拼接融合,将空间几何信息编码到空间特征中,进一步通过欧氏距离和双曲距离计算双重时序相对变换特征并利用各自学到的融合注意力系数将其与原始视频时序特征加权拼接融合,将双重时序动态几何信息编码到时序特征中,以生成更为精确的视频表情特征,最终得到视频中人脸表情精确的情感类别。
37、本发明技术方案能更好的提取人脸表情视频的空间和时序特征;从而更好的关注重要空间和时序特征而忽略噪音;将空间和时序几何信息编码到时间和空间特征中,可促进更有效的时空特征学习。
38、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
39、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种基于时空相对变换的视频人脸表情类别识别方法,其特征在于,包括,
2.根据权利要求1所述的一种基于时空相对变换的视频人脸表情类别识别方法,其特征在于,基于欧式距离对每帧图像空间特征进行时序相对变换,得到欧式空间中的第一时序相对变换特征,基于双曲距离对每帧图像空间特征进行时序相对变换,得到双曲空间中的第二时序相对变换特征,对第一时序相对变换特征,第二时序相对变换特征进行加权融合以及聚合学习后,得到视频的时空情绪特征。
3.根据权利要求2所述的一种基于时空相对变换的视频人脸表情类别识别方法,其特征在于,
4.根据权利要求3所述的一种基于时空相对变换的视频人脸表情类别识别方法,其特征在于,计算双曲距离时,先通过庞加莱圆盘模型按如下公式,将每帧图像空间特征映射到双曲几何空间中,
5.根据权利要求4所述的一种基于时空相对变换的视频人脸表情类别识别方法,其特征在于,在所述双曲几何空间中,按如下公式计算任意两帧图像空间特征的双曲距离;
6.根据权利要求2所述的一种基于时空相对变换的视频人脸表情类别识别方法,其特征在于,加权融合的过程包括:
7.根据权利要求1所述的一种基于时空相对变换的视频人脸表情类别识别方法,其特征在于,将加权融合的变换特征依次通过多头注意力和多层感知机进行聚合学习;其中,
8.根据权利要求1所述的一种基于时空相对变换的视频人脸表情类别识别方法,得到每帧图像空间特征后先按时间进行排序,根据排序后的图像空间特征获取时序相对变换特征。
9.一种基于时空相对变换的视频人脸表情类别识别系统,其特征在于,包括,
10.根据权利要求9所述的一种基于时空相对变换的视频人脸表情类别识别系统,其特征在于,还包括,