本发明涉及手语识别的,尤其是涉及一种手语识别方法及装置。
背景技术:
1、目前,手语识别主流框架2d-cnn应用于视频的单个帧,在手语识别中保持了良好的表现。考虑到视频的时空上下文特性,连续手语识别应充分利用视频的视觉信息和时序信息来获取有效的时空表达。但2d-cnn只能用于空间特征的提取,而缺乏时序特征的提取,且其无论应用于单帧还是多帧,输出都是二维向量,因此对视频进行表达时就会丢失时间序列的信息。
2、综上所述,目前手语识别方法容易丢失时间序列信息。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种手语识别方法及装置,以缓解手语识别方法容易丢失时间序列信息的技术问题。
2、第一方面,本发明实施例提供了一种手语识别方法,具体包括如下步骤:
3、利用r(2+1)d卷积神经网络提取手语视频帧的时空特征;
4、将手语视频帧的时空特征输入至bilstm网络以获取全局时空特征以及局部时空特征;
5、将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入至全连接层并进行分类输出,以输出局部特征概率矩阵以及全局特征概率矩阵;
6、利用所述全局特征概率矩阵以及局部特征概率矩阵计算ctc散度损失,并利用所述ctc损失以及散度损失构建目标函数;
7、利用所述目标函数对所述连续手语识别系统进行训练;
8、所述连续手语识别系统包括r(2+1)d卷积神经网络、bilstm网络、全连接层。
9、一种可能的方式是,所述利用r(2+1)d卷积神经网络提取手语视频帧的时空特征的步骤包括:
10、将手语视频帧输入至3d卷积核以及relu层中以提取空间特征;
11、将空间特征输入至3d卷积核以及relu层中以提取手语视频帧的时空特征;
12、将利用最大池化层消除手语视频帧的时空特征的冗余。
13、一种可能的方式是,所述方法还包括:
14、对去除冗余的时空特征进行下采样。
15、一种可能的方式是,所述目标函数包括:利用所述全局特征概率矩阵以及局部特征概率矩阵计算ctc散度损失,并利用所述ctc损失以及散度损失构建目标函数的步骤包括:
16、采用如下公式:
17、
18、-目标函数;
19、-ctc损失;
20、-散度损失;
21、α-超参数;
22、其中,
23、
24、
25、
26、
27、p(∏|yglobal_t)、p(∏|ylocal_t)分别表示输入为yglobal_t、ylocal_t时输出路径∏的条件概率;
28、π=(π1,...,πi,...,πs)表示所有可能路径的合集;
29、θ表示手语视频中所有句子包含的单词;
30、p(l|yglobal_t)、p(l|ylocal_t)为所有可能路径的条件概率之和;
31、
32、其中,
33、
34、其中,分别代表全局特征概率矩阵以及局部特征概率矩阵t个向量的第m个概率值;
35、和表示全连接层输出特征fcglobal和fclocal中的第t个向量的第m个概率值;
36、m表示概率值的数量。
37、一种可能的方式是,所述将手语视频帧输入至3d卷积核以及relu层中以提取空间特征的步骤中,具体采用如下公式:
38、
39、zs=fconvst_s(y);
40、permute-permute函数;
41、x-手语视频帧;
42、fconvst_s-fconvst_s函数;
43、zs-空间特征。
44、一种可能的方式是,所述将空间特征输入至3d卷积核以及relu层中以提取手语视频帧的时空特征的步骤中,具体采用如下公式:
45、z″t=relu(bn(fconvst_t(z″s)));
46、z″s=relu(z′s);
47、
48、bn-归一化函数;
49、za-空间特征;
50、relu-激活函数;
51、z″s-归一化后的空间特征经relu函数激活的结果。
52、一种可能的方式是,所述局部特征概率矩阵包括:
53、
54、softmax(·)-激活函数;
55、fclocal-全连接层输出的局部时序特征;
56、所述全局特征概率矩阵包括:
57、
58、fcglobal-全连接层输出的全局时序特征;
59、分别表示局部分类概率矩阵ylocal、全局分类概率矩阵yglobal中的第t个向量;
60、t-温度.
61、第二方面,本发明提供了一种手语识别装置,包括:
62、时空特征提取模块:用于利用r(2+1)d卷积神经网络提取手语视频帧的时空特征;
63、全局-局部特征提取模块:用于将手语视频帧的时空特征输入至bilstm网络以获取全局时空特征以及局部时空特征;
64、概率分布确定模块:用于将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入互全连接层并进行分类输出,以输出局部特征概率矩阵以及全局特征概率矩阵;
65、目标函数构建模块:用于利用所述全局特征概率矩阵以及局部特征概率矩阵计算ctc散度损失,并利用所述ctc损失以及散度损失构建目标函数;
66、训练模块:利用所述目标函数对所述连续手语识别系统进行训练,
67、所述连续手语识别系统包括r(2+1)d卷积神经网络、bilstm网络、全连接层.
68、本发明实施例带来了以下有益效果:本发明提供了一种手语识别方法及装置,所述方法包括;利用r(2+1)d卷积神经网络提取手语视频帧的时空特征;将手语视频帧的时空特征输入至bilstm网络以获取全局时空特征以及局部时空特征;将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入至全连接层并进行分类输出,以输出局部特征概率矩阵以及全局特征概率矩阵;利用所述全局特征概率矩阵以及局部特征概率矩阵计算ctc散度损失,并利用所述ctc损失以及散度损失构建目标函数;利用所述目标函数对所述连续手语识别系统进行训练。通过本发明可以缓解现有技术中目前手语识别方法容易丢失时间序列信息的技术问题。
69、本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
70、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。