手语识别方法及装置

文档序号：35987429发布日期：2023-11-15 15:40阅读：44来源：国知局

本发明涉及手语识别的，尤其是涉及一种手语识别方法及装置。

背景技术：

1、目前，手语识别主流框架2d-cnn应用于视频的单个帧，在手语识别中保持了良好的表现。考虑到视频的时空上下文特性，连续手语识别应充分利用视频的视觉信息和时序信息来获取有效的时空表达。但2d-cnn只能用于空间特征的提取，而缺乏时序特征的提取，且其无论应用于单帧还是多帧，输出都是二维向量，因此对视频进行表达时就会丢失时间序列的信息。

2、综上所述，目前手语识别方法容易丢失时间序列信息。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种手语识别方法及装置，以缓解手语识别方法容易丢失时间序列信息的技术问题。

2、第一方面，本发明实施例提供了一种手语识别方法，具体包括如下步骤：

3、利用r(2+1)d卷积神经网络提取手语视频帧的时空特征；

4、将手语视频帧的时空特征输入至bilstm网络以获取全局时空特征以及局部时空特征；

5、将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入至全连接层并进行分类输出，以输出局部特征概率矩阵以及全局特征概率矩阵；

6、利用所述全局特征概率矩阵以及局部特征概率矩阵计算ctc散度损失，并利用所述ctc损失以及散度损失构建目标函数；

7、利用所述目标函数对所述连续手语识别系统进行训练；

8、所述连续手语识别系统包括r(2+1)d卷积神经网络、bilstm网络、全连接层。

9、一种可能的方式是，所述利用r(2+1)d卷积神经网络提取手语视频帧的时空特征的步骤包括：

10、将手语视频帧输入至3d卷积核以及relu层中以提取空间特征；

11、将空间特征输入至3d卷积核以及relu层中以提取手语视频帧的时空特征；

12、将利用最大池化层消除手语视频帧的时空特征的冗余。

13、一种可能的方式是，所述方法还包括：

14、对去除冗余的时空特征进行下采样。

15、一种可能的方式是，所述目标函数包括：利用所述全局特征概率矩阵以及局部特征概率矩阵计算ctc散度损失，并利用所述ctc损失以及散度损失构建目标函数的步骤包括：

16、采用如下公式：

17、

18、-目标函数；

19、-ctc损失；

20、-散度损失；

21、α-超参数；

22、其中，

23、

24、

25、

26、

27、p(∏|yglobal_t)、p(∏|ylocal_t)分别表示输入为yglobal_t、ylocal_t时输出路径∏的条件概率；

28、π＝(π1，...，πi，...，πs)表示所有可能路径的合集；

29、θ表示手语视频中所有句子包含的单词；

30、p(l|yglobal_t)、p(l|ylocal_t)为所有可能路径的条件概率之和；

31、

32、其中，

33、

34、其中，分别代表全局特征概率矩阵以及局部特征概率矩阵t个向量的第m个概率值；

35、和表示全连接层输出特征fcglobal和fclocal中的第t个向量的第m个概率值；

36、m表示概率值的数量。

37、一种可能的方式是，所述将手语视频帧输入至3d卷积核以及relu层中以提取空间特征的步骤中，具体采用如下公式：

38、

39、zs＝fconvst_s(y)；

40、permute-permute函数；

41、x-手语视频帧；

42、fconvst_s-fconvst_s函数；

43、zs-空间特征。

44、一种可能的方式是，所述将空间特征输入至3d卷积核以及relu层中以提取手语视频帧的时空特征的步骤中，具体采用如下公式：

45、z″t＝relu(bn(fconvst_t(z″s)))；

46、z″s＝relu(z′s)；

47、

48、bn-归一化函数；

49、za-空间特征；

50、relu-激活函数；

51、z″s-归一化后的空间特征经relu函数激活的结果。

52、一种可能的方式是，所述局部特征概率矩阵包括：

53、

54、softmax(·)-激活函数；

55、fclocal-全连接层输出的局部时序特征；

56、所述全局特征概率矩阵包括：

57、

58、fcglobal-全连接层输出的全局时序特征；

59、分别表示局部分类概率矩阵ylocal、全局分类概率矩阵yglobal中的第t个向量；

60、t-温度.

61、第二方面，本发明提供了一种手语识别装置，包括：

62、时空特征提取模块：用于利用r(2+1)d卷积神经网络提取手语视频帧的时空特征；

63、全局-局部特征提取模块：用于将手语视频帧的时空特征输入至bilstm网络以获取全局时空特征以及局部时空特征；

64、概率分布确定模块：用于将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入互全连接层并进行分类输出，以输出局部特征概率矩阵以及全局特征概率矩阵；

65、目标函数构建模块：用于利用所述全局特征概率矩阵以及局部特征概率矩阵计算ctc散度损失，并利用所述ctc损失以及散度损失构建目标函数；

66、训练模块：利用所述目标函数对所述连续手语识别系统进行训练，

67、所述连续手语识别系统包括r(2+1)d卷积神经网络、bilstm网络、全连接层.

68、本发明实施例带来了以下有益效果：本发明提供了一种手语识别方法及装置，所述方法包括；利用r(2+1)d卷积神经网络提取手语视频帧的时空特征；将手语视频帧的时空特征输入至bilstm网络以获取全局时空特征以及局部时空特征；将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入至全连接层并进行分类输出，以输出局部特征概率矩阵以及全局特征概率矩阵；利用所述全局特征概率矩阵以及局部特征概率矩阵计算ctc散度损失，并利用所述ctc损失以及散度损失构建目标函数；利用所述目标函数对所述连续手语识别系统进行训练。通过本发明可以缓解现有技术中目前手语识别方法容易丢失时间序列信息的技术问题。

69、本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

70、为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈胜勇孙悦薛万利袁甜甜
技术所有人：天津理工大学
我是此专利的发明人

上一篇：一种数据传输方法、电子设备及计算机可读存储介质与流程
上一篇：一种土壤氮含量检测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。