基于事件流和图像序列特征融合网络的孤立手语词识别方法

文档序号:37769760发布日期:2024-04-25 10:56阅读:5来源:国知局
基于事件流和图像序列特征融合网络的孤立手语词识别方法

本发明涉及到计算机视觉领域,尤其涉及一种基于事件流和图像序列特征融合网络的孤立手语词识别方法。


背景技术:

1、对于聋哑人群体而言,手语是一种重要的交流方式,它是他们表达思想、交流感情的主要途径。通过深入研究孤立手语词识别技术,可以为聋哑人提供更加便捷、高效的沟通工具,使他们更好地参与社会活动,融入社会。随着科技的不断发展,人机交互已经成为社会生活和工作中不可或缺的一部分。孤立手语词识别技术的发展也有助于促进人机交互的进步为人机交互提供更加自然、智能的方式,拓展人们与智能系统之间的沟通方式。

2、随着以深度神经网络为代表的机器学习技术的进步,基于视觉的孤立手语词识别方法快速发展。传统方法使用视频图像序列数据,早期的方法利用人工设计的手工特征进行分类识别;21世纪以来,伴随以resnet为代表的2d卷积神经网络问世,基于深度学习的方法取得了突出效果。2d卷积神经网络擅长从图像数据中提取出空域特征,为了提取出时域特征,基于3d卷积神经网络的方法被提出。然而,卷积神经网络在时域特征的提取方面具有局限性,难以捕获长期的上下文关系,同时,图像数据的质量容易受到苛刻环境光照如过暗、过曝的影响,进而不利于孤立手语词的识别。

3、2008年,第一台商用事件相机推出,它是一种新型生物神经形态视觉传感器,基于事件驱动的方式来捕捉场景中的动态变化。区别于传统相机,它不是以图像帧序列输出。当现实场景中发生变化时,它会产生一系列像素级的输出(即事件流),记录微秒级的亮度变化。事件相机具有高动态范围、高时间分辨率、低延时和低功耗的优势,在图像恢复、视频重建、机器人运动控制等领域已有广泛研究。

4、孤立手语词主要由上肢运动实现,具有显著动态变化特征,事件相机能够以高时间分辨率捕捉上肢运动细节,同时,其高动态范围的特点使得事件流输出不易受到苛刻环境光照的影响,恰能弥补图像序列的劣势;而图像序列包含着事件流中忽略的颜色、纹理等信息,二者相辅相成。因此,有必要基于事件流和图像序列设计一种新颖的孤立手语词识别方法。


技术实现思路

1、为解决基于图像序列的孤立手语词识别方法识别效果容易受到如过暗、过曝的苛刻环境光照的负面影响,事件相机的高动态范围优势使得输出的事件流免于受到上述负面影响,恰能弥补图像序列的劣势,但却忽略了图像序列所包含忽略的颜色、纹理等信息,并解决如何使得二者的特点互相补充,本发明提供一种基于事件流和图像序列特征融合网络的孤立手语词识别方法,设计深度神经网络同时提取事件流和图像序列的特征并进行特征融合,并能够挖掘出融合特征在时间维度上的长期上下文关系,进而提高孤立手语词识别准确率。

2、本发明的目的是通过以下技术方案实现的:

3、第一方面,本发明提供一种基于事件流和图像序列特征融合网络的孤立手语词识别方法,包括如下步骤:

4、步骤1、根据图像序列的时间戳对孤立手语词事件流进行切片处理,得到多段事件流切片,将图像序列和事件流切片采样相同帧数,以体素网格形式表征事件流切片得到事件体素,将采样后的图像序列和事件体素输入空域特征提取模块。

5、步骤2、空域特征提取模块包括事件编码器、图像编码器、注意力融合单元和深层特征提取单元;事件编码器对输入的事件体素进行浅层特征提取,图像编码器对输入的图像序列进行浅层特征提取,二者结构相同,分别得到事件浅层特征和图像浅层特征;将所述事件和图像浅层特征同时输入注意力融合单元用以捕捉浅层特征的空域相关性,得到融合特征;将所述融合特征送入深层特征提取单元,获得深层特征后输入时序建模模块。

6、步骤3、时序建模模块包括特征投影单元、时序编码器;将所述深层特征在时间维度展开并输入特征投影单元,投影成词嵌入张量序列;在词嵌入张量序列头部添加一个分类标记并为该序列添加位置编码后,输入时序编码器以学习上下文长期依赖关系,获得具有全局注意力的分类标记。

7、步骤4、将所述具有全局注意力的分类标记输入分类器,得到孤立手语词识别结果。

8、进一步地,所述步骤1包括以下步骤:

9、步骤11、对于某一孤立手语词对应的事件流和图像序列,将图像序列记为其中表示某一帧图像,m为序列长度,i为某一帧图像的索引,且1≤i≤m,图像序列的帧率记为f,因此图像序列的时间戳记为事件流可记为其中(xk,yk,tk,pk)表示孤立手语词事件流中某一个事件,k为事件序号,pk为事件的极性,tk为事件时间戳,xk,yk分别为像素横坐标和纵坐标,n为事件总数。从事件流时间戳数组中找出与相近的事件时间戳表达式如下:

10、

11、式中,searchsorted(·)表示近邻搜索函数。接着,按照对事件流分段,获得事件流切片记为ei表示τi至τi+1时间内所有事件的集合。

12、步骤12、去除图像序列第一帧,对图像序列和采样t帧,获得和接着以体素网格形式表征事件流切片对于某事件流切片将ej中全部事件的时间戳tk线性收缩至[0,b-1],公式如下:

13、

14、式中,b为时间块个数,表示线性收缩后的事件戳,tn表示事件流切片ej中的最后一个事件时间戳,t1表示事件流切片ej中的第一个事件时间戳。

15、接着,在b个子时间块中将事件时间戳离散化,并累积每个像素坐标的事件,获得事件体素v(b,y,x),公式如下:

16、

17、式中,其中且0≤b<b,b表示某一时间块对应于通道维度,(y,x)表示像素坐标对应于空间维度,为方便表示,下文将事件体素记为至此,获得采样后的图像序列和事件体素

18、进一步地,所述步骤2包括以下步骤:

19、步骤21、空域特征提取模块选用标准resnet-50-2d作为骨干网络,resnet-50-2d骨干网络包含四个bottleneck特征提取层,所述bottleneck特征提取层被拆分放置在空域特征提取模块的不同子单元。事件编码器和图像编码器是相同且对称的结构,分别包含一个二维卷积层、最大池化层和第一个bottleneck特征提取层,将采样后的事件体素和图像序列分别输入事件编码器和图像编码器,则事件浅层特征和图像浅层特征分别表示为:

20、

21、式中,fconv表示二维卷积层,fmp表示最大池化层,fbot.1表示第一个bottleneck特征提取层。

22、步骤22、将事件浅层特征和图像浅层特征输入注意力融合单元,注意力融合单元基于通道注意力机制实现,包含压缩和激励两个步骤,首先将事件体素编码输入全局平均池化层,使得空间维度上大小均为1,实现空间上的压缩得到此为压缩操作;接着通过全连接层,经relu激活层实现通道维度的降维,再送入全连接层,经sigmoid激活层使得恢复原始通道维度大小,记为此为激励操作。最后将经压缩和激励的事件浅层特征与图像浅层特征进行矩阵相乘再相加,则输出融合特征表示为:

23、

24、式中,fgap表示全局平均池化层,ffc.1、ffc.2表示全连接层,δ、σ分别表示relu激活函数和sigmoid激活函数,⊙为矩阵元素乘法。

25、步骤23、将融合特征输入深层特征提取单元,深层特征提取单元由后三个bottleneck特征提取层构成,则空域特征提取模块最终输出的深层特征表示为:

26、

27、式中,fbot.2、fbot.3、fbot.4分别表示后三个bottleneck特征提取层。

28、进一步地,所述步骤3包括以下步骤:

29、步骤31、将所述深层特征在时间维度展开成并输入特征投影单元,特征投影单元包含最大池化层、全局平均池化层及多层感知机,首先将中每个元素对称输入最大池化层和全局平均池化层,再将两路的输出进行拼接后送入多层感知机,多层感知机由三个全连接层组成,至此,深层特征经特征投影单元投影以获得一维的词嵌入张量序列,可表示为:

30、

31、式中,为词嵌入张量序列,fconcat是拼接操作,fmlp为多层感知机。

32、步骤32、接着,在词嵌入张量序列头部添加一个可学习分类标记ocls得到序列为该序列添加位置编码以固定时序关系,然后将该序列输入标准的transformer编码器来学习长期的上下文信息,过程可表示为:

33、

34、式中,h(·)表示标准的transformer编码器,是transformer编码器的输出,取中具有全局注意力的分类标记作为整个时序建模模块的最终输出。

35、进一步地,所述步骤4中,分类器选用softmax分类器,softmax分类器包含全连接层和softmax层,将所述分类标记送入softmax分类器,经过全连接层后,得到维度大小为孤立手语词类别总数的分数张量,将分数张量输入softmax层进行排序,最终输出分数最大值对应的索引即是孤立手语词识别结果:

36、

37、式中,ffc表示全连接层,fsoftmax表示softmax层,result是最终的识别结果。

38、第二方面,本发明提供一种电子装置,包括处理器和存储器;

39、存储器,用于存放计算机程序;

40、处理器,用于执行存储器上所存放的计算机程序,执行时实现上述基于事件流和图像序列特征融合网络的孤立手语词识别方法的步骤。

41、第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于事件流和图像序列特征融合网络的孤立手语词识别方法的步骤。

42、本发明结合深度神经网络在孤立手语词识别领域的应用,公开了基于事件流和图像序列特征融合网络的孤立手语词识别方法。

43、与现有技术相比,有益效果如下:

44、(1)本发明提供的特征融合网络是第一个融合事件流和图像序列两种模态实现端到端孤立手语词识别的深度神经网络。

45、(2)本发明所提供特征融合网络中空域特征提取模块,可以同时提取图像序列所包含的颜色、纹理等特征和事件流所包含丰富的手语词运动特征,并基于注意力融合两种特征,利用事件相机高动态范围优势弥补图像序列易受苛刻环境光照影响的劣势,考虑二者特点的互补性,充分提取特征描述孤立手语词。

46、(3)本发明所提供特征融合网络中时序建模模块,较传统深度神经网络中地时序建模方法,能够更好地提取融合特征在时间维度上的长期上下文关系,进一步提高孤立手语词识别准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1