基于全局-局部特征增强的孤立词手语识别方法及系统与流程

文档序号:22184072发布日期:2020-09-11 21:47阅读:440来源:国知局
基于全局-局部特征增强的孤立词手语识别方法及系统与流程

本发明涉及手语识别技术领域,尤其涉及一种基于全局-局部特征增强的孤立词手语识别方法及系统。



背景技术:

根据第二次全国残疾人调查,我国听力残疾患者高达2780万人。在听障人群中,最常用的交流媒介是手语。手语作为一种视觉语言,有着它独特的语言特性。它主要通过具有上下文关联的手控特征(手型、手的运动及位置等),辅助以细粒度的非手控特征(表情、唇型等)来表达语义信息。

为了方便听人与聋人之间的交流,手语识别应运而生并被广泛地研究。它将输入的手语视频通过计算机算法,转换为对应的文本或者语音输出。这项研究涉及多模态人机交互、计算机视觉、自然语言处理等领域。

孤立词手语识别是指输入一个手语词的视频,系统识别这个视频对应的词汇。孤立词手语识别可以看作是一种细粒度分类问题。手语孤立词的准确判别不仅依赖于手控特征,细粒度的非手控特征也起到重要作用。存在一些不同含义的易混孤立词,他们有着相同的手控特征,但是非手控特征不一样。如中文手语中,“如果”和“假冒”这对词,他们只在嘴部的运动上有所区分。这个歧义问题给手语词的准确识别带来了很大的挑战。整个系统的识别流程为,首先对输入的手语视频提取表征,然后将该表征通过变换转换为概率向量,取概率最大的类别作为最终的识别结果。随着近些年深度学习与硬件计算能力的发展,基于深度学习的孤立词手语识别系统占主导地位。它通过卷积神经网络(convolutionalneuralnetwork,cnn)来提取表征,然后将表征通过全连接和softmax层后转换为概率向量,取最大概率对应的类别作为识别结果。

由此可以看出,孤立词手语识别中,提取特征这个步骤至关重要。传统的识别方法分为两种:直接从全局提取特征。而手语中存在一些细粒度的局部线索,这种方法缺乏对此类线索的关注,导致误分类;同时,也存在一些识别方法提取局部的手部特征作为辅助,但是这种方法依旧无法很好地自适应关注易混词中细粒度的非手控特征。

以上的两个缺点是现有技术的主要问题,因此,如何实现同时兼顾全局与局部特征,做到对每一种特征的自适应增强。同时,能够使得这两种特征的学习相互促进,以进一步提高手语识别的准确率,是一项亟待解决的问题。



技术实现要素:

有鉴于此,本发明提供了一种基于全局-局部特征增强的孤立词手语识别方法,能够实现同时兼顾全局与局部特征,做到对每一种特征的自适应增强;同时,能够使得这两种特征的学习相互促进,以进一步提高手语识别的准确率。

本发明提供了一种基于全局-局部特征增强的孤立词手语识别方法,包括:

获取待识别的手语视频;

对所述待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;

捕捉所述特征图的上下文信息,得到全局特征;

捕捉所述特征图的细粒度信息,得到局部特征;

基于所述全局特征和所述局部特征进行协同学习,得到所述待识别的手语视频的识别结果。

优选地,所述捕捉所述特征图的上下文信息,得到全局特征,包括:

对所述特征图x通过独立的卷积层生成和所述特征图具有相同形状的特征a、特征b和特征c;

基于所述特征a和特征b定义增强特征图e;

使用所述增强特征图e聚合来自所述特征c的特征,并与所述特征图x构成全局特征。

优选地,所述捕捉所述特征图的细粒度信息,得到局部特征,包括:

计算显著图沿x轴和y轴的积分并进行归一化,得到关于x轴和y轴的分布函数;

基于所述分布函数的反函数对所述特征图进行采样,得到采样后的局部特征。

优选地,所述显著图根据全局特征的高阶特征经过三线性注意力生成。

优选地,所述基于所述全局特征和所述局部特征进行协同学习,得到所述待识别的手语视频的识别结果,包括:

基于所述全局特征和所述局部特征进行协同学习,取预测概率最高的类别作为所述待识别的手语视频的识别结果。

一种基于全局-局部特征增强的孤立词手语识别系统,包括:

获取模块,用于获取待识别的手语视频;

特征提取模块,用于对所述待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;

全局增强模块,用于捕捉所述特征图的上下文信息,得到全局特征;

局部增强模块,用于捕捉所述特征图的细粒度信息,得到局部特征;

协同学习模块,用于基于所述全局特征和所述局部特征进行协同学习,得到所述待识别的手语视频的识别结果。

优选地,所述全局增强模块具体用于:

对所述特征图x通过独立的卷积层生成和所述特征图具有相同形状的特征a、特征b和特征c;

基于所述特征a和特征b定义增强特征图e;

使用所述增强特征图e聚合来自所述特征c的特征,并与所述特征图x构成全局特征。

优选地,所述局部增强模块具体用于:

计算显著图沿x轴和y轴的积分并进行归一化,得到关于x轴和y轴的分布函数;

基于所述分布函数的反函数对所述特征图进行采样,得到采样后的局部特征。

优选地,所述显著图根据全局特征的高阶特征经过三线性注意力生成。

优选地,所述协同学习模块具体用于:

基于所述全局特征和所述局部特征进行协同学习,取预测概率最高的类别作为所述待识别的手语视频的识别结果。

综上所述,本发明公开了一种基于全局-局部特征增强的孤立词手语识别方法,当需要对孤立词手语进行识别时,首先获取待识别的手语视频,然后对待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;捕捉特征图的上下文信息,得到全局特征;捕捉特征图的细粒度信息,得到局部特征;基于全局特征和局部特征进行协同学习,得到待识别的手语视频的识别结果。本发明能够实现同时兼顾全局与局部特征,做到对每一种特征的自适应增强;同时,能够使得这两种特征的学习相互促进,以进一步提高手语识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于全局-局部特征增强的孤立词手语识别方法实施例的流程图;

图2为本发明公开的一种基于全局-局部特征增强的孤立词手语识别系统实施例的结构示意图;

图3为本发明公开的基于全局-局部特征增强的孤立词手语识别系统的工作原理图;

图4为本发明公开的全局增强模块的工作原理图;

图5为本发明公开的局部增强模块的工作原理图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,为本发明公开的一种基于全局-局部特征增强的孤立词手语识别方法实施例的方法流程图,所述方法可以包括:

s101、获取待识别的手语视频;

当需要对孤立词手语进行识别时,首先获取一个待识别的手语视频。

s102、对待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;

然后,如图3所示,将待识别的手语视频通入一个共享的卷积层提取特征,得到特征图。然后,网络分为两个支路:用于捕捉上下文信息的全局支路和用于捕捉细粒度线索的局部支路。

s103、捕捉特征图的上下文信息,得到全局特征;

其中,全局支路的全局增强模块旨在捕捉包含上下文信息的动作线索,同时滤除非相关的干扰信息,如手语者的衣着、背景等。

具体的,如图3和图4所示,对于一个特征图x∈c×t×h×w,首先将其通入独立的卷积层生成和特征图x具有相同形状的三个特征,分别记作a,b和c。然后,将其变形为c×n,其中n=t×h×w。之后,使用矩阵乘法去计算体素之间的相似性,并使用softmax函数进行归一化。这一步操作定义了增强特征图e∈rn×n,如下所示:

其中,ai和bj分别代表ith和jth位置的特征向量。eij指代jth位置带给ith的影响。接着,使用增强特征图e加权聚合来自特征c的特征:

由此,使用长程依赖,具备了增强每个体素的能力。具有辨识力的上下文线索被相互地增强,同时非相关的信息被压缩。

s104、捕捉特征图的细粒度信息,得到局部特征;

除了复杂的有着上下文信息的运动线索,手语视频中也有一些细粒度的线索。这些线索通常包括唇型、视线、面部表情或者这几者的组合。它们占据很小的空间尺寸,并在视频中随着时间而变化。因此,它们很容易在重复的卷积和池化操作中消失。为了保留这样的细粒度线索,同时引入基于自适应采样的局部增强模块,对于输入的特征图x∈c×t×h×w进行自适应采样。

具体的,如图3和图5所示,以某一时刻t对特征图xt的采样为例,局部增强模块以显著图s∈h×w作为指引:显著值更大的地方会被采样得更密集。具体地,首先计算显著图沿着x和y轴的积分并进行归一化:

其中,kx∈[1,w],ky∈[1,h]。由此,得到了关于x和y轴的分布函数,并依据分布函数的反函数进行采样,如下所示:

其中,o是t时刻采样后的特征图。

其中,上述的显著图s是根据全局支路的高阶特征经过三线性注意力生成:

其中,yt∈c2×n2指代t时刻对应的变形后来自全局支路的高阶特征,mean(·)代表沿着channel维度进行平均操作,用于生成更为鲁棒的显著图。s进一步变形并上采样至与xt具有一样的空间尺寸。通过重采样原有的特征图,细粒度线索被定位并强调,因此也更容易被卷积操作捕获。

s105、基于全局特征和局部特征进行协同学习,得到待识别的手语视频的识别结果。

如图3所示,用于捕捉上下文信息的全局支路和用于捕捉细粒度线索的局部支路的输出zglobal和zlocal都使用交叉熵损失进行监督,分别记作λglobal和λlocal。为了进一步促进这两个支路的学习,互相促进损失λmu用于约束两个支路之间的关系。整个框架的学习采用以上几个损失函数的叠加进行监督:

λ=λglobal+λlocal+λmu

测试阶段,将全局和局部支路的结果进行融合,取预测概率最高的类别作为预测结果。

具体的,上述全局增强模块和局部增强模块从两个互补的角度增强手语视频中的关键特征。一个致力于捕获长程的上下文依赖信息,另一个强调有辨别力的细粒度线索。然而,局部增强模块不可避免地会带来全局信息的损失,同时难以反馈信息给全局增强模块。为此,本发明使用协同学习模块使得这两个模块以一种互助的模式优化。设这两个支路预测的概率分布分别为p1和p2,使用散度(kullbackleibler,kl)计算这两个支路之间的匹配程度,如下所示:

其中,m代表类别总数。将以上两个kl散度的相加记作协同学习损失函数:

λmu=dkl(p2||p1)+dkl(p1||p2)。

尽管这两个支路分别强调全局和局部特征,他们的目标都是对于同一个手语视频的正确识别。通过以对方预测的分布作为参考,两个支路之间的联系得到建立。局部支路能够隐式地影响采样过程。同时,修正后强调的细粒度线索能与全局支路一起更好地进行分类识别。

综上所述,本发明能够实现同时兼顾全局与局部特征,做到对每一种特征的自适应增强;同时,能够使得这两种特征的学习相互促进,以进一步提高手语识别的准确率。

如图2所示,为本发明公开的一种基于全局-局部特征增强的孤立词手语识别系统实施例的结构示意图,所述系统可以包括:

获取模块201,用于获取待识别的手语视频;

当需要对孤立词手语进行识别时,首先获取一个待识别的手语视频。

特征提取模块202,用于对待识别的手语视频通过共享的卷积层进行特征提取,得到特征图;

然后,将待识别的手语视频通入一个共享的卷积层提取特征,得到特征图。然后,网络分为两个支路:用于捕捉上下文信息的全局支路和用于捕捉细粒度线索的局部支路。

全局增强模块203,用于捕捉特征图的上下文信息,得到全局特征;

其中,全局支路的全局增强模块旨在捕捉包含上下文信息的动作线索,同时滤除非相关的干扰信息,如手语者的衣着、背景等。

具体的,如图3和图4所示,对于一个特征图x∈c×t×h×w,首先将其通入独立的卷积层生成和特征图x具有相同形状的三个特征,分别记作a,b和c。然后,将其变形为c×n,其中n=t×h×w。之后,使用矩阵乘法去计算体素之间的相似性,并使用softmax函数进行归一化。这一步操作定义了增强特征图e∈rn×n,如下所示:

其中,ai和bj分别代表ith和jth位置的特征向量。eij指代jth位置带给ith的影响。接着,使用增强特征图e加权聚合来自特征c的特征:

由此,使用长程依赖,具备了增强每个体素的能力。具有辨识力的上下文线索被相互地增强,同时非相关的信息被压缩。

局部增强模块204,用于捕捉特征图的细粒度信息,得到局部特征;

除了复杂的有着上下文信息的运动线索,手语视频中也有一些细粒度的线索。这些线索通常包括唇型、视线、面部表情或者这几者的组合。它们占据很小的空间尺寸,并在视频中随着时间而变化。因此,它们很容易在重复的卷积和池化操作中消失。为了保留这样的细粒度线索,同时引入基于自适应采样的局部增强模块,对于输入的特征图x∈c×t×h×w进行自适应采样。

具体的,如图3和图5所示,以某一时刻t对特征图xt的采样为例,局部增强模块以显著图s∈h×w作为指引:显著值更大的地方会被采样得更密集。具体地,首先计算显著图沿着x和y轴的积分并进行归一化:

其中,kx∈[1,w],ky∈[1,h]。由此,得到了关于x和y轴的分布函数,并依据分布函数的反函数进行采样,如下所示:

其中,o是t时刻采样后的特征图。

其中,上述的显著图s是根据全局支路的高阶特征经过三线性注意力生成:

其中,yt∈c2×n2指代t时刻对应的变形后来自全局支路的高阶特征,mean(·)代表沿着channel维度进行平均操作,用于生成更为鲁棒的显著图。s进一步变形并上采样至与xt具有一样的空间尺寸。通过重采样原有的特征图,细粒度线索被定位并强调,因此也更容易被卷积操作捕获。

协同学习模块205,用于基于全局特征和局部特征进行协同学习,得到待识别的手语视频的识别结果。

如图3所示,用于捕捉上下文信息的全局支路和用于捕捉细粒度线索的局部支路的输出zglobal和zlocal都使用交叉熵损失进行监督,分别记作λglobal和λlocal。为了进一步促进这两个支路的学习,互相促进损失λmu用于约束两个支路之间的关系。整个框架的学习采用以上几个损失函数的叠加进行监督:

λ=λglobal+λlocal+λmu

测试阶段,将全局和局部支路的结果进行融合,取预测概率最高的类别作为预测结果。

具体的,上述全局增强模块和局部增强模块从两个互补的角度增强手语视频中的关键特征。一个致力于捕获长程的上下文依赖信息,另一个强调有辨别力的细粒度线索。然而,局部增强模块不可避免地会带来全局信息的损失,同时难以反馈信息给全局增强模块。为此,本发明使用协同学习模块使得这两个模块以一种互助的模式优化。设这两个支路预测的概率分布分别为p1和p2,使用散度(kullbackleibler,kl)计算这两个支路之间的匹配程度,如下所示:

其中,m代表类别总数。将以上两个kl散度的相加记作协同学习损失函数:

λmu=dkl(p2||p1)+dkl(p1||p2)。

尽管这两个支路分别强调全局和局部特征,他们的目标都是对于同一个手语视频的正确识别。通过以对方预测的分布作为参考,两个支路之间的联系得到建立。局部支路能够隐式地影响采样过程。同时,修正后强调的细粒度线索能与全局支路一起更好地进行分类识别。

综上所述,本发明能够实现同时兼顾全局与局部特征,做到对每一种特征的自适应增强;同时,能够使得这两种特征的学习相互促进,以进一步提高手语识别的准确率。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1