一种手势检测方法、装置、设备及存储介质与流程

文档序号:21410183发布日期:2020-07-07 14:45阅读:201来源:国知局
一种手势检测方法、装置、设备及存储介质与流程

本发明实施例涉及计算机视觉技术,尤其涉及一种手势检测方法、装置、设备及存储介质。



背景技术:

近年来,随着计算机硬件性能的提升和大规模图像数据的出现,使得深度学习在计算机视觉领域得到广泛应用,其中,卷积神经网络是在计算机视觉领域具有突出成就的一个深度学习的神经网络结构。

手势检测是计算机视觉中目标检测的一个垂直应用,被广泛应用于人机交互和虚拟现实等领域。针对手势检测来说,采用基于卷积神经网络训练生成的手势检测模型进行手势检测得到广泛应用。基于卷积神经网络训练生成的手势检测模型进行手势检测的处理流程是:将图片输入手势检测模型中,得到图片的预测标注信息,图片的预测标注信息包括预测手势边界框的位置信息和类别概率。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:对于通常图片来说,除手势外的其它对象占据了图片中大部分像素区域,即手势占据了图片中少部分的像素区域,换句话说,手势作为目标对象出现在图片中的数量少,上述使得包含手势的边界框的数量也较少,这里将包含手势的边界框称为正样本。在对卷积神经网络进行训练得到手势检测模型的过程中,由于正样本数量不足,将产生大量不包含手势的边界框,这里将不包含手势的边界框称为负样本,即将产生大量负样本,因此,存在着由正负样本数量不平衡所导致的类别不平衡问题,上述类别不均衡问题将使得卷积神经网络无法得到有效训练,进而降低了基于卷积神经网络训练生成的手势检测模型的预测精度。



技术实现要素:

本发明实施例提供一种手势检测方法、装置、设备及存储介质,以提高手势检测模型的预测精度。

第一方面,本发明实施例提供了一种手势检测方法,该方法包括:

获取原始图片;

将所述原始图片输入手势检测模型,得到所述原始图片的预测标注信息,所述原始图片的预测标注信息包括所述原始图片的预测手势边界框的位置信息和类别概率,所述原始图片的预测手势边界框的个数为两个或两个以上,所述手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到;

根据所述原始图片的预测标注信息,基于非极大值抑制方法从所述原始图片的预测手势边界框中确定目标手势边界框。

进一步的,所述手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到,包括:

获取训练图片以及训练图片的原始标注信息,所述训练图片的原始标注信息包括原始手势边界框的位置信息、置信度和类别概率,所述训练图片的原始边界框的个数为两个或两个以上;

将所述训练图片输入卷积神经网络,得到所述训练图片的预测标注信息,所述训练图片的预测标注信息包括所述训练图片的预测手势边界框的位置信息、置信度和类别概率,所述训练图片的预测手势边界框的位置信息和所述训练图片的原始手势边界框的位置信息,计算所述训练图片的预测手势边界框与所述训练图片的原始手势边界框的交并比,并根据所述交并比与交并比阈值的关系,将所述训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,所述第一负样本和所述第二负样本组成负样本;

根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重;

根据目标正样本的预测标注信息、目标正样本的原始标注信息、目标负样本预测标注信息、目标负样本的原始标注信息、所述目标正样本权重和所述目标负样本权重,得到所述卷积神经网络的损失函数;

调整所述卷积神经网络的网络参数,直至所述损失函数的输出值小于等于预设阈值,则将所述卷积神经网络作为所述手势检测模型。

进一步的,所述根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重,包括:

根据正样本数量与正样本数量阈值的关系,确定目标正样本,以及,根据第一负样本数量与负样本数量阈值的关系,确定目标负样本;

根据目标正样本数量和目标负样本数量确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量确定目标负样本权重。

进一步的,所述根据目标正样本数量和目标负样本数量确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量确定目标负样本权重,包括:

计算目标正样本数量和目标负样本数量之和,得到目标样本数量;

将所述目标负样本数量与所述目标样本数量的比值作为第一指数函数的底数,将所述目标正样本数量与所述目标负样本数量的比值作为第二指数函数的底数,所述第一指数函数和所述第二指数函数的自变量均为权重系数;

将所述第一指数函数作为所述目标正样本权重,将所述第二指数函数作为所述目标负样本权重。

进一步的,所述根据目标正样本的预测标注信息、目标正样本的原始标注信息、目标负样本的预测标注信息、目标负样本的原始标注信息、所述目标正样本权重和所述目标负样本权重,得到所述卷积神经网络的损失函数,包括:

根据目标正样本的预测手势边界框的置信度、目标正样本的原始手势边界框的置信度和所述目标正样本权重,得到所述卷积神经网络的第一损失函数;

根据目标负样本的预测手势边界框的置信度、目标负样本的原始手势边界框的置信度和所述目标负样本权重,得到所述卷积神经网络的第二损失函数;

根据目标正样本的预测手势边界框的位置信息和目标正样本的原始手势边界框的位置信息,得到所述卷积神经网络的第三损失函数;

根据目标正样本的预测手势边界框的类别概率和目标正样本的原始手势边界框的类别概率,得到所述卷积神经网络的第四损失函数;

根据所述第一损失函数、所述第二损失函数、所述第三函数和所述第四损失函数,得到所述卷积神经网络的损失函数。

进一步的,所述交并比阈值包括第一交并比阈值和第二交并比阈值;

所述根据所述交并比与交并比阈值的关系,将所述训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,包括:

所述根据所述交并比与交并比阈值的关系,将所述训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,包括:

所述交并比大于第一交并比阈值,则将所述训练图片的预设手势边界框作为待选正样本,并将所述待选正样本中对应交并比最大的待选正样本作为正样本;

所述交并比大于第二交并比阈值且小于等于第一交并比阈值,则将所述训练图片的预测手势边界框作为第一负样本;

所述交并比小于等于第二交并比阈值,则将所述训练图片的预设手势边界框作为第二负样本。

进一步的,所述根据正样本数量与正样本数量阈值的关系,确定目标正样本,以及,根据第一负样本数量与负样本数量阈值的关系,确定目标负样本,包括:

正样本数量大于正样本数量阈值,则从所述正样本中选择所述正样本数量阈值的正样本作为目标正样本;

正样本数量小于等于正样本数量阈值,则将所述正样本作为目标正样本。

进一步的,所述负样本数量阈值包括第一负样本数量阈值和第二负样本数量阈值;

所述根据第一负样本数量与负样本数量阈值的关系,确定目标负样本,包括:

第一负样本数量大于第一负样本数量阈值,则从所述第一负样本中选择第一负样本数量阈值的第一负样本作为目标负样本;

第一负样本数量大于第二负样本数量阈值且小于等于第一负样本数量阈值,则将所述第一负样本作为目标负样本;

第一负样本数量小于第二负样本数量阈值,则从所述第二负样本中选择第二负样本数量阈值与第一负样本数量的差值的第二负样本作为目标第二负样本,将所述目标第二负样本和所述第一负样本作为目标负样本。

第二方面,本发明实施例还提供了一种手势检测装置,该装置包括:

原始图片获取模块,用于获取原始图片;

原始图片的预测标注信息获取模块,用于将所述原始图片输入手势检测模型,得到所述原始图片的预测标注信息,所述原始图片的预测标注信息包括原始图片的预测手势边界框的位置信息和类别概率,所述原始图片的预测手势边界框的个数为两个或两个以上,所述手势检测模型为在卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到;

目标手势边界框确定模块,用于根据所述原始图片的预测标注信息,基于非极大值抑制方法从所述原始图片的预测手势边界框中确定目标手势边界框。

进一步的,所述手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到,包括:

获取训练图片以及训练图片的原始标注信息,所述训练图片的原始标注信息包括原始手势边界框的位置信息、置信度和类别概率,所述训练图片的原始边界框的个数为两个或两个以上;

将所述训练图片输入卷积神经网络,得到所述训练图片的预测标注信息,所述训练图片的预测标注信息包括所述训练图片的预测手势边界框的位置信息、置信度和类别概率,所述训练图片的预测手势边界框的位置信息和所述训练图片的原始手势边界框的位置信息,计算所述训练图片的预测手势边界框与所述训练图片的原始手势边界框的交并比,并根据所述交并比与交并比阈值的关系,将所述训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,所述第一负样本和所述第二负样本组成负样本;

根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重;

根据目标正样本的预测标注信息、目标正样本的原始标注信息、目标负样本预测标注信息、目标负样本的原始标注信息、所述目标正样本权重和所述目标负样本权重,得到所述卷积神经网络的损失函数;

调整所述卷积神经网络的网络参数,直至所述损失函数的输出值小于等于预设阈值,则将所述卷积神经网络作为所述手势检测模型。

进一步的,所述根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重,包括:

根据正样本数量与正样本数量阈值的关系,确定目标正样本,以及,根据第一负样本数量与负样本数量阈值的关系,确定目标负样本;

根据目标正样本数量和目标负样本数量确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量确定目标负样本权重。

进一步的,所述根据目标正样本数量和目标负样本数量确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量确定目标负样本权重,包括:

计算目标正样本数量和目标负样本数量之和,得到目标样本数量;

将所述目标负样本数量与所述目标样本数量的比值作为第一指数函数的底数,将所述目标正样本数量与所述目标负样本数量的比值作为第二指数函数的底数,所述第一指数函数和所述第二指数函数的自变量均为权重系数;

将所述第一指数函数作为所述目标正样本权重,将所述第二指数函数作为所述目标负样本权重。

进一步的,所述根据目标正样本的预测标注信息、目标正样本的原始标注信息、目标负样本的预测标注信息、目标负样本的原始标注信息、所述目标正样本权重和所述目标负样本权重,得到所述卷积神经网络的损失函数,包括:

根据目标正样本的预测手势边界框的置信度、目标正样本的原始手势边界框的置信度和所述目标正样本权重,得到所述卷积神经网络的第一损失函数;

根据目标负样本的预测手势边界框的置信度、目标负样本的原始手势边界框的置信度和所述目标负样本权重,得到所述卷积神经网络的第二损失函数;

根据目标正样本的预测手势边界框的位置信息和目标正样本的原始手势边界框的位置信息,得到所述卷积神经网络的第三损失函数;

根据目标正样本的预测手势边界框的类别概率和目标正样本的原始手势边界框的类别概率,得到所述卷积神经网络的第四损失函数;

根据所述第一损失函数、所述第二损失函数、所述第三函数和所述第四损失函数,得到所述卷积神经网络的损失函数。

进一步的,所述交并比阈值包括第一交并比阈值和第二交并比阈值;

所述根据所述交并比与交并比阈值的关系,将所述训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,包括:

所述根据所述交并比与交并比阈值的关系,将所述训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,包括:

所述交并比大于第一交并比阈值,则将所述训练图片的预设手势边界框作为待选正样本,并将所述待选正样本中对应交并比最大的待选正样本作为正样本;

所述交并比大于第二交并比阈值且小于等于第一交并比阈值,则将所述训练图片的预测手势边界框作为第一负样本;

所述交并比小于等于第二交并比阈值,则将所述训练图片的预设手势边界框作为第二负样本。

进一步的,所述根据正样本数量与正样本数量阈值的关系,确定目标正样本,以及,根据第一负样本数量与负样本数量阈值的关系,确定目标负样本,包括:

正样本数量大于正样本数量阈值,则从所述正样本中选择所述正样本数量阈值的正样本作为目标正样本;

正样本数量小于等于正样本数量阈值,则将所述正样本作为目标正样本。

进一步的,所述负样本数量阈值包括第一负样本数量阈值和第二负样本数量阈值;

所述根据第一负样本数量与负样本数量阈值的关系,确定目标负样本,包括:

第一负样本数量大于第一负样本数量阈值,则从所述第一负样本中选择第一负样本数量阈值的第一负样本作为目标负样本;

第一负样本数量大于第二负样本数量阈值且小于等于第一负样本数量阈值,则将所述第一负样本作为目标负样本;

第一负样本数量小于第二负样本数量阈值,则从所述第二负样本中选择第二负样本数量阈值与第一负样本数量的差值的第二负样本作为目标第二负样本,将所述目标第二负样本和所述第一负样本作为目标负样本。

第三方面,本发明实施例还提供了一种设备,该设备包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例第一方面所述的方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例第一方面所述的方法。

本发明实施例通过获取原始图片,将原始图片输入手势检测模型,得到原始图片的预测标注信息,原始图片的预测标注信息包括原始图片的预测手势边界框的位置信息和类别概率,原始图片的预测手势边界框的个数为两个或两个以上,手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到,根据原始图片的预测标注信息(即确定手势),通过采用平衡训练图片中目标正样本和目标负样本在卷积神经网络中所占权重得到的手势检测模型进行手势检测,解决了正负样本不平衡的问题,从而提高了手势检测模型的预测精度,即提高了手势检测模型对目标手势检测框的预测精度。

附图说明

图1是本发明实施例中的一种手势检测方法的流程图;

图2是本发明实施例中的一种非极大值抑制方法处理示意图;

图3是本发明实施例中的一种基于卷积神经网络得到训练图片的预测标注信息的示意图;

图4是本发明实施例中的一种手势检测装置的结构示意图;

图5是本发明实施例中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例

基于卷积神经网络训练生成的手势检测模型,存在由于正负样本不平衡所导致的类别不平衡问题,上述问题使得手势检测模型的预测精度不高。这是由于:如果正样本数量过少,则使得卷积神经网络由于无法提取到有效特征,而无法很好的对正样本进行有效检测。可以理解到,提高手势检测模型的预测精度的关键在于如何实现正负样本平衡。

传统技术中,通常采用如下两种方式实现正负样本平衡,具体的:方式一、增加样本数量较少的类别的样本数量,如对较少数量的类别的样本进行过采样;方式二、减少样本数量较多的类别的样本数量,即对较多数量的类别的样本进行欠采样。由于手势检测中正负样本不平衡是存在于每张图片内容之中的,因此,无法通过上述所述的两种方式实现正负样本平衡。

考虑到在训练卷积神经网络时,一般都会默认训练样本中各类别的样本是平衡的,即每一类别所包含的样本数量是大致相同的,也就是所每一类别的样本对卷积神经网络的损失函数的贡献是相同的。但是对于各类别的样本是不平衡的训练样本来说,样本数量较多的类别对卷积神经网络的损失函数的贡献要大于样本数量较小的类别。针对本发明实施例来说,由于负样本数量远大于正样本数量,因此,负样本对卷积神经网络的损失函数的贡献要大于正样本对卷积神经网络的损失函数的贡献。基于上述,为了实现正负样本平衡,需要降低负样本对卷积神经网络的损失函数的贡献,提高正样本对卷积神经网络的损失函数的贡献,即需要平衡正负样本对卷积神经网络的损失函数的贡献,或者,可理解为需要平衡正负样本在卷积神经网络的损失函数中所占权重。综上,为了提高基于卷积神经网络训练生成的手势检测模型的预测精度,可采用通过平衡正负样本在卷积神经网络的损失函数中所占权重实现,下面将结合具体实施例对手势检测方法进行进一步说明。

图1为本发明实施例提供的一种手势检测方法的流程图,本实施例可适用于提高手势检测模型的预测精度的情况,该方法可以由手势检测装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于设备中,例如典型的是计算机或移动终端等。如图1所示,该方法具体包括如下步骤:

步骤110、获取原始图片。

步骤120、将原始图片输入手势检测模型,得到原始图片的预测标注信息,原始图片的预测标注信息包括原始图片的预测手势边界框的位置信息和类别概率,原始图片的预测手势边界框的个数为两个或两个以上,手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到。

在本发明的实施例中,为了提高手势检测模型的预测精度,采用了在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到的手势检测模型来进行手势检测。其中,目标正样本和目标负样本可理解为分别符合对应预设条件的预测手势边界框。

将原始图片输入手势检测模型,得到原始图片的预测标注信息,具体的:将原始图片输入手势检测模型,手势检测模型将原始图片划分为两个或两个以上网格,每个网格负责获取原始图片中目标对象(即手势)的中心落在该网格的预测标注信息,预测标注信息包括原始图片的预测手势边界框的位置信息和原始图片的预测手势边界框的类别概率,这里所述的原始图片的预测手势边界框的类别概率指的是原始图片的预测手势边界框为手势边界框的概率,即类别指的是手势,原始图片中每个网络对应的预测手势边界框的个数为两个或两个以上。原始图片的预测手势边界框的位置信息可以用(x,y,w,h)表示,其中,x和y表示原始图片的预测手势边界框的中心坐标,w和h分别表示原始图片的预设手势边界框的宽度和高度。需要说明的是,由于将原始图片划分两个或两个以上网格,因此,每个网格均存在对应的预测标注信息,换句话说,原始图片的预测标注信息指的是原始图片中每个网格对应的预测标注信息。可以理解到,由于原始图片中每个网格对应的预测手势边界框的个数为两个或两个以上,而原始图片包括两个或两个以上网格,因此,原始图片的预测手势边界框的个数为两个或两个以上。

需要说明的是,为了缩短检测时间,可考虑将对原始图片进行缩放,即原始图片为经过缩放后的图片。

步骤130、根据原始图片的预测标注信息,基于非极大值抑制方法从原始图片的预测手势边界框中确定目标手势边界框。

在本发明的实施例中,原始图片的预测手势边界框的个数为两个或两个以上,在上述原始图片的各预测手势边界框中,可能存在重叠比较严重的预测手势边界框,为了去除重叠比较严重的预测手势边界框,可以采用非极大值抑制(nonmaximumsuppression,nms)方法从原始图片的预测手势边界框中确定目标手势边界框,原始图片的各预测手势边界框两两之间的重叠程度可以采用交并比(intersection-over-union,iou)来表示。针对原始图片的两个预测手势边界框,交并比表示两个预测手势边界框交集和并集的比值,其具体可以根据预测手势边界框的位置信息计算。

非极大值抑制方法的具体处理过程如下:根据原始图片的预测手势边界框的类别概率,对原始图片的预测手势边界框按降序方式进行排序,确定原始图片的待选预测手势边界框,从待选预测手势边界框中选择预测手势边界框的类别概率最高的待选预测手势边界框作为当前待选预测手势边界框,分别计算剩下所有待选预测手势边界框与当前待选预测手势边界框的交并比,并确定交并比是否大于重叠阈值,如果交并比大于重叠阈值,则将交并比对应的待选预测手势边界框删除,如果交并比小于等于重叠阈值,则将交并比对应的待选预测手势边界框保留。重复执行上述过程,直到确定出目标手势边界框。其中,重叠阈值可根据实际情况进行设定,在此不作具体限定。

需要说明的是,针对手势检测来说,确定出目标手势检测框即完成了手势检测,目标手势检测框包括目标手势检测框的位置信息以及类别概率。

示例性的,如图2所示,给出了原始图片的两个待选预测手势边界框,分别记为b1和b2,b1对应的预测手势边界框的类别概率为0.9,位置信息为(x1,y1,w1,h1),x1和y1表示b1的中心坐标,w1和h1分别表示b1的宽度和高度;b2对应的预测手势边界框的类别概率为0.8,位置信息为(x2,y2,w2,h2),x2和y2表示b2的中心坐标,w2和h2分别表示b2的宽度和高度;重叠阈值为0.5,则将b1确定为当前待选预测手势边界框,计算b2与b1的交并比,交并比记为其中,得到为0.8,其大于重叠阈值0.5,则将b2删除,最终确定b1为目标手势边界框。

本实施例的技术方案,通过获取原始图片,将原始图片输入手势检测模型,得到原始图片的预测标注信息,原始图片的预测标注信息包括原始图片的预测手势边界框的位置信息和类别概率,原始图片的预测手势边界框的个数为两个或两个以上,手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到,根据原始图片的预测标注信息,基于非极大值抑制方法从原始图片的预测手势边界框中确定目标手势边界框(即确定手势),通过采用平衡训练图片中目标正样本和目标负样本在卷积神经网络中所占权重得到的手势检测模型进行手势检测,解决了正负样本不平衡的问题,从而提高了手势检测模型的预测精度,即提高了手势检测模型对目标手势检测框的预测精度。

可选的,在上述技术方案的基础上,手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到,具体可以包括:获取训练图片以及训练图片的原始标注信息,训练图片的原始标注信息包括原始手势边界框的位置信息、置信度和类别概率,训练图片的原始手势边界框的个数为两个或两个以上。将训练图片输入卷积神经网络,得到训练图片的预测标注信息,训练图片的预测标注信息包括训练图片的预测手势边界框的位置信息、置信度和类别概率,训练图片的预测手势边界框的个数为两个或两个以上。根据训练图片的预测手势边界框的位置信息和训练图片的原始手势边界框的位置信息,计算训练图片的预测手势边界框与训练图片的原始手势边界框的交并比,并根据交并比与交并比阈值的关系,将训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,第一负样本和第二负样本组成负样本。根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重。根据目标正样本的预测标注信息、目标正样本的原始标注信息、目标负样本的预测标注信息、目标负样本的原始标注信息、目标正样本权重和目标负样本权重,得到卷积神经网络的损失函数。调整卷积神经网络的网络参数,直至损失函数的输出值小于等于预设阈值,则将卷积神经网络作为手势检测模型。

在本发明的实施例中,将训练图片输入卷积神经网络,卷积神经网络将训练图片划分为两个或两个以上网格,每个网格负责获取训练图片中目标对象(即手势)的中心落在该网格的预测标注信息,训练图片的预测标注信息可以包括训练图片的预测手势边界框的位置信息、训练图片的预测手势边界框的置信度和训练图片的预测手势边界框的类别概率,其中,训练图片的预测手势边界框的位置信息可以表示训练图片的预测手势边界框在训练图片中所在的位置,训练图片的预测手势边界框的置信度可以表示如下两方面内容,具体的:其一、训练图片的预测手势边界框是否包含手势;其二、训练图片的预测手势边界框的准确度。前者可用pr(objet)表示,如果训练图片的预测手势边界框包含手势,则pr(objet)=1;如果训练图片的预测手势边界框不包含手势,则pr(objet)=0。后者可以用训练图片的预测手势边界框与训练图片的原始手势边界框的交并比来表示,即可用来表示。基于上述,训练图片的预测手势边界框的置信度可以表示为训练图片的预测手势边界框的位置信息可以用(xx,yx,wx,hx)表示,其中,xx和yx表示训练图片的预测手势边界框的中心坐标,wx和hx分别表示训练图片的预设手势边界框的宽度和高度。训练图片的预测手势边界框的类别概率可以用于表示训练图片的预测手势边界框类别为手势的概率,可以用pr(class)表示。可以理解到,训练图片的每个预测手势边界框的位置信息、置信度和类别概率可以组成一个六维向量,即

需要说明的是,上述训练图片的预测标注信息指的是训练图片中每个网格对应的预测标注信息,换句话说,训练图片中每个网格均存在对应的预测标注信息。还需要说明的是,本发明实施例所述的训练图片的预测手势边界框的个数为两个或两个以上指的是训练图片中每个网格对应的预测手势边界框的个数为两个或两个以上。

为了更好的理解本发明实施例所述的基于卷积神经网络得到训练图片的预测标注信息,下面以具体示例进行说明,具体的:如图3所示,给出了一种基于卷积神经网络得到训练图片的预测标注信息的示意图。图3中将训练图片输入卷积神经网络,卷积神经网络将训练图片划分为7×7个网格,每个网格对应的预测手势边界框的个数为两个,由于训练图片的每个预测手势边界框的位置信息、置信度和类别概率可以组成一个六维向量,因此,每个网格对应的预测标注信息可以组成一个十二维向量,在此基础上,训练图片的预测标注信息可以组成一个7×7×12向量。针对训练图片的第i个网格,其对应的两个预测手势边界框分别为bi,1和bi,2,其中,预测手势边界框bi,1的位置信息、置信度和类别概率组成的向量可以用表示,预测手势边界框bi,2的位置信息、置信度和类别概率组成的向量可以用该训练图片的其它网络对应的预测标注信息,可以按照同样的方式得到。

训练图片的原始标注信息包括训练图片的原始手势边界框的位置信息、训练图片的原始手势边界框的置信度和训练图片的原始手势边界框的类别概率,其中,训练图片的原始手势边界框的位置信息可以表示训练图片中包含手势的边界框的位置信息,训练图片的原始手势边界框的位置信息可以用(xt,yt,wt,ht)表示,其中,xt和yt表示训练图片的原始手势边界框的中心坐标,wt和ht分别表示训练图片的原始手势边界框的宽度和高度。训练图片的原始手势边界框的置信度与训练图片的预测手势边界框的置信度一样,也包括两方面的内容,并且可以理解到,训练图片的原始手势边界框的置信度为1。训练图片的原始手势边界框的类别概率可以用于表示训练图片的原始手势边界框类别为手势的概率,同样可以理解到,训练图片的原始手势边界框的类别概率为1。

需要说明的是,由于在训练图片中,包含手势的预测手势边界框的数量较少,如果使全部预测手势边界框均参与到卷积神经网络的训练过程,则将导致出现类别不平衡问题,进而降低手势检测模型的预测精度,因此,为了提高手势检测模型的预测精度,本发明实施例所述的技术方案采用了如下方式:根据预设条件对训练图片的预测手势边界框进行划分,划分为正样本、第一负样本和第二负样本,并选择设定数量的正样本作为目标正样本,以及,选择设定数量的负样本作为目标负样本,根据目标正样本数量和目标正样本数量确定对应的目标正样本权重和目标负样本权重,使目标正样本权重和目标负样本权重参与到确定卷积神经网络的损失函数的过程中,从而解决类别不平衡问题,提高手势检测模型的预测精度。可以理解到,上述仅目标正样本和目标负样本参与到了对卷积神经网络的训练过程,相比于不对预测手势边界框进行划分以及筛选,将全部预测手势边界框均参与到卷积神经网络的训练过程而言,上述对预设手势边界框进行的划分以及筛选已经从一定程度上降低了正负样本不平衡对手势检测模型预测精度的影响,提高了手势检测模型的预测精度。在此基础上,将目标正样本权重和目标负样本权重引入确定卷积神经网络的损失函数,进一步提高了手势检测模型的预测精度。

基于上述,根据训练图片的预测手势边界框的位置信息和训练图片的原始手势边界框的位置信息,计算训练图片的预测手势边界框与训练图片的原始手势边界框的交并比,上述可作如下理解:针对训练图片的每个预测手势边界框,根据该预测手势边界框的位置信息和训练图片中各原始手势边界框的位置信息,分别计算该预测手势边界框与该训练图片中各原始手势边界框的交并比,并分别比较各交并比与交并比阈值的关系,根据比较结果将该预测手势边界框确定为正样本、第一负样本或第二负样本。其中,交并比阈值用于作为将训练图片的预测手势边界框确定为正样本、第一负样本或第二负样本的依据,交并比阈值可以包括第一交并比阈值和第二交并比阈值,第一交并比阈值大于第二交并比阈值,交并比阈值的具体数值可根据实际情况进行设定,在此不作具体限定。在此基础上,根据比较结果将该预测手势边界框确定为正样本、第一负样本或第二负样本,可作如下理解:针对该预测手势边界框,如果各交并比均大于第一交并比阈值,则可将该预测手势边界框确定为待选正样本;如果各交并比均大于第二交并比阈值且小于等于第一交并比阈值,则可将该预测手势边界框确定为第一负样本;如果各交并比均小于等于第二交并比阈值,则可将该预测手势边界框确定为第二负样本。通过上述操作,可将训练图片的预测手势边界框划分为待选正样本、第一负样本和第二负样本,再从待选正样本中确定正样本,即将待选正样本的预设手势边界框中交并比最大的待选正样本作为正样本。此外,第一负样本和第二负样本组成负样本。

需要说明的是,交并比阈值越大,说明训练图片的预测手势边界框与训练图片的原始手势边界框的重叠程度越大,并进一步说明训练图片的预测手势边界框越接近训练图片的原始手势边界框,即训练图片的该预测手势边界框包含手势的可能性就越大。还需要说明的是,第一负样本为易于正样本混淆的样本,后续在确定目标负样本时,尽量选择第一负样本,在第一负样本数量无法满足预设条件时,再选择第二负样本。

根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重,其中,目标正样本权重和目标负样本权重将参与到对卷积神经网络的训练过程中,用于实现正负样本平衡,提高手势检测模型的预测精度。

根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重,可作如下理解:根据正样本数量和正样本数量阈值的关系,确定目标正样本,以及,根据第一负样本数量和负样本数量阈值的关系,确定目标负样本,其中,负样本数量阈值包括第一负样本数量阈值和第二负样本数量阈值。根据目标正样本数量和目标负样本数量,确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量,确定目标负样本权重。

正样本数量阈值和负样本数量阈值可以通过如下方式确定:根据样本数量和正样本比例阈值,确定正样本数量阈值;将样本数量与目标正样本数量的差值作为第一负样本数量阈值;根据样本数量和负样本比例阈值,确定第二负样本数量阈值。其中,样本数量为最多可参与到卷积神经网络训练过程中的样本数量,样本数量为正样本数量和负样本数量之和;正样本比例阈值为最大正样本比例阈值,负样本比例阈值为最小负样本比例阈值。可以理解到,通过正样本数量阈值和负样本数量阈值进一步控制可参与到卷积神经网络训练的目标正样本数量和目标负样本数量。还可以理解到,由于第一负样本数量阈值的确定与目标正样本数量有关,因此,可从一定程度降低目标正样本数量与目标负样本数量之间的差距。需要说明的是,正样本比例阈值和负样本比例阈值可根据实际情况进行设定,在此不作具体限定。

目标正样本的预测标注信息指的是确定为目标正样本的预测手势边界框的位置信息、置信度和类别概率,目标负样本的预测标注信息指的是确定为目标负样本的预测手势边界框的位置信息、置信度和类别概率,目标正样本的原始标注信息指的是确定为目标正样本的预测手势边界框对应的原始手势边界框的位置信息、置信度和类别概率,目标负样本的原始标注信息指的是确定为目标负样本的预测手势边界框对应的原始手势边界框的位置信息、置信度和类别概率。

卷积神经网络的训练过程是经过前向传播计算卷积神经网络的损失函数,即根据目标正样本的预测标注信息、目标正样本的原始标注信息、目标负样本的预测标注信息、目标负样本的原始标注信息、目标正样本权重和目标负样本权重,得到卷积神经网的损失函数,并计算损失函数对网络参数的偏导数,采用反向梯度传播方法,对卷积神经网络的网络参数进行调整,直至卷积神经网络的损失函数的输出值小于等于预设阈值。当卷积神经网络的损失函数值小于等于预设阈值时,表示卷积神经网络已训练完成,此时,卷积神经网络的网络参数也得以确定。在此基础上,可将卷积神经网络作为手势检测模型。其中,卷积神经网络的网络参数可以包括权值和偏置。

上述通过将目标正样本权重和目标负样本权重参与到对卷积神经网络的训练过程,可提高手势检测模型的预测精度的原因在于:卷积神经网络的训练过程是经过前向传播计算卷积神经网络的损失函数,并计算损失函数对卷积神经网络的网络参数的偏导数,采用反向梯度传播方法,对网络参数进行调整,并重新计算卷积神经网络的损失函数,直至卷积神经网络的损失函数小于等于预设阈值,目标正样本权重可以提高目标正样本对卷积神经网络的损失函数的贡献,使得采用反向梯度传播方法,对卷积神经网络的网络参数进行调整时,相比于目标正样本权重未参与而言,增大了目标正样本在确定卷积神经网络的网络参数上所起的作用。上述使得训练完成的卷积神经网络提高了对目标正样本的预测精度,又由于将训练完成的卷积神经网络作为手势检测模型,因此,上述使得手势检测模型提高了对目标正样本的预测精度,进而,提高了手势检测模型的预测精度。

需要说明的是,本发明实施例所述的卷积神经网络的网络结构可以为yolo(youonlylookonce)结构。

可选的,在上述技术方案的基础上,根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重,具体可以包括:根据正样本数量与正样本数量阈值的关系,确定目标正样本,以及,根据第一负样本数量与负样本数量阈值的关系,确定目标负样本。根据目标正样本数量和目标负样本数量确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量确定目标负样本权重。

在本发明的实施例中,在确定目标正样本和目标负样本后,可以理解到,虽然对参与到卷积神经网络训练过程的正样本数量和负样本数量进行了控制,即只有确定为目标正样本的正样本以及确定为目标负样本的负样本才可以参与到卷积神经网络的训练过程,使得原有的正样本数量和负样本数量差距较大导致的数据类别不均衡问题在一定程度上得到了改善,但是目标正样本数量与目标负样本数量差距仍比较大,这是由训练图片中手势作为目标对象的个数较少所造成的,为了进一步解决数据类别不均衡问题,可增加目标正样本在损失函数中所占的权重,减少目标负样本在损失函数中所占的权重,即平衡目标正样本和目标负样本在损失函数中所占的权重。基于上述,根据目标正样本数量和目标负样本数量确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量确定目标负样本权重,可作如下理解:

由于目标负样本数量通常大于目标正样数量,因此,可考虑形成底数小于1的指数函数,具体的:计算目标正样本数量和目标负样本数量之和,得到目标样本数量,将目标负样本数量与目标样本数量的比值作为第一指数函数的底数,将目标正样本数量与目标样本数量的比值作为第二指数函数的底数,第一指数函数和第二指数函数的自变量均为权重系数,将第一指数函数作为目标正样本权重,将第二指数函数作为目标负样本权重,其中,由于目标正样本数量小于等于目标负样本数量,因此,第一指数函数的底数大于等于第二指数函数的底数,并且两个指数函数的底数均大于0且小于1,根据指数函数的性质,随着自变量的增大,第一指数函数的输出值与第二指数函数的输出值的比值将随之增大。由于第一指数函数为目标正样本权重,第二指数函数为目标负样本权重,第一指数函数和第二指数函数的自变量均为权重系数,同时,目标正样本权重和目标负样本权重均将参与到确定卷积神经网络的损失函数,因此,可根据实际情况设置权重系数,从而平衡目标正样本和目标负样本在卷积神经网络的损失函数中所占权重。

可选的,在上述技术方案的基础上,根据目标正样本数量和目标负样本数量确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量确定目标负样本权重,具体可以包括:计算目标正样本数量和目标负样本数量之和,得到目标样本数量。将目标负样本数量与目标样本数量的比值作为第一指数函数的底数,将目标正样本数量与所述目标样本数量的比值作为第二指数函数的底数,第一指数函数和第二指数函数的自变量均为权重系数。将第一指数函数作为目标正样本权重,将第二指数函数作为目标负样本权重。

在本发明的实施例中,设定用ctp表示目标正样本数量,用ctn表示目标负样本数量,用γ表示权重系数,则第一指数函数可以表示为第二指数函数可以表示为其中,第一指数函数的底数为第二指数函数的底数为第一指数函数和第二指数函数的自变量均为权重系数γ。基于上述,目标正样本权重为目标负样本权重为在目标正样本数量ctp和目标负样本数量ctn确定的情况下,可通过调节权重系数γ,从而平衡目标正样本和目标负样本在卷积神经网络的损失函数中所占权重。

可选的,在上述技术方案的基础上,根据目标正样本的预测标注信息、目标正样本的原始标注信息、目标负样本的预测标注信息、目标负样本的原始标注信息、目标正样本权重和目标负样本权重,得到卷积神经网络的损失函数,具体可以包括:根据目标正样本的预测手势边界框的置信度、目标正样本的原始手势边界框的置信度和目标正样本权重,得到卷积神经网络的第一损失函数。根据目标负样本的预测手势边界框的置信度、目标负样本的原始手势边界框的置信度和目标负样本权重,得到卷积神经网络的第二损失函数。根据目标正样本的预测手势边界框的位置信息和目标正样本的原始手势边界框的位置信息,得到卷积神经网络的第三损失函数。根据目标正样本的预测手势边界框的类别概率和目标正样本的原始手势边界框的类别概率,得到卷积神经网络的第四损失函数。根据第一损失函数、第二损失函数、第三损失函数和第四损失函数,得到卷积神经网络的损失函数。

在本发明的实施例中,卷积神经网络的损失函数将由四部分组成,具体的:根据目标正样本的预测手势边界框的置信度、目标正样本的原始手势边界框的置信度和目标正样本权重,得到卷积神经网络的第一损失函数,根据目标负样本的预测手势边界框的置信度、目标负样本的原始手势边界框的置信度和目标负样本权重,得到卷积神经网络的第二损失函数,可以理解到,目标正样本权重和目标负样本权重分别参与到确定卷积神经网络的第一损失函数和第二损失函数过程中,可以实现平衡目标正样本和目标负样本在卷积神经网络所占权重。

根据目标正样本的预测手势边界框的位置信息和目标正样本的原始手势边界框的位置信息,得到卷积神经网络的第三损失函数,以及,根据目标正样本的预测手势边界框的类别概率和目标正样本的原始手势边界框的类别概率,得到卷积神经网络的第四损失函数。上述在确定卷积神经网络的第三损失函数和第四损失函数过程中,仅目标正样本参与,目标负样本并不参与。

将卷积神经网络的第一损失函数、卷积神经网络的第二损失函数、卷积神经网络的第三损失函数和卷积神经网络的第四损失函数求和,得到卷积神经网络的损失函数。

可选的,在上述技术方案的基础上,交并比阈值包括第一交并比阈值和第二交并比阈值。根据交并比与交并比阈值的关系,将训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,具体可以包括:交并比大于第一交并比阈值,则将训练图片的预设手势边界框作为待选正样本,并将待选正样本中对应交并比最大的待选正样本作为正样本。交并比大于第二交并比阈值且小于等于第一交并比阈值,则将训练图片的预测手势边界框作为第一负样本。交并比小于等于第二交并比阈值,则将训练图片的预设手势边界框作为第二负样本。

在本发明的实施例中,由于训练图片的预测手势边界框的个数为两个或两个以上,因此,针对训练图片的每个预测手势边界框,根据该预测手势边界框的位置信息和训练图片的各原始手势边界框的位置信息,分别计算该预测手势边界框和训练图片的各原始手势边界框的交并比,如果该预测手势边界框与训练图片的各原始手势边界框的交并比均大于第一交并比阈值,则可将该预测手势边界框作为待选正样本,并从待选正样本中选择交并比最大的待选正样本作为正样本。如果该预测手势边界框与训练图片的各原始手势边界框的交并比均大于第二交并比阈值且小于等于第一交并比阈值,则可将该预测手势边界框作为第一负样本。如果该预测手势边界框与训练图片的各原始手势边界框的交并比均小于等于第二交并比阈值,则可将该预测手势边界框作为第二负样本。

需要说明的是,第一交并比阈值和第二交并比阈值可以根据实际情况进行确定,在此不作具体限定。示例性的,如第一交并比阈值为0.6,第二交并比阈值为0.2。

可选的,在上述技术方案的基础上,根据正样本数量与正样本数量阈值的关系,确定目标正样本,以及,根据第一负样本数量与负样本数量阈值的关系,确定目标负样本,具体可以包括:正样本数量大于正样本数量阈值,则从正样本中选择正样本数量阈值的正样本作为目标正样本。正样本数量小于等于正样本数量阈值,则将正样本作为目标正样本。

在本发明的实施例中,如果正样本数量大于正样本数量阈值,则可从正样本中选择正样本数量阈值的正样本作为目标正样本;如果正样本数量小于等于正样本数量阈值,则可将正样本作为目标正样本。即目标正样本数量的最大值为正样本数量阈值。

可选的,在上述技术方案的基础上,负样本数量阈值包括第一负样本数量阈值和第二负样本数量阈值。根据第一负样本数量与负样本数量阈值的关系,确定目标负样本,具体可以包括:第一负样本数量大于第一负样本数量阈值,则从第一负样本中选择第一负样本数量阈值的第一负样本作为目标负样本。第一负样本数量大于第二负样本数量阈值且小于等于第一负样本数量阈值,则将第一负样本作为目标负样本。第一负样本数量小于等于第二负样本数量阈值,则从第二负样本中选择第二负样本数量阈值与第一负样本数量的差值的第二负样本作为目标第二负样本,将目标第二负样本和第一负样本作为目标负样本。

在本发明的实施例中,如果第一负样本数量大于第一负样本数量阈值,则可从第一负样本中选择第一负样本数量阈值的第一负样本作为目标负样本;如果第一负样本数量大于第二负样本数量阈值且小于等于第一负样本数量阈值,则可将第一负样本作为目标负样本;如果第一负样本数量小于等于第二负样本数量阈值,则可从第二负样本中选择第二负样本数量阈值与第一负样本数量的差值的第二负样本作为目标第二负样本,并将目标第一负样本和第二负样本作为目标负样本。

需要说明的是,第一负样本数量阈值和第二负样本数量阈值可通过如下方式确定:将样本数量与目标正样本数量的差值作为第一负样本数量;根据样本数量和负样本比例阈值,确定第二负样本数量阈值,负样本比例阈值为最小负样本比例阈值。可以理解到,负样本比例阈值可根据实际情况进行设定,在此不作具体限定。

图4为本发明实施例提供的一种手势检测装置的结构示意图,本实施例可适用于提高手势检测模型的预测精度的情况,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于设备中,例如典型的是计算机或移动终端等。如图4所示,该装置具体包括:

原始图片获取模块210,用于获取原始图片。

原始图片的预测标注信息获取模块220,用于将原始图片输入手势检测模型,得到原始图片的预测标注信息,原始图片的预测标注信息包括原始图片的预测手势边界框的位置信息和类别概率,原始图片的预测手势边界框的个数为两个或两个以上,手势检测模型为在卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到。

目标手势边界框确定模块230,用于根据原始图片的预测标注信息,基于非极大值抑制方法从原始图片的预测手势边界框中确定目标手势边界框。

本实施例的技术方案,通过获取原始图片,将原始图片输入手势检测模型,得到原始图片的预测标注信息,原始图片的预测标注信息包括原始图片的预测手势边界框的位置信息和类别概率,原始图片的预测手势边界框的个数为两个或两个以上,手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到,根据原始图片的预测标注信息,基于非极大值抑制方法从原始图片的预测手势边界框中确定目标手势边界框(即确定手势),通过采用平衡训练图片中目标正样本和目标负样本在卷积神经网络中所占权重得到的手势检测模型进行手势检测,解决了正负样本不平衡的问题,从而提高了手势检测模型的预测精度,即提高了手势检测模型对目标手势检测框的预测精度。

可选的,在上述技术方案的基础上,手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到,具体可以包括:

获取训练图片以及训练图片的原始标注信息,训练图片的原始标注信息包括原始手势边界框的位置信息、置信度和类别概率,训练图片的原始边界框的个数为两个或两个以上。

将训练图片输入卷积神经网络,得到训练图片的预测标注信息,训练图片的预测标注信息包括训练图片的预测手势边界框的位置信息、置信度和类别概率,训练图片的预测手势边界框的位置信息和训练图片的原始手势边界框的位置信息,计算训练图片的预测手势边界框与训练图片的原始手势边界框的交并比,并根据交并比与交并比阈值的关系,将训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,第一负样本和第二负样本组成负样本。

根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重。

根据目标正样本的预测标注信息、目标正样本的原始标注信息、目标负样本预测标注信息、目标负样本的原始标注信息、目标正样本权重和目标负样本权重,得到卷积神经网络的损失函数。

调整卷积神经网络的网络参数,直至损失函数的输出值小于等于预设阈值,则将卷积神经网络作为手势检测模型。

可选的,在上述技术方案的基础上,根据正样本数量和第一负样本数量,确定目标正样本、目标正样本权重、目标负样本和目标负样本权重,具体可以包括:

根据正样本数量与正样本数量阈值的关系,确定目标正样本,以及,根据第一负样本数量与负样本数量阈值的关系,确定目标负样本。

根据目标正样本数量和目标负样本数量确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量确定目标负样本权重。

可选的,在上述技术方案的基础上,根据目标正样本数量和目标负样本数量确定目标正样本权重,以及,根据目标正样本数量和目标负样本数量确定目标负样本权重,具体可以包括:

计算目标正样本数量和目标负样本数量之和,得到目标样本数量。

将目标负样本数量与目标样本数量的比值作为第一指数函数的底数,将目标正样本数量与目标负样本数量的比值作为第二指数函数的底数,第一指数函数和第二指数函数的自变量均为权重系数。

将第一指数函数作为目标正样本权重,将第二指数函数作为目标负样本权重。

可选的,在上述技术方案的基础上,根据目标正样本的预测标注信息、目标正样本的原始标注信息、目标负样本的预测标注信息、目标负样本的原始标注信息、目标正样本权重和目标负样本权重,得到卷积神经网络的损失函数,具体可以包括:

根据目标正样本的预测手势边界框的置信度、目标正样本的原始手势边界框的置信度和目标正样本权重,得到卷积神经网络的第一损失函数。

根据目标负样本的预测手势边界框的置信度、目标负样本的原始手势边界框的置信度和目标负样本权重,得到卷积神经网络的第二损失函数。

根据目标正样本的预测手势边界框的位置信息和目标正样本的原始手势边界框的位置信息,得到卷积神经网络的第三损失函数。

根据目标正样本的预测手势边界框的类别概率和目标正样本的原始手势边界框的类别概率,得到卷积神经网络的第四损失函数。

根据第一损失函数、第二损失函数、第三函数和第四损失函数,得到卷积神经网络的损失函数。

可选的,在上述技术方案的基础上,交并比阈值包括第一交并比阈值和第二交并比阈值;

根据交并比与交并比阈值的关系,将训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,包括:

根据交并比与交并比阈值的关系,将训练图片的预测手势边界框划分为正样本、第一负样本和第二负样本,包括:

交并比大于第一交并比阈值,则将训练图片的预设手势边界框作为待选正样本,并将待选正样本中对应交并比最大的待选正样本作为正样本;

交并比大于第二交并比阈值且小于等于第一交并比阈值,则将训练图片的预测手势边界框作为第一负样本;

交并比小于等于第二交并比阈值,则将训练图片的预设手势边界框作为第二负样本。

可选的,在上述技术方案的基础上,根据正样本数量与正样本数量阈值的关系,确定目标正样本,以及,根据第一负样本数量与负样本数量阈值的关系,确定目标负样本,具体可以包括:

正样本数量大于正样本数量阈值,则从正样本中选择正样本数量阈值的正样本作为目标正样本。

正样本数量小于等于正样本数量阈值,则将正样本作为目标正样本。

可选的,在上述技术方案的基础上,负样本数量阈值包括第一负样本数量阈值和第二负样本数量阈值。

根据第一负样本数量与负样本数量阈值的关系,确定目标负样本,具体可以包括:

第一负样本数量大于第一负样本数量阈值,则从第一负样本中选择第一负样本数量阈值的第一负样本作为目标负样本。

第一负样本数量大于第二负样本数量阈值且小于等于第一负样本数量阈值,则将第一负样本作为目标负样本。

第一负样本数量小于第二负样本数量阈值,则从第二负样本中选择第二负样本数量阈值与第一负样本数量的差值的第二负样本作为目标第二负样本,将目标第二负样本和第一负样本作为目标负样本。

本发明实施例所提供的手势检测装置可执行本发明任意实施例所提供的手势检测方法,具备执行方法相应的功能模块和有益效果。

图5为本发明实施例提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备312的框图。图5显示的设备312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,设备312以通用计算设备的形式表现。设备312的组件可以包括但不限于:一个或者多个处理器316,系统存储器328,连接于不同系统组件(包括系统存储器328和处理器316)的总线318。

总线318表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(instructionsetarchitecture,isa)总线,微通道体系结构(microchannelarchitecture,mca)总线,增强型(instructionsetarchitecture,isa)总线、视频电子标准协会(videoelectronicsstandardsassociation,vesa)局域总线以及外围组件互连(peripheralcomponentinterconnect,pci)总线。

设备312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器328可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccessmemory,ram)330和/或高速缓存存储器332。设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统334可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如(computerdiscread-onlymemory,cd-rom),数字视盘(digitalvideodisc-readonlymemory,dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储器328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块342的程序/实用工具340,可以存储在例如存储器328中,这样的程序模块342包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块342通常执行本发明所描述的实施例中的功能和/或方法。

设备312也可以与一个或多个外部设备314(例如键盘、指向设备、显示器324等)通信,还可与一个或者多个使得用户能与该设备312交互的设备通信,和/或与使得该设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口322进行。并且,设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(localareanetwork,lan),广域网(wideareanetwork,wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器320通过总线318与设备312的其它模块通信。应当明白,尽管图5中未示出,可以结合设备312使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(redundantarraysofindependentdisks,raid)系统、磁带驱动器以及数据备份存储系统等。

处理器316通过运行存储在系统存储器328中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种手势检测方法,该方法包括:

获取原始图片。

将原始图片输入手势检测模型,得到原始图片的预测标注信息,原始图片的预测标注信息包括原始图片的预测手势边界框的位置信息和类别概率,原始图片的预测手势边界框的个数为两个或两个以上,手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到。

根据原始图片的预测标注信息,基于非极大值抑制方法从原始图片的预测手势边界框中确定目标手势边界框。

当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供应用于设备的手势检测方法的技术方案。该设备的硬件结构以及功能可参见实施例的内容解释。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的一种手势检测方法,该方法包括:

获取原始图片。

将原始图片输入手势检测模型,得到原始图片的预测标注信息,原始图片的预测标注信息包括原始图片的预测手势边界框的位置信息和类别概率,原始图片的预测手势边界框的个数为两个或两个以上,手势检测模型为在对卷积神经网络训练过程中通过平衡训练图片中目标正样本和目标负样本在卷积神经网络的损失函数中所占权重得到。

根据原始图片的预测标注信息,基于非极大值抑制方法从原始图片的预测手势边界框中确定目标手势边界框。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(computerdiscread-onlymemory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——局域网(localareanetwork,lan)或广域网(wideareanetwork,wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的设备的手势检测方法中的相关操作。对存储介质的介绍可参见实施例中的内容解释。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1