一种手部跟踪方法和广告机与流程

文档序号:17760996发布日期:2019-05-24 21:40阅读:152来源:国知局
一种手部跟踪方法和广告机与流程

本发明涉及人工智能领域,尤其涉及一种手部跟踪方法和广告机。



背景技术:

目前,随着深度学习技术在计算机视觉领域的蓬勃发展,为相关电子产品为商业应用带来了新的生机,这些电子产品可以对用户的动作进行识别,比如可以对用户的手部动作、脚部动作以及面部动作等进行识别。目前在进行人机交互的过程中,对于识别部位的位置跟踪是通过图片背景的纹理特征来分辨手与背景,对背景条件要求较高,一但背景或光源发生变化,则影响跟踪计算结果精度,使人机交互变得困难,解决方法是需要在背景或光源变化后重新设计算法,而这样不利于广告机人机交互的实现。因此,现有的手部跟踪算法稳定性差,从而导致广告机存在普适性低、不利于落地的问题。



技术实现要素:

本发明实施例提供一种手部跟踪方法和广告机,以提高手部跟踪算法的稳定性,从而解决手部跟踪算法在广告机普适性低的问题。

第一方面,本发明实施例提供一种手部跟踪方法,包括:

将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,其中所述输入图像包括手部,所述单目标多盒网络模型在预测过程中以手部为目标进行预测;

将所述手部特征位置映射到广告机界面对应位置,基于映射位置更新所述广告机界面中的光标工具位置,其中,所述输出图像与所述广告机界面存在预先设置的映射关系。

可选的,所述输入图像的获取包括:

将摄像头拍摄到的初始图像缩放到预设尺寸的大小,得到输入图像,其中,所述初始图像包括手部。

可选的,所述单目标多盒网络模型的训练包括:

获取手部图像数据集,所述手部图像数据集包括各个环境和/或光源下的手部图像,所述手部图像包括手部的抠像标注;

使用包括手部的抠像标注的手部图像对所述单目标多盒网络模型进行训练,每个手部图像的训练过程中包括学习该手部图像中对应于手部的多尺度关系。

可选的,所述将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,包括:

通过所述单目标多盒网络模型中的多个卷积层对所述输入图像进行多尺度特征预测,得到尺度不同的多个手部特征;

将所述多个手部特征进行去重,得到目标手部特征;

根据所述目标手部特征,获取所述目标手部特征在所述输出图像中的位置。

可选的,所述手部特征包括置信度,所述将所述多个手部特征进行去重,包括:

计算所述多个手部特征之间的重叠度;

在重叠度大于预先预先设置的重叠度阈值的手部特征中选取置信度最高的手部特征进行保留,删除重叠度大于预先重叠度阈值的其余手部特征。

可选的,所述根据所述目标手部特征,获取所述目标手部特征在所述输出图像中的位置,包括:

获取所述目标手部特征在所述输出图像上的任意一组对角点坐标;

根据所述任意一组对角点坐标确定所述手部特征在所述输出图像中的位置。

可选的,所述将所述手部特征位置映射到广告机界面对应位置,包括:

将所述输出图像的手部特征位置映射到所述输入图像中,得到输入图像的手部位置,其中,所述输出图像与所述输入图像存在预先设置的映射关系;

将所述输入图像的手部位置映射到所述广告机界面中,得到广告机界面中的手部位置,其中,所述输入图像与所述广告机界面存在预先设置的映射关系。

第二方面,本发明实施例提供一种广告机,包括:

预测模块,将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,其中所述输入图像包括手部,所述单目标多盒网络模型在预测过程中以手部为目标进行预测;

映射模块,用于将所述手部特征位置映射到广告机界面对应位置,基于映射位置更新所述广告机界面中的光标工具位置,其中,所述输出图像与所述广告机界面存在预先设置的映射关系。

第三方面,本发明实施例提供一种广告机,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例提供的手部跟踪方法中的步骤。

第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的手部跟踪方法中的步骤。

本发明实施例中,将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,其中所述输入图像包括手部,所述单目标多盒网络模型在预测过程中以手部为目标进行预测;将所述手部特征位置映射到广告机界面对应位置,基于映射位置更新所述广告机界面中的光标工具位置,其中,所述输出图像与所述广告机界面存在预先设置的映射关系。由于对手部特征进行单目标多盒预测,只需要提取手部特征做为目标进行预测,不需提取图片背景纹理特征来地手部特征预测,,从而降低了对背景的依赖,提高了手部跟踪的稳定性,有利于实现广告机的落地。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种手部跟踪方法的流程示意图;

图2是本发明实施例提供的一种单目标多盒网络模型的示意图;

图3是本发明实施例提供的另一种手部跟踪方法的流程意图;

图4是本发明实施例提供的一种广告机的的结构示意图;

图5是本发明实施例提供的另一种广告机的的结构示意图;

图6是本发明实施例提供的另一种广告机的的结构示意图;

图7是本发明实施例提供的另一种广告机的的结构示意图;

图8是本发明实施例提供的另一种广告机的的结构示意图;

图9是本发明实施例提供的另一种广告机的的结构示意图;

图10是本发明实施例提供的另一种广告机的的结构示意图;

图11是本发明实施例提供的一种广告机的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参见图1,图1是本发明实施例提供的一种手部跟踪方法的流程示意图,如图1所示,包括以下步骤:

101、将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,其中所述输入图像包括手部,所述单目标多盒网络模型在预测过程中以手部为目标进行预测。

其中,上述输入图像可以是摄像头实际拍摄到的图像,也可以是将摄像头实际拍摄到的图像进行处理的图像,上述的处理包括调整分辨率或调整尺寸,上述的输入图像可以是一张或多张,其中,上述多张可以是连续多张,比如视频,上述多张输入图像可以是以fps(帧/秒)的速度进行输入,例如:fps=10、15或者20等,具体可以根据广告机设备配置进行预先设定。上述单目标多盒网络模型为预先训练好的,能够学习输入数据从而在一张图像中检测不同尺度目标的网络模型,上述的单目标多盒网络模型可以是全卷积网络模型,即该模型可以只包括有卷积层网络,无需全连接层,这样,可以提高模型的计算速度。具体的,该单目标多盒网络模型可以使用6个不同特征图检测不同尺度的目标,如图2所示,利用多个卷积层对同一图像不同尺寸进行卷积操作,得到多个尺寸不同的特征,在本实施例中,通过单目标多盒网络模型,可以得到多个尺寸不同的手部特征,经过模型计算的手部特征可以称为手部特征框(boundingbox),上述单目标多盒网络模型中的卷积层对包括有手部的输入图像进行卷积操作,可以输出多个尺寸不同的手部特征框到预测器中进行预测,例如,通过图2中的conv(卷积)4_3得到一组手部特征框,输入预测器,通过conv7得到一组手部特征框,输入预测器,通过conv8_2、conv9_2、conv10_2、conv11_2分别得到对应手部特征框,输入预测器中进行预测,由于对单个图像进行多特征框预测,提高了对手部特征的查全率与查准率。上述单目标多盒网络模型可以是采用预先准备的手部图像数据集进行训练,上述手部图像数据集包含有各种环境下手部的抠像标注,通过将有手部抠像标注图像在单目标多盒网络模型进行训练,可以使单目标多盒网络模型能够预测手部特征位置。由于不需要提取图像中背景纹理,只需要提取手部特征做为目标进行预测,提高了手部跟踪的稳定性,另外,由于不需要提取图像中背景纹理,所以也不需光流信息和深度信息做为背景纹理的特征提取依据,故提高了效率的同时降低了对设备的要求。

上述输出图像可以理解为标注了手部特征框的图像,上述包括有手部特征框的输出图像可以理解为模型运行时可视化(特征框可视化)结果图像,需要理解的是,上述的可视化结果图像指的是模型运行时或训练时进行的可视化,方便观察与训练,而不是将可视化结果图像在广告机上进行展示。上述手部特征位置可以理解为在输出图像上预测出的手部特征框的位置,即手部特征位置可以通过在输出图像上标注的手部特征框进行确定,上述的手部特征位置可以是基于输入图像的尺寸坐标,也可以是基于输出图像的像素坐标,上述手部特征位置也可以是手部特征框中的任意一个点的位置(坐标),也可以是多个点的位置分布坐标。另外,上述输入图像包括手部可以理解为输入图像是对针对手部的图像。

102、将所述手部特征位置映射到广告机界面对应位置,基于映射位置更新所述广告机界面中的光标工具位置,其中,所述输出图像与所述广告机界面存在预先设置的映射关系。

其中,上述手部特征位置为步骤101中预测得到的基于输入图像的手部特征位置,上述的手部特征可以可视化在输出图像中,即是输出图像中的手部特征框,上述的映射可以理解为:将输出图像投影到一个与广告机界面相同尺寸的图像模板(画布)上,对应的,手部特征框也被投影映射到图像模板,也就可以得到手部特征框在图像模板中的位置,进而根据手部特征在图像模板中的位置,得到光标工具的位置,即图像模板中手部特征框与广告机界面中光标工具位置相同,上述的更新光标工具位置可以是根据图像模板中手部特征框位置,在广告机界面上对应的位置生成新的光标工具,将原来光标工具在广告机界面上进行删除。上述的预先设置的映射关系可以是尺寸映射,也可以是像素映射;上述的尺寸映射可以通过更改分辨率进行,比如,保持像素不变,将分辨率调小,则图像尺寸变大,将分辨率调大,则图像尺寸变大;上述的像素映射可以是在图像模板中设置对应于输出图像的像素格,比如,输出图像的像素格为纵300单位,横300单位,共90000个像素格,则可以将图像模板也设置为纵300,横300,共90000的格子,每个格子与输出图像的同坐标像素格对应,在一种可能的实施方式中。通过上述的映射关系,可以将输出图像中的手部特征框映射到图像模板中,使广告机的光标工具可以根据图像模板中的手部特征框位置进行更新,实现人机交互。

上述方法中,由于只需要提取手部特征做为目标进行预测,不需要提取图像中背景纹理,提高了手部跟踪的稳定性,另外,由于不需要提取图像中背景纹理,所以也不需光流信息和深度信息做为背景纹理的特征提取依据,对图像的要求不高,故提高了效率的同时降低了对设备的要求,能够处理2d摄像头拍摄到的图像。

需要说明的是,本发明实施例提供的动态手势识别方法可以应用于广告机、手机、智能终端、计算机、服务器、平板电脑等智能设备。

本发明实施例中,将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,其中所述输入图像包括手部;将所述手部特征位置映射到广告机界面对应位置,基于映射位置更新所述广告机界面中的光标工具位置,其中,所述输出图像与所述广告机界面存在预先设置的映射关系。由于对手部特征进行单目标多盒预测,不需提取图片背景纹理特征,从而降低了对背景的依赖,提高了手部跟踪的稳定性,有利于实现广告机的落地。

请参见图3,图3是本发明实施例提供的另一种手部跟踪方法的流程示意图,如图3所示,包括以下步骤:

301、将摄像头拍摄到的初始图像缩放到预设尺寸的大小,得到输入图像,其中,所述初始图像包括手部。

其中,上述的摄像头可以是2d摄像头,也可以是其他的比如3d摄像头等具有图像深度采集功能的图像采集设备,由于单目标多盒网络模型对图像的要求不高,不需光流信息和深度信息,故可以降低对设备的要求,为节省摄像头成本,本发明实施例中优选为2d摄像头。上述的摄像头可以是内置在广告机内部的摄像头,也可以是设置在广告机外部做为外设的摄像头,上述的摄像头可以是一个或多个,上述的摄像头可以是角度可调的摄像头,以获取不同角度用户的手部图像。上述的摄像头可以是自动调焦摄像头,可以通过自动调焦获取到手部与背景大小符合图像。上述的初始图像指的是由摄像头直接拍摄得到的图像,可以是一张,也可以是连续的多张。上述将初始图像进行缩放可以是,预先设置有输入图像模板,将初始图像按输入图像模板进行缩放,比如,若摄像头采集到的初始图像尺寸大于输入图像模板,则将该初始图像进行缩小,以使该初始图像符合输入图像的尺寸,若摄像头采集到的初始图像尺寸小于输入图像模板,则将该初始图像进行放大,以使该初始图像符合输入图像的尺寸,这样,即使是更换摄像头导致拍摄出的图像的大小发生变化,通过尺寸的缩放,也不会影响模型的预测。在一些可能的实施方式中,当初始图像的大小已经满足输入图像的大小,也可以不对初始图像进行调整,或者可以理解为对初始图像的调整值为0。上述初始图像包括手部可以理解为初始图像是对针对手部的图像,在一种可能的实施方式中,初始图像中没有手部,通过该图像预测不到手部特征位置数据,则不会对广告机中的光标工具进行位置更新。

302、将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,其中所述输入图像包括手部。

303、将所述手部特征位置映射到广告机界面对应位置,基于映射位置更新所述广告机界面中的光标工具位置,其中,所述输出图像与所述广告机界面存在预先设置的映射关系。

上述步骤301中,由于将初始图像缩放到预设尺寸的大小,即使是更换摄像头导致拍摄出的图像的大小发生变化,也不会影响模型的预测结果,加强模型的鲁棒性,从而提高了广告机的适用范围。

需要说明的是,步骤301为可选的,在一些可能的场景中,由于摄像头拍摄的初始图像可直接做为输入图像输入到预测模型中,可以不需要对初始图像进行缩放。

在一种可选的实施方式,所述单目标多盒网络模型的训练包括:

获取手部图像数据集,所述手部图像数据集包括各个环境和/或光源下的手部图像,所述手部图像包括手部的抠像标注;

使用包括手部的抠像标注的手部图像对所述单目标多盒网络模型进行训练,每个手部图像的训练过程中包括学习该手部图像中对应于手部的多尺度关系。

其中,上述的手部图像数据集可以是用户自己进行图像采集和处理,比如,用户获取到广告机安装的场景,在安装的场景中进行图像采集并做手部的抠像标注;也可以网上进行调用,比如,可以下载egohands数据集中的手部图像数据做为训练用的手部图像数据集。上述的各个环境下手部图像可以是适于广告机安装的环境,比如室内场地,室外场地等,上述的光源可以是发光灯的光源,也可以是自然光源,还可以是用户自己定制的光源。上述的手部图像中包括一个或多个手部以及与手部一一对应的抠像标注,由于对手部进行抠像标注,上述的手部图像可以是没有光流信息和深度信息的手部图像,减少图像的数据量,从而降低对图像采集及手部预测的设备要求。上述的应于手部的多尺度关系可以理解为通过不同尺度的特征框对一个手部进行预测。

在训练的过程中,将手部图像数据集中的图像入单目标多盒网络模型中,通过标注的手部抠像对单目标多盒网络模型进行训练,使单目标多盒网络模型能够学习到手部图像中的手部特征提取。

需要说明的是,该训练过程为可选的,例如:一个广告机需要进行手部跟踪,该广告机可以接收其他设备发送的已经训练好的上述单目标多盒网络模型,或者接收用户输入的已经训练好的上述单目标多盒网络模型。

在一种可选的实施方式,所述将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,包括:

通过所述单目标多盒网络模型中的多个卷积层对所述输入图像进行多尺度特征预测,得到尺度不同的多个手部特征;

将所述多个手部特征进行去重,得到目标手部特征;

根据所述目标手部特征,获取所述目标手部特征在所述输出图像中的位置。

其中,上述多个卷积层可以参照图2,上述的多尺度预测可以根据不同的卷积层进行,例如:图2中的conv4_3、conv7、conv8_2、conv9_2、conv10_2、conv11_2用于处理不同尺寸的特征图,得到对应的手部特征框,通过上述的卷积层进行多尺度特征预测,可以得到(38*38*4+19*19*6+10*10*6+5*5*6+3*3*4+1*1*4)=8732个手部特征框,对这8732个手部特征框进行去重,可以得到目标手部特征。上述的去重可以是通过置信度去重,比如可以在重叠度规则下选取置信度最高的手部特征框进行保留;或者通过交集去重,比如可以选取多外特征框的交集,即公共区域(交集)作为最后的目标区域;或者通过并集去重,比如选取多个矩形框的并集,即所有特征框的最小外截矩作为目标区域,当然这里也不是只要相交就直接取并集,需要相交的框满足交集占最小框的面积达到一定比例(也就是预先设置阈值)才合并。上述目标手部特征的位置可以是通过计算目标手部特征框在输入图像或输出图像上的坐标进行确定,比如中心坐标或角点坐标。

在该实施方式中,通过多个卷积层进行多尺度特征预测,可以提高预测的精准度,从而提高手部跟踪的精准度。

一种可选的实施方式,所述手部特征包括置信度,所述将所述多个手部特征进行去重,包括:

计算所述多个手部特征之间的重叠度;

在重叠度达到预先设置的重叠度阈值的手部特征中选取置信度最高的手部特征进行保留,删除重叠度达到预先重叠度阈值的其余手部特征。

其中,上述的手部特征的置信度用于表示该特征为手部特征的可信度,手部特征的置信度越高的,则说明该特征越有可能是手部特征。上述的重叠度可以理解多个手部特征框的重叠度,上述的重叠度也可称为面积交并比,指的是两个特征框的相交面积与相并面积的比,比如,一个面积为10的a特征框与一个面积为20的b特征框的相交面积为10,则说明a特征框是在b特征框内的,其相并面积为20,其重叠度为0.5;或者a、b相交面种为4,可得相并面积为26,则其重叠度为0.154。上述重叠度阈值可以是一个或多个,例如:假设第一结果集合中包括全部的预测特征框a、b、c、d、e、f、g、h、i、j、k,置信度依次增大(k的置信度最大,a的置信度最小),可以分别计算k与a、b、c、d、e、f、g、h、i的重叠度,假设得到重叠度分别为ak、bk、ck、dk、ek、fk、gk、hk、ik,则将ak、bk、ck、dk、ek、fk、gk、hk、ik与预先设置的第一重叠度阈值进行对比,得到两种对比结果,第一种结果为所有特征框与k的重叠度达到第一重叠度阈值,可以假设ak、bk、ck、dk、ek、fk、gk、hk、ik达到第一重叠度阈值,则将a、b、c、d、e、f、g、h、i、j从第一结果集合中删除,得到k为目标手部特征;第二种结果为部分特征框与k的重叠度达到第一重叠度阈值,可以假设ck、dk、ek达到该第一重叠度重叠度阈值,则将c、d、e从第一结果集合中删除,保留a、b、f、g、h、i,将k放入第二结果集合中;在第二种结果中,结果集合中剩余特征框为a、b、f、g、h、i,i的置信度最高,分别计算i与a、b、f、g、h重叠度,得到重叠度ai、bi、fi、gi、hi,同样的此时会得到两种对比结果,第一种结果为所有特征框与i的重叠度达到第二重叠度阈值,则将a、b、f、g、h从第一结果集合中删除,将i放入第二结果集合中,计算k与i的重叠度,若重叠度达到第二重叠度阈值,则将i进行删除,若重叠度没有达到第二重叠度阈值,则将k与i标识为两个不同的目标手部特征,即输入图像中出现有两个手部;第二种结果为部分特征框与i的重叠度达到第二重叠度阈值,则重复进行上述的删除与对比操作,直到第一结果集合中没有特征框存在,则再次通过上述计算第二结果集合中特征框进行删除与对比,将保留结果放入第三结果集合,直到将第二结果集合中没有特征框存在。需要说明的是,上述的例子中,第一重叠度大于第二重叠度阈值。这样,可以通过第一重叠度进行对单个目标手部特征去重(即输入图像中一个手部只输出一个预测结果),通过第二重叠度多个目标手部特征进行分类(即输入图像中多个手部输出多个一一对应的预测结果)。在一些可能的实施例中,当存在多个目标手部特征时,可以通过手纹识别确定最终要获取坐标的手部特征。

该实施方式中,由于增加重叠度与阈值进行结合来对预测的结果进行去重,使预测的手部特征更加准确,提高手部位置坐标的精准度,从而提高了手部跟踪的精准度。

一种可选的实施方式,所述根据所述目标手部特征,获取所述目标手部特征在所述输出图像中的位置,包括:

获取所述目标手部特征在所述输出图像上的任意一组对角点坐标;

根据所述任意一组对角点坐标确定所述手部特征在所述输出图像中的位置。

其中,上述的根据目标手部特征获取目标手部特征位置可以是输出图像中目标手部特征框的对角点坐标,目标手部特征框为矩形框,上述的一组对角点可以理解为矩形框的对角线上的两个端点,因此只需要获取该目标手部特征框中任一条对角线的两个端点(即是对角点)的坐标,则可以确定目标手部特征框在输出图像中的位置及大小。上述的坐标可以尺寸坐标,也可以是像素坐标。在一些可能的实施例中,可以通过计算对角点位置,求得目标手部特征框的中心位置,即是对角线的中点,将目标手部特征框的中心位置做为目标手部特征的位置。

该实施方式中,由于通过获取手部特征在输出图像中的对角点坐标,可以确定手部特征在输出图像中的位置,提高手部跟踪的准确性。

一种可选的实施方式,所述将所述手部特征位置映射到广告机界面对应位置,包括:

将所述输出图像的手部特征位置映射到所述输入图像中,得到输入图像的手部位置,其中,所述输出图像与所述输入图像存在预先设置的映射关系;

将所述输入图像的手部位置映射到所述广告机界面中,得到广告机界面中的手部位置,其中,所述输入图像与所述广告机界面存在预先设置的映射关系。

其中,可以通过输入图像模板做为上述输出图像与输入图像的映射关系,将输出图像中的手部特征位置映射到输入图像中,上述的输入图像模板与输入图像具有相同的大小。需要说明的是,上述的输入图像模板可以根据单目标多盒网络的输入尺寸的超参数进行生成。可以通过与广告机界面相同尺寸的图像模板做为上述输入图像与广告机界面的映射关系,从而将输出图像中的手部特征位置映射到输入图像中。在一些可能的实施方式中,比如输出图像与输入图像大小相同,可以直接将输出图像的手部位置映射到与广告机界面相同尺寸的图像模板上。

在该实施方式中,由于将输出图像中的手部特征位置先映射回输入图像,再将输入图像中手部特征位置映射到广告机界面,增加了输入图像做为映射目标,降低了映射到广告机界面的失真程度,从而提高了手部跟踪的准确度。

需要说明的是,该实施方式可以看成是步骤303中将手部特征位置到广告机界面的可选实施方式,在一些可选的场景,可以直接将输出图像中的手部特征位置映射到与广告机界面相同尺寸的图像模板上就行。

一种可选的实施方式,所述方法还包括:

对所述输入图像进行手势识别,得到对应的手势语义,其中,所述手势语义为预先设置;

根据所述手势语义,激活所述光标工具以使所述光标工具在所述广告机界面执行对应功能。

其中,可以通过手势识别引擎对输入图像的手势进行识别,从而得到对应的手势语义。需要说明的是,对输入图像的手势识别可以是在手部位置预测之前,也可以是在手部位置预测之后,或者通过不同的线程,同时处理手势识别与手部跟踪,比如,通过第一线程将输入图像输入手势识别引擎中进行手势识别,通过第二线程将输入图像输入单目标多盒网络模型进行预测。上述手势语义可以对应光标工具的激活指令,上述的对应功能可以是,比如,伸出食指的手势可以对应光标工具的移动指令,进而实现光标工具的移动功能,伸出两只手指的手势可以对应光标工具的拖动指令,进而实现拖动选取功能,伸出五只手指的手势可以对应光标工具的滑动指令,进而实现滑动选取(选框)功能等,具体的对应规则可以根据用户进行预先设定,在此不做限定。

通过对输入图像进行手势识别,从而可以确定手部跟踪结果是否用于更新光标工具,不会在任意情况下都进行跟踪,提高手部跟踪的稳定性,还可以丰富人机交互的内容,增加广告机的吸引力。

需要说明的是,该实施方式为可选的,在一种可能的场景中,只需要进行手部跟踪就可以实现广告机的人机交互,比如“切西瓜”等屏幕游戏的交互。

本实施例中,在图1的所示的实施例的基础上增加了多种可选的实施方式,可以提高人机交互中手部跟踪的稳定性。

请参见图4,图4是本发明实施例提供的一种广告机的结构示意图,如图4所示,包括:

预测模块401,将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,其中所述输入图像包括手部,所述单目标多盒网络模型在预测过程中以手部为目标进行预测;

映射模块402,用于将所述手部特征位置映射到广告机界面对应位置,基于映射位置更新所述广告机界面中的光标工具位置,其中,所述输出图像与所述广告机界面存在预先设置的映射关系。

可选的,如图5所示,所述广告机还包括:

获取模块403,用于将摄像头拍摄到的初始图像缩放到预设尺寸的大小,得到输入图像,其中,所述初始图像包括手部。

可选的,所述单目标多盒网络模型的训练包括:

获取手部图像数据集,所述手部图像数据集包括各个环境和/或光源下的手部图像,所述手部图像包括手部的抠像标注;

使用包括手部的抠像标注的手部图像对所述单目标多盒网络模型进行训练,每个手部图像的训练过程中包括学习该手部图像中对应于手部的多尺度关系。

可选的,如图6所示,所述预测模块401包括:

卷积子模块4011,用于通过所述单目标多盒网络模型中的多个卷积层对所述输入图像进行多尺度特征预测,得到尺度不同的多个手部特征;

去重子模块4012,用于将所述多个手部特征进行去重,得到目标手部特征;

计算子模块4013,用于根据所述目标手部特征,获取所述目标手部特征在所述输出图像中的位置。

可选的,如图7所示,所述手部特征包括置信度,所述去重子模块4012包括:

第一计算单元40121,用于计算所述多个手部特征之间的重叠度;

去重单元40122,用于在重叠度达到预先设置的重叠度阈值的手部特征中选取置信度最高的手部特征进行保留,删除重叠度达到预先重叠度阈值的其余手部特征。

可选的,如图8所示,所述计算子模块4013包括:

第二计算单元40131,用于获取所述目标手部特征在所述输出图像上的任意一组对角点坐标;

确定单元40132,用于根据所述任意一组对角点坐标确定所述手部特征在所述输出图像中的位置。

可选的,如图9所示,所述映射模块402包括:

第一映射子模块4021,用于将所述输出图像的手部特征位置映射到所述初始图像中,得到初始图像的手部位置,其中,所述输出图像与所述初始图像存在预先设置的映射关系;

第二映射子模块4022,用于将所述初始图像的手部位置映射到所述广告机界面中,得到广告机界面中的手部位置,其中,所述初始图像与所述广告机界面存在预先设置的映射关系。

可选的,如图10所示,所述广告机还包括:

识别模块404,用于对所述输入图像进行手势识别,得到对应的手势语义,其中,所述手势语义为预先设置;

激活模块405,用于根据所述手势语义,激活所述光标工具以使所述光标工具在所述广告机界面执行对应功能。

本发明实施例提供的广告机能够实现图1和图3的方法实施例中的各个实施方式,以及相应有益效果,为避免重复,这里不再赘述。

参见图11,图11是本发明实施例提供的一种电子设备的结构示意图,如图11所示,包括:存储器1102、处理器1101及存储在所述存储器1102上并可在所述处理器1101上运行的计算机程序,其中:

处理器1101用于调用存储器1102存储的计算机程序,执行如下步骤:

将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,其中所述输入图像包括手部,所述单目标多盒网络模型在预测过程中以手部为目标进行预测;

将所述手部特征位置映射到广告机界面对应位置,基于映射位置更新所述广告机界面中的光标工具位置,其中,所述输出图像与所述广告机界面存在预先设置的映射关系。

可选的,处理器1101还用于执行所述输入图像的获取,包括:

将摄像头拍摄到的初始图像缩放到预设尺寸的大小,得到输入图像,其中,所述初始图像包括手部。

可选的,处理器1101执行的所述将获取到的输入图像输入至预先训练好的单目标多盒网络模型进行预测,根据预测得到的手部特征计算基于输出图像的目标手部特征位置,包括:

通过所述单目标多盒网络模型中的多个卷积层对所述输入图像进行多尺度特征预测,得到尺度不同的多个手部特征;

将所述多个手部特征进行去重,得到目标手部特征;

根据所述目标手部特征,获取所述目标手部特征在所述输出图像中的位置。可选的,处理器1101执行的所述手部特征包括置信度,所述将所述多个手部特征进行去重,包括:

计算所述多个手部特征之间的重叠度;

在重叠度达到预先设置的重叠度阈值的手部特征中选取置信度最高的手部特征进行保留,删除重叠度达到预先重叠度阈值的其余手部特征。

可选的,处理器1101执行的所述根据所述目标手部特征,获取所述目标手部特征在所述输出图像中的位置,包括:

获取所述目标手部特征在所述输出图像上的任意一组对角点坐标;

根据所述任意一组对角点坐标确定所述手部特征在所述输出图像中的位置。

可选的,处理器1101执行的所述将所述手部特征位置映射到广告机界面对应位置,包括:

将所述输出图像的手部特征位置映射到所述初始图像中,得到初始图像的手部位置,其中,所述输出图像与所述初始图像存在预先设置的映射关系;

将所述初始图像的手部位置映射到所述广告机界面中,得到广告机界面中的手部位置,其中,所述初始图像与所述广告机界面存在预先设置的映射关系。

可选的,处理器1101还用于执行如下步骤:

对所述输入图像进行手势识别,得到对应的手势语义,其中,所述手势语义为预先设置;

根据所述手势语义,激活所述光标工具以使所述光标工具在所述广告机界面执行对应功能。

本发明实施例提供的广告机能够实现图1和图3的方法实施例中的各个实施方式,以及相应有益效果,为避免重复,这里不再赘述。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的动态手势识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存取存储器(randomaccessmemory,简称ram)等。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1