一种目标跟踪方法及装置与流程

文档序号:12787329阅读:261来源:国知局
一种目标跟踪方法及装置与流程

本发明涉及计算机软件应用领域,特别涉及一种目标跟踪方法及装置。



背景技术:

近年来,随着互联网技术、通信技术、遥感技术的发展以及人们生活质量水平的提升,人们对电子设备提出了更高的要求,以电子玩具为例,人们希望电子玩具能够更加的智能,不再是通过遥控手柄等遥控器来改变电子玩具的运动轨迹,而希望电子玩具能够具有一定的感知能力,通过对环境的感知实现运动轨迹的改变,或者实现与用户进行互动,如电子玩具通过对环境的感知能够对用户进行跟踪。

目前,大多的电子设备是通过搭载声音传感器来实现对目标的跟踪,通过声音传感器能够对所处环境中的声源进行测量,并通过预先设置的参数判断该环境中是否存储目标,例如,用户在行走过程中发出的脚步声可以被电子设备上搭载的声音传感器测量到,声音传感器将测量到得脚步声发送给处理模块进行分析,判断脚步声的变化趋势,进而计算出用户是逐渐靠近电子设备还是逐渐远离电子设备,当靠近或远离一定程度之后,电子设备可以改变相应的运动轨迹来实现对用户的跟踪。

俗话说“耳听为虚,眼见为实”是有一定根据的,就用户在行走过程中发出的脚步声而言,脚步声大小与用户所穿得鞋履以及用户的行走习惯有直接的关系,例如,穿高跟鞋行走要比穿平底鞋行走时发出的脚步声大,行走习惯拖地的要不走路正常时发出的脚步声大,并且不同路段脚步声也可能存储在较大的差异,而采用上述方式对用户进行跟踪是依赖脚步声大小的,因此,上述对用户进行跟踪存在较大的误差,跟踪的准确度低下。



技术实现要素:

本发明实施例的目的在于提供一种目标跟踪方法及装置,能够减少对目标进行跟踪的误差,提高跟踪的准确度。

为达到上述目的,本发明实施例公开了一种目标跟踪方法,应用于装载摄像头的电子设备,所述电子设备具有驱动装置,所述驱动装置能够驱动所述电子设备运动;该方法包括:

获得所述摄像头拍摄的第一图像,所述第一图像为在所述电子设备位于第一位置时所述摄像头所拍摄的图像,所述第一位置为所述摄像头能够拍摄到目标的初始位置;

计算所述第一图像中所述目标的第一高度占所述第一图像的高度的第一比例;

触发所述驱动装置,以驱动所述电子设备向前或向后移动预设距离后,到达第二位置,所述向前为靠近所述目标,所述向后为远离所述目标;

获得所述摄像头拍摄的第二图像,并计算所述第二图像中所述目标的第二高度占所述第二图像的高度的第二比例,所述第二图像为所述电子设备位于所述第二位置时所述摄像头所拍摄的图像;

根据所述摄像头的视场角、所述第一比例、所述预设距离和所述第二比例,计算所述目标的实际高度,完成初始化配置;

在完成初始化配置后,持续获得所述摄像头拍摄的第三图像;

在获得每一张第三图像后,计算该第三图像中所述目标的第三高度占该第三图像的高度的第三比例;

根据所述摄像头的视场角、所述目标的实际高度以及所述第三比例,计算拍摄所述第三图像时所述电子设备所处位置到所述目标的当前距离;

计算所述当前距离与预设的目标跟踪距离之间的差值;

触发所述驱动装置,以使得所述驱动装置根据所述差值移动所述电子设备,以跟踪所述目标。

可选的,所述计算该第三图像中所述目标的第三高度占该第三图像的高度的第三比例的步骤,包括:

利用基于区域的卷积神经网络目标检测算法Faster-RCNN,对该第三图像进行目标检测,得到所述目标;

计算所述目标的第三高度;

计算所述第三高度占该第三图像的高度的第三比例。

可选的,所述计算所述目标的第三高度的步骤,包括:

用矩形框对所述目标进行标记,将所述矩形框的高度确定为所述目标的第三高度。

可选的,在所述计算所述第三高度占该第三图像的高度的第三比例的步骤之前,所述方法还包括:

利用解析网络ParseNet在该第三图像中对所述矩形框进行全局特征提取,得到所述矩形框在该第三图像中所处的位置;

判断所述矩形框在该第三图像中所处的位置是否处于预设目标跟踪区域内;

如果是,执行所述计算所述第三高度占该第三图像的高度的第三比例的步骤。

可选的,所述方法还包括:

当所述矩形框在该第三图像中所处的位置不处于预设目标跟踪区域内时,触发所述驱动装置,驱动所述电子设备原地转动,以使得所述矩形框处于所述预设目标跟踪区域内。

可选的,计算所述目标的实际高度所利用的公式为:

上式中,所述h为所述目标的实际高度,所述P1为所述目标的第一高度占所述第一图像的高度的第一比例,所述P2为所述目标的第二高度占所述第二图像的高度的第二比例,所述Fov为所述摄像头的视场角,所述x为所述电子设备向前或向后移动的预设距离,其中,所述电子设备向前移动时x值为正,所述电子设备向后移动时x值为负。

可选的,计算拍摄所述第三图像时所述电子设备所处位置到所述目标的距离所利用的公式为:

其中,所述Lx为拍摄所述第三图像时对应位置到所述目标的当前距离,所述h为所述目标的实际高度,所述P3为所述第三图像中所述目标的总高度占所述第三图像高度的第三比例,所述Fov为所述摄像头的视场角。

为达到上述目的,本发明实施例还公开了一种目标跟踪装置,应用于装载摄像头的电子设备,所述电子设备具有驱动装置,所述驱动装置能够驱动所述电子设备运动;所述装置包括:

第一获得模块,用于获得所述摄像头拍摄的第一图像,所述第一图像为在所述电子设备位于第一位置时所述摄像头所拍摄的图像,所述第一位置为所述摄像头能够拍摄到目标的初始位置;

第一计算模块,用于计算所述第一图像中所述目标的第一高度占所述第一图像的高度的第一比例;

第一触发模块,用于触发所述驱动装置,以驱动所述电子设备向前或向后移动预设距离后,到达第二位置,所述向前为靠近所述目标,所述向后为远离所述目标;

第二获得模块,用于获得所述摄像头拍摄的第二图像,并计算所述第二图像中所述目标的第二高度占所述第二图像的高度的第二比例,所述第二图像为所述电子设备位于所述第二位置时所述摄像头所拍摄的图像;

第二计算模块,用于根据所述摄像头的视场角、所述第一比例、所述预设距离和所述第二比例,计算所述目标的实际高度,完成初始化配置;

第三获得模块,用于在完成初始化配置后,持续获得所述摄像头拍摄的第三图像;

第三计算模块,用于在所述第三获得模块获得每一张第三图像后,计算该第三图像中所述目标的第三高度占该第三图像的高度的第三比例;

第四计算模块,用于根据所述摄像头的视场角、所述目标的实际高度以及所述第三比例,计算拍摄所述第三图像时所述电子设备所处位置到所述目标的当前距离;

第五计算模块,用于计算所述当前距离与预设的目标跟踪距离之间的差值;

跟踪模块,用于触发所述驱动装置,以使得所述驱动装置根据所述差值移动所述电子设备,以跟踪所述目标。

可选的,所述第三计算模块,包括:

目标检测子模块,用于利用基于区域的卷积神经网络目标检测算法Faster-RCNN,对该第三图像进行目标检测,得到所述目标;

第一计算子模块,用于计算所述目标的第三高度;

第二计算子模块,用于计算所述第三高度占该第三图像的高度的第三比例。

可选的,所述第一计算子模块,具体用于:

用矩形框对所述目标进行标记,将所述矩形框的高度确定为所述目标的第三高度。

可选的,所述装置还包括:

特征提取模块,用于在执行所述第二计算子模块之前,利用解析网络ParseNet在该第三图像中对所述矩形框进行全局特征提取,得到所述矩形框在该第三图像中所处的位置;

判断模块,用于判断所述矩形框在该第三图像中所处的位置是否处于预设目标跟踪区域内;

第二触发模块,用于在所述判断模块判定结果为是的情况下,触发所述第二计算子模块。

可选的,所述装置还包括:

第三触发模块,用于在所述判断模块判定结果为否的情况下,触发所述驱动装置,驱动所述电子设备原地转动,以使得所述矩形框处于所述预设目标跟踪区域内。

可选的,所述第二计算模块,具体用于:

根据所述摄像头的视场角、所述第一比例、所述预设距离和所述第二比例,完成初始化配置按照如下公式计算所述目标的实际高度,完成初始化配置:

上式中,所述h为所述目标的实际高度,所述P1为所述目标的第一高度占所述第一图像的高度的第一比例,所述P2为所述目标的第二高度占所述第二图像的高度的第二比例,所述Fov为所述摄像头的视场角,所述x为所述电子设备向前或向后移动的预设距离,其中,所述电子设备向前移动时x值为负,所述电子设备向后移动时x值为正。

可选的,所述第四计算模块,具体用于:

根据所述摄像头的视场角、所述目标的实际高度以及所述第三比例,按照如下公式计算拍摄所述第三图像时所述电子设备所处位置到所述目标的当前距离:

其中,所述Lx为拍摄所述第三图像时对应位置到所述目标的当前距离,所述h为所述目标的实际高度,所述P3为所述第三图像中所述目标的总高度占所述第三图像高度的第三比例,所述Fov为所述摄像头的视场角。

综上可见,在本发明实施例提供的方案中,通过装载与电子设备上的摄像头能够在第一位置拍摄到第一图像,并对第一图像进行目标检测,得到第一比例,同时触发驱动装置使电子设备向前或向后移动预设距离后到达第二位置,在第二位置时,摄像头拍摄获得第二图像,同样对第二图像进行目标检测,得到第二比例,并根据摄像头的视场角、第一比例、预设距离以及第二比例,计算该目标的实际高度,完成初始化配置;之后持续获得第三图像,针对任意的第三图像进行目标检测,得到第三比例,根据该第三比例、摄像头的视场角以及上述计算出的目标的实际高度,计算拍摄第三图像时该电子设备对应位置到目标的当前距离,并将当前距离与预设的目标跟踪距离作差得到差值,根据差值移动电子设备,达到实时跟踪目标的目的,减少了对目标进行跟踪的误差,提高了跟踪的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标跟踪方法的流程示意图;

图2为本发明实施例提供的一种初始化配置的过程示意图;

图3为本发明实施例提供的一种目标跟踪装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面通过具体实施例,对本发明进行详细的说明。

图1为本发明实施例提供的一种目标跟踪方法的流程示意图,该方法应用于装载摄像头的电子设备,所述电子设备具有驱动装置,所述驱动装置能够驱动所述电子设备运动,该方法包括步骤:

S101:获得所述摄像头拍摄的第一图像,所述第一图像为在所述电子设备位于第一位置时所述摄像头所拍摄的图像,所述第一位置为所述摄像头能够拍摄到目标的初始位置;

为了直观地对本发明实施例所提供的电子设备进行说明,首先对电子设备的基本结构进行介绍,本发明实施例中提及的电子设备需要装载摄像头,因为该电子设备用于跟踪目标,因此还需要具备运动的能力,所以该电子设备还需搭载能够使驱动电子设备运动的驱动装置,当然电子设备需要有电源系统来为各部件提供电源,同时该电子设备具有图像处理的能力。

该电子设备上装载的摄像头可以选用常见的摄像头,例如,罗技(Logitech)HD720P免驱动高清摄像头、XM雄迈720P百万高清行车监控摄像头、萤石(EZVIZ)C6H云台全景无线网络摄像头等等,本发明实施例并不对摄像头的具体形式做进一步限定。对于摄像头装载的方式,一般为了能够拍摄得到较好的图像,摄像头可以水平地安装在电子设备上。对于驱动装置而言,驱动装置可以采用常见的直流电机,例如,在电子设备的底部安装四个轮子,四个轮子可以按正方形(前、后、左、右)进行布局,每个轮子均由一个直流电机控制,每个轮子能够单独的受控,因此,通过上述的四个直流电机能够实现任意方向的运动。

通过控制电子设备底部安装的四个直流电机,能够将摄像头转动至能够拍摄到目标的位置,本发明实施例所提供的方案中,目标可以为行人、小动物以及物体其他移动的物体,本发明实施例不对目标的具体形式做明确的限定,为了直观统一地对本发明实施例进行说明,以下实施例均以目标是行人为例进行说明。

不难理解的,通过控制上述的直流电机能够使得摄像头的视野中出现行人,这里所说的摄像头的视野是指摄像头能够拍摄到的范围,假设当前状态下,行人恰巧出于摄像头的正前方,且摄像头能够拍摄到该行人,那么称上述摄像头所处的位置为第一位置,摄像头在上述的第一位置拍摄到图像为第一图像;摄像头可以理解为是图像采集装置,通过摄像头能够获得第一图像。可以理解的是,摄像头检测到行人出现,然后拍摄图像,可以通过现有技术来实现。

S102:计算所述第一图像中所述目标的第一高度占所述第一图像的高度的第一比例;

由上可知的是,摄像头在上述第一位置拍摄的第一图像中有行人(目标),行人在上述的第一图像中会有一定的高度,本发明实施例中称该高度为第一高度,通过对第一图像进行分析检测,能够检测出第一图像中的行人,那么该行人在第一图像中的第一高度也可以被计算出来。

就目前的图像处理技术而言,对图像进行目标检测的方式有多种,例如,利用方向梯度直方图(Histogram of Oriented Gradient,简称HOG)对上述第一图像中的行人的特征进行提取,HOG特征是一种在计算机视觉和图像处理中用来进行目标检测的特征描述,它通过计算和统计图像局部区域的梯度方向直方图来构成特征。同时,HOG特征可以结合支持向量机(Support Vector Machine,简称SVM)分类器,能够方便准确的对第一图像中的行人进行检测。此外,较为准确智能的目标检测的方法是,利用深度学习的方式来对图像进行分析。例如,可以利用基于区域的卷积神经网络目标检测算法Faster-RCNN,对上述第一图像进行目标检测。

本领域技人员能够理解的是,Faster-RCNN由两部分组成,分别是全卷积神经网络(Region Proposal Network,简称RPN)和快速卷积神经网络目标检测算法Fast-RCNN。

RPN的输入可以是任意大小的图片,RPN对输入的图像进行特征提取,特征提取可以采用VGG Net进行卷积、池化操作,得到关于输入图像的特征图谱,再按照预设大小的卷积核将特征图谱分割成多个矩形窗口,把每个矩形窗口的中心点当成一个基准点,围绕这个基准点选取9个不同尺寸的预选框,对于每一个预选框,均在后面连,接一个二分类器softmax然后再接上一个边界框(bounding box)的回归器,回归器的输出为4个坐标点,这4个坐标点能够确定对应的预选框的区域,这9个不同尺寸的预选框构成一个目标可能存在的预选区域集。

Fast-RCNN将上述RPN输入的图像,以及通过RPN得到的目标可能存在的预选区域集作为输入,首先对该图像进行处理得到一个卷积特征图,然后为预选区域集中每个区域的ROI(Region Of Interest)池化层从卷积特征图中提取一个固定长度的特征向量,每个特征向量被送入全连接层,最终得到两个输出,一个用于确定图像中目标的类别,另一个用于确定目标所处区域。

通过目标所处的区域,能够确定出目标在图像中的第一高度,获得该第一高度仅为了计算该高度占第一图形的高度的比例,称该比例为第一比例。对于同一个摄像头来说,其视场角(Field Of View,简称FOV)为一个定值,因此同一个摄像头所拍摄的图像具有相同的大小,FOV是指摄像头所能覆盖的范围(物体超过这个角就不会出现在拍摄的图像中),摄像头能拍摄多大范围的景物,通常用角度来表示,这个角度就叫摄像头的FOV,FOV是摄像头的硬件参数。例如,罗技(Logitech)HD720P免驱动高清摄像头的视场角FOV=60°,对于该摄像头来说,其拍摄到的图像大小为640*360,所以第一图像的大小也为640*360,因此,如果第一图像中行人的高度可知的话,那么该行人占第一图像的高度的第一比也可以计算出来,第一比例可用P1表示,假设上述计算出P1=0.6。

需要说明的是,上述利用Faster-RCNN对第一图像进行目标检测仅为本发明实施例提供的一种具体实现方式,上述过程旨在计算第一图像中的目标占第一图像的高度的第一比例,凡能够达到上述目的的图像处理方法均适用,因此,本发明实施例并不对计算目标高度占第一图像的高度的第一比例的具体实现方式做进一步限定。

S103:触发所述驱动装置,以驱动所述电子设备向前或向后移动预设距离后,到达第二位置,所述向前为靠近所述目标,所述向后为远离所述目标;

在上述计算出第一图像中的行人的高度占第一图像的高度的第一比例之后,触发上述所说的驱动装置,驱动装置能够使电子设备向前或者是向后移动一段距离,称该段举例为预设距离,到达第二位置,该处所说的向前指的是靠近目标的方向,向后指的是远离目标的方向。

示例性的,在计算出电子设备在第一位置时,摄像头所拍摄的第一图像中行人占第一图像的高度的第一比例P1=0.6之后,触发安装在电子设备底部的驱动装置(四个轮子),使电子设备向后移动一段距离x,如x=0.5m(米),如果电子设备在第一位置时,摄像头处于行人的正前方,那么可以直接触发四个轮子中的左、右轮子,同步向后转动,使电子设备向后移动离0.5m。当然,也可以同步向前转动,使电子设备前移动0.5m。

为了避免电子设备在移动到达第二位置时目标超出摄像头的拍摄范围,在触发驱动装置时可以根据上述计算的第一比例P1的大小来确定是将电子设备向前移动,还是向后移动。例如,当第一比例P1大于0.5时,选择将电子设备向后移动;当第一比例P2小于等于0.5时,选择将电子设备向前移动,这里将第一比例P1与0.5作比较,选择向前还是向后移动电子设备仅为本发明实施例的一种具体实现方式,对于比较数值并不做明确限定,除上述列举的数值0.5外,该数值还可以为0.4、0.6等等。

S104:获得所述摄像头拍摄的第二图像,并计算所述第二图像中所述目标的第二高度占所述第二图像的高度的第二比例,所述第二图像为所述电子设备位于所述第二位置时所述摄像头所拍摄的图像;

由上可知的是,通过上述触发驱动装置后能够将该电子设备移动得到第二位置,假设上述驱动装置将该电子设备向后移动0.5m后到达第二位置,在该第二位置时,摄像头拍摄到第二图像。

不难理解的是,第一图像和第二图像除内容不同外,二者在形式上是对等的,因此,针对第二图像来说,计算第二图像中目标的第二高度占第二图像的高度的第二比例(用P2表示)的过程,类似于计算第一图像中目标的第一高度占第一图像的高度的第一比例P1,因此,该计算过程此时将不再赘述。

S105:根据所述摄像头的视场角、所述第一比例、所述预设距离和所述第二比例,计算所述目标的实际高度,完成初始化配置;

本领域技术人员能够理解的是,摄像头的视场角FOV是摄像头的硬件参数,不会随着摄像头所处位置的变化而改变。例如,上述采用的罗技(Logitech)HD720P免驱动高清摄像头的视场角FOV=60°,通过分别对上述电子设备位于第一位置和第二位置时,摄像头拍摄的第一图像和第二图像进行图像处理,能够得到对应的第一比例P1以及第二比例P2,那么,根据上述的视场角FOV、第一比例P1、第二比例P2和电子设备向前或向后移动的距离x,计算目标的实际高度。

在本发明实施例提供的一种具体实现方式中,计算所述目标的实际高度所利用的公式可以为:

上式中,所述h为所述目标的实际高度,所述P1为所述目标的第一高度占所述第一图像的高度的第一比例,所述P2为所述目标的第二高度占所述第二图像的高度的第二比例,所述Fov为所述摄像头的视场角,所述x为所述电子设备向前或向后移动的预设距离,其中,所述电子设备向前移动时x值为负,所述电子设备向后移动时x值为正。

下面对该公式的推导过程进行详细的说明,如图2所述,为本发明实施例提供的一种初始化配置的过程示意图,如图2所示,电子设备在第一位置时,与行人的距离为L,在第一位置时,摄像头拍摄的第一图像中的行人占第一图像的高度的第一比例P1=h/H1,假设电子设备在计算出P1之后触发驱动装置使其向后移动的距离x到达第二位置,由于电子设备是向后移动的,因此x的值为正,因此,电子设备在第二位置时与行人的距离为L+x,在第二位置时,摄像头拍摄的第二图像中的行人占第二图像的高度的第二比例P2=h/H2。由于摄像头是水平安装的,因此,基于摄像头视场角角平分线,摄像头拍摄的图像的上下部分距离相同,故存在以下关系式:

由上可推导出,进而可推导出又由于P1=h/H1,因此,能够推导出行人的实际高度

示例性的,假设P1=0.6、P2=0.5,摄像头的FOV=60°,电子设备在计算出P1之后触发驱动装置使其向后移动的距离x=0.5m,那么,通过上述计算h的公式不难得到,行人的实际高度

上述全部过程为电子设备的初始化配置过程,计算出行人的示例高度之后即完成了上述初始化配置的过程。

需要说明的是,上述过程中设置的电子设备向前或向后移动的距离x=0.5位一种具体的实现方式,本发明实施例不对该距离做明确限定。

S106:在完成初始化配置后,持续获得所述摄像头拍摄的第三图像;

可以理解的是,在上述完成对电子设备的初始化配置之后,摄像头开始实时的拍摄图像,可以理解为摄像头开始录像,当然,前述摄像头在拍摄得到第一图像和第二图像对应的摄像头的状态这里不做规定,可以是录像,也可以是单点拍摄,只要能够获得处于上述第一位置和第二位置对应的第一图像和第二图像即可。

通过摄像头录像过程,能够持续的获得摄像头拍摄的当前图像,称当前图像为第三图像。

S107:在获得每一张第三图像后,计算该第三图像中所述目标的第三高度占该第三图像的高度的第三比例;

由于摄像头拍摄的第三图像在形式上是对等的,因此,针对每一第三图像,可以计算出该第三图像中行人的高度占该第三图像的高度的第三比例(用P3表示)。

通过对第三图像进行目标检测,能够检测出第三图像中的行人,那么该行人在第一图像中的第一高度也可以被计算出来。

目前对图像进行目标检测的方式有多种,例如,利用方向梯度直方图(Histogram of Oriented Gradient,简称HOG)对上述第一图像中的行人的特征进行提取,HOG特征是一种在计算机视觉和图像处理中用来进行目标检测的特征描述,它通过计算和统计图像局部区域的梯度方向直方图来构成特征。同时,HOG特征可以结合支持向量机(Support Vector Machine,简称SVM)分类器,能够方便准确的对第一图像中的行人进行检测。此外,较为准确智能的目标检测的方法是,利用深度学习的方式来对图像进行分析。例如,可以利用基于区域的卷积神经网络目标检测算法Faster-RCNN,对上述的第一图像进行目标检测。

为了清楚地对本发明实施例的整体方案进行说明,该部分内容将在后面的具体实施例中进行详细介绍。

S108:根据所述摄像头的视场角、所述目标的实际高度以及所述第三比例,计算拍摄所述第三图像时所述电子设备所处位置到所述目标的当前距离;

由上述可知的是,第三比例P3=h/H3,h通过前述的公式能够计算得到,而P3能够通过第三图像中行人的高度与第三图像的高度得到,假设此时得到的第三比例P3=0.45,上述计算得到的行人的实际高度h=1.731m,那么可以计算出此时对应的H3=1.731/0.45=3.85m,而此时根据摄像头的视场角Fov以及该H3便能计算出当前电子设备所处位置到行人的距离Lx,tan(Fov/2)=H3/2*Lx。因此,根据上述的摄像头的视场角Fov、行人的实际高度以及第三比例能够计算出拍摄该第三图像时,电子设备所处位置到行人的距离Lx。

在本发明实施例提供的一种具体实现方式中,计算拍摄所述第三图像时所述电子设备所处位置到所述目标的距离所利用的公式可以为:

其中,所述Lx为拍摄所述第三图像时对应位置到所述目标的当前距离,所述h为所述目标的实际高度,所述P3为所述第三图像中所述目标的总高度占所述第三图像高度的第三比例,所述Fov为所述摄像头的视场角。

示例性的,上述计算出行人的实际高度h=1.731m,第三比例P3=0.45,摄像头的视场角Fov=60°,那么代入上述公式,能够计算出拍摄该第三图像时对应位置到行人的当前距离Lx=1.731/2*0.45*0.577=3.33m。

S109:计算所述当前距离与预设的目标跟踪距离之间的差值;

为了使电子设能够稳定的跟踪目标(行人),即电子设备与行人之间需要保持一个稳定的距离,该距离称之为目标跟踪距离,通常根据用户的习惯不同,这一数值可能有所不同,比如有的用户希望电子设备能够距离自己近点,而有些用户则希望该电子设备能够里自己远一点,因此,这一跟踪距离时一个经验值,并且具有很强的主观性,例如,用户预设的目标跟踪距离为3m,也就是说电子设备在跟踪过程中需要始终与用户(也就是行人)保持3m的距离,如果存在一定的偏差需要及时的进行调整,进而能够达到动态的稳定的跟踪。

综上可见,在本发明实施例提供的方案中,可计算上述的Lx与预设的目标跟踪距离之间的差值,然后根据该差值来对触发上述的驱动装置来改变电子设备的运动轨迹。

示例性的,若上述计算出的当前距离Lx=0.33m,而用户预设的目标跟踪距离为3m,那么此时可计算出差值为+0.33m,这里值得强调的是,“+”表示当前距离大于预设的目标跟踪距离,“-”则表示当前距离Lx小于预设的目标跟踪距离。

S110:触发所述驱动装置,以使得所述驱动装置根据所述差值移动所述电子设备,以跟踪所述目标。

通过上述步骤能够计算出当前位置Lx与预设目标距离之间的差值,根据该差值触发上述的驱动装置,使电子设备向前或向后移动相应的距离,例如,在上述计算出的差值为+0.33的情况下,也就是说此时的电子设备在预设的目标跟踪距离之外0.33m,因此,需要触发驱动装置将电子设备向前移动0.33m才能达到预设的目标跟踪距离。

综上可见,图1实施例提供的方案中,通过装载与电子设备上的摄像头能够在第一位置拍摄到第一图像,并对第一图像进行目标检测,得到第一图像中目标的高度占该第一图像的高度的第一比例,同时触发电子设备的驱动装置,使电子设备向前或向后移动预设距离后到达第二位置,在第二位置时,摄像头拍摄获得第二图像,同样对第二图像进行目标检测,得到第二图像中目标的高度占该第二图像的高度的第二比例,并根据摄像头的视场角、第一比例以及第二比例,计算该目标的实际高度,完成初始化配置;之后能够持续的获取第三图像,针对任意的第三图像进行目标检测,能够得到第三图像中目标的高度占第三图像的高度的第三比例,根据该第三比例以及摄像头的视场角以及上述计算出的目标的实际高度,能够计算出拍摄第三图像时该电子设备对应位置到目标的当前距离。

可见,应用图1提供实施例,通过装载的摄像头能够真实地获得目标所处场景的图像,并对获得的图像进行目标检测,能够准确的计算出目标的高度占该图像的高度的比例,根据该比例以及目标的实际高度,计算拍摄该图像时该电子设备对应位置到目标的当前距离,并将当前距离与预设的目标跟踪距离作差得到差值,根据差值移动电子设备,达到实时跟踪目标的目的,减少了对目标进行跟踪的误差,提高了跟踪的准确度。

针对上述的步骤S107,在本发明实施例提供的一种具体实现方式中,所述计算该第三图像中所述目标的第三高度占该第三图像的高度的第三比例,可以包括:

步骤a:利用基于区域的卷积神经网络目标检测算法Faster-RCNN,对该第三图像进行目标检测,得到所述目标;

由上可知的是,Faster-RCNN由两部分组成,分别是全卷积神经网络(Region Proposal Network,简称RPN)和快速卷积神经网络目标检测算法Fast-RCNN。

RPN的输入可以是任意大小的图片,RPN对输入的图像进行特征提取,特征提取可以采用VGG Net进行卷积、池化操作,得到关于输入图像的特征图谱,再按照预设大小的卷积核将特征图谱分割成多个矩形窗口,把每个矩形窗口的中心点当成一个基准点,围绕这个基准点选取9个不同尺寸的预选框,对于每一个预选框,均在后面连,接一个二分类器softmax然后再接上一个边界框(bounding box)的回归器,回归器的输出为4个坐标点,这4个坐标点能够确定对应的预选框的区域,这9个不同尺寸的预选框构成一个目标可能存在的预选区域集。

Fast-RCNN将上述RPN输入的图像,以及通过RPN得到的目标可能存在的预选区域集作为输入,首先对该图像进行处理得到一个卷积特征图,然后为预选区域集中每个区域的ROI(Region Of Interest)池化层从卷积特征图中提取一个固定长度的特征向量,每个特征向量被送入全连接层,最终得到两个输出,一个用于确定图像中目标的类别,另一个用于确定目标所处区域。

步骤b:计算所述目标的第三高度;

进一步的,所述计算所述目标的第三高度的步骤,可以包括:

用矩形框对所述目标进行标记,将所述矩形框的高度确定为所述目标的第三高度。

在上述确定出目标所处区域之后,可以用矩形框对目标所处的区域进行标记,最常见的标记方法是将目标所在的像素点中横坐标的最小值以及纵坐标的最大值,分别作为矩形框左上顶点的横坐标以及纵坐标,将目标所在的像素点中横坐标的最大值以及纵坐标的最小值,分别作为矩形框右下顶点的横坐标以及纵坐标,确定出矩形框的左上顶点和右下顶点便能够确定该矩形框大小。该矩形框的高度即为行人的高度,称该高度为第三高度,本发明实施例中“第一高度”、“第二高度”以及“第三高度”中的“第一”、“第二”以及“第三”仅为区分不同图像中的目标对应的高度,“第一高度”、“第二高度”以及“第三高度”之间并没有实际的先后顺序之分。

步骤c:计算所述第三高度占该第三图像的高度的第三比例。

上述计算出第三高度之后,第三高度占第三图像的高度的第三比例P3,由于第三比例P3等于行人的实际高度h与摄像头拍摄第三图像时对应的视场高度H3的比值,即P3=h/H3。

基于上述提供的实施例,本发明实施例提供的一种具体实现方式中,在步骤c之前,该方法还可以包括:

步骤A:利用解析网络ParseNet在该第三图像中对所述矩形框进行全局特征提取,得到所述矩形框在该第三图像中所处的位置;

由于摄像头拍摄到的图像中各特征之间的位置关系与实际场景中的位置关系一致,由经验可知,采用摄像头在拍摄目标时,当摄像头的中心正对目标时,目标在摄像头的镜头中通常是处于中间位置的,如果图像中的目标处于图像中的左侧或右侧的话,那也就意味着此时的摄像头并不是正对目标的,即与目标存在这一定的夹角,如果此时直接对目标进行跟踪的话,极有可能在驱动设备驱动电子设备向前移动一段距离后,目标将超出摄像头的拍摄范围,导致目标被跟丢。

考虑到上述因素,为了进一步的防止电子设备向前移动一段距离之后,目标超出摄像头的拍摄范围,在本发明实施例提供的技术方案中,在上述计算第三高度占该第三图像的高度的第三比例的步骤之前,利用解析网络ParseNet在该第三图像中对所述矩形框进行全局特征提取,得到所述矩形框在该第三图像中所处的位置。

利用解析网络ParseNet对Faster-RCNN输出的特征图谱进行提取全局特征,具体方法是使用max pooling操作提取新的特征,即全局特征(Global feature),这个全局特征和Faster-RCNN卷积层的特征一同进行归一化操作并级联起来,拼接成一个新的包含全局信息和局部细节的联合特征(Combined feature),这个新的特征送入Faster-RCNN后面的ROI池化层作进一步检测。通过利用ParseNet对前述的特征图谱进行全局特征提取,能够确定出目标在整个图像中所处的位置,即用于标记目标的矩形框在整个图像中所处的位置。

步骤B:判断所述矩形框在该第三图像中所处的位置是否处于预设目标跟踪区域内;

步骤C:在步骤B判断结果为是的情况下,执行步骤c。

由经验可知,采用摄像头在拍摄目标时,当摄像头的中心正对目标时,目标在摄像头的镜头中通常是处于中间位置的,也就是上述的矩形框处于整个图像的中间位置。为了使目标尽可能处于摄像头的正前方,防止电子设备在跟踪过程中跑偏,可以预先设置目标跟踪区域,即预设目标跟踪区域,然后判断上述矩形框在该第三图像中所处的位置是否处于预设目标跟踪区域内;如果判断是处于预设目标跟踪区域内,那么认为此时的行人处于摄像头的正前方,继续执行所述计算所述第三高度占该第三图像的高度的第三比例的步骤,进而触发上述的驱动装置,向前或向后移动电子设备,达到稳定的跟踪。

示例性的,可以以第三图像的中轴线为中心线,而用于标记目标的矩形框也有一个中轴线,该中轴线到中心线的距离称为偏心距,当该偏心距不超过第三图像的宽度的10%时,认为该行人处于摄像头的正前方;当然,该处仅为本发明实施例提供的一种具体实现方式,并且对于该具体实现方式中的10%为经验值,可根据实际的跟踪精度以及响应要求调整该值的大小,本发明实施例并不对其做明确限定。

综上可见,应用本发明实施例提供的方案,利用解析网络ParseNet在该第三图像中对矩形框进行全局特征提取,得到矩形框在该第三图像中所处的位置,并通过判断该位置是否处于预设目标跟踪区域之内,如果是,执行计算所述第三高度占该第三图像的高度的第三比例的步骤,能够有效的防止目标跟丢的现象,有效的提高了目标跟踪的准确性。

在本发明实施例提供的另一具体实现方式中,在上述步骤B判断结果为否的情况下,该方法还包括:

步骤D:触发所述驱动装置,驱动所述电子设备原地转动,以使得所述矩形框处于所述预设目标跟踪区域内。

由上可知的是,当矩形框在该第三图像中所处的位置不处于预设目标跟踪区域内时,说明此时摄像头并不是正对着目标,也就是说摄像头与目标之间存在这夹角,考虑到该现象,为了进一步的提高目标跟踪的准确度,防止目标被跟丢的现象,在上述步骤B判断结果为否的情况下,即矩形框在该第三图像中所处的位置不处于预设目标跟踪区域内的情况下,可以触发驱动装置,使该电子设备在原地旋转,在旋转过程中,摄像头会持续的拍摄当前的图像,当矩形框处于预设目标跟踪区域时,驱动装置停止转动。

可见,应用本发明实施例提供的方案,能够将摄像头时刻的调整到正对目标的位置,同时能够有效的解决目标跟丢的现象,在目标跟丢的情况下,触发驱动装置,驱动电子设备原地转动,360°搜索目标,大大提高了目标跟踪的稳定性。

图3为本发明实施例提供的一种目标跟踪装置的结构示意图,该装置应用于装载摄像头的电子设备,所述电子设备具有驱动装置,所述驱动装置能够驱动所述电子设备运动;该装置包括:第一获得模块201、第一计算模块202、第一触发模块203、第二获得模块204、第二计算模块205、第三获得模块206、第三计算模块207、第四计算模块208、第五计算模块209和跟踪模块210,具体的:

第一获得模块201,用于获得所述摄像头拍摄的第一图像,所述第一图像为在所述电子设备位于第一位置时所述摄像头所拍摄的图像,所述第一位置为所述摄像头能够拍摄到目标的初始位置;

第一计算模块202,用于计算所述第一图像中所述目标的第一高度占所述第一图像的高度的第一比例;

第一触发模块203,用于触发所述驱动装置,以驱动所述电子设备向前或向后移动预设距离后,到达第二位置,所述向前为靠近所述目标,所述向后为远离所述目标;

第二获得模块204,用于获得所述摄像头拍摄的第二图像,并计算所述第二图像中所述目标的第二高度占所述第二图像的高度的第二比例,所述第二图像为所述电子设备位于所述第二位置时所述摄像头所拍摄的图像;

第二计算模块205,用于根据所述摄像头的视场角、所述第一比例、所述预设距离和所述第二比例,计算所述目标的实际高度,完成初始化配置;

进一步的,所述第二计算模块205,具体用于:

根据所述摄像头的视场角、所述第一比例、所述预设距离和所述第二比例,完成初始化配置可以按照如下公式计算所述目标的实际高度,完成初始化配置:

上式中,所述h为所述目标的实际高度,所述P1为所述目标的第一高度占所述第一图像的高度的第一比例,所述P2为所述目标的第二高度占所述第二图像的高度的第二比例,所述Fov为所述摄像头的视场角,所述x为所述电子设备向前或向后移动的预设距离,其中,所述电子设备向前移动时x值为负,所述电子设备向后移动时x值为正。

第三获得模块206,用于在完成初始化配置后,持续获得所述摄像头拍摄的第三图像;

第三计算模块207,用于在所述第三获得模块获得每一张第三图像后,计算该第三图像中所述目标的第三高度占该第三图像的高度的第三比例;

第四计算模块208,用于根据所述摄像头的视场角、所述目标的实际高度以及所述第三比例,计算拍摄所述第三图像时所述电子设备所处位置到所述目标的当前距离;

进一步的,所述第四计算模块208,具体用于:

根据所述摄像头的视场角、所述目标的实际高度以及所述第三比例,按照如下公式计算拍摄所述第三图像时所述电子设备所处位置到所述目标的当前距离:

其中,所述Lx为拍摄所述第三图像时对应位置到所述目标的当前距离,所述h为所述目标的实际高度,所述P3为所述第三图像中所述目标的总高度占所述第三图像高度的第三比例,所述Fov为所述摄像头的视场角。

第五计算模块209,用于计算所述当前距离与预设的目标跟踪距离之间的差值;

跟踪模块210,用于触发所述驱动装置,以使得所述驱动装置根据所述差值移动所述电子设备,以跟踪所述目标。

应用图3提供实施例,通过装载的摄像头能够真是的获得目标所处场景的图像,并对获得的图像进行目标检测,能够准确的计算出目标的高度占该图像的高度的比例,根据该比例以及目标的实际高度,计算拍摄该图像时该电子设备对应位置到目标的当前距离,并将当前距离与预设的目标跟踪距离作差得到差值,根据差值移动电子设备,达到实时跟踪目标的目的,减少了对目标进行跟踪的误差,提高了跟踪的准确度。

可选的,上述的第三计算模块207,可以包括:目标检测子模块、第一计算子模块和第二计算子模块,具体的:

目标检测子模块,用于利用基于区域的卷积神经网络目标检测算法Faster-RCNN,对该第三图像进行目标检测,得到所述目标;

第一计算子模块,用于计算所述目标的第三高度;

进一步的,所述第一计算子模块,具体用于:

用矩形框对所述目标进行标记,将所述矩形框的高度确定为所述目标的第三高度。

第二计算子模块,用于计算所述第三高度占该第三图像的高度的第三比例。

在本发明实施例提供的一种具体实现方式中,在图3提供实施例的基础上,装置还包括:特征提取模块、判断模块和第二触发模块,具体的:

特征提取模块,用于在执行所述第二计算子模块之前,利用解析网络ParseNet在该第三图像中对所述矩形框进行全局特征提取,得到所述矩形框在该第三图像中所处的位置;

判断模块,用于判断所述矩形框在该第三图像中所处的位置是否处于预设目标跟踪区域内;

第二触发模块,用于在所述判断模块判定结果为是的情况下,触发所述第二计算子模块。

应用本发明实施例提供的方案,利用解析网络ParseNet在该第三图像中对矩形框进行全局特征提取,得到矩形框在该第三图像中所处的位置,并通过判断该位置是否处于预设目标跟踪区域之内,如果是,执行计算所述第三高度占该第三图像的高度的第三比例的步骤,能够有效的防止目标跟丢的现象,有效的提高了目标跟踪的准确性。

基于上述提供的具体实施例,本发明实施例提供了另一种具体实现方式,在上述的判断模块判定结果为否的情况下,该装置还包括:第三触发模块,具体的:

第三触发模块,用于在所述判断模块判定结果为否的情况下,触发所述驱动装置,驱动所述电子设备原地转动,以使得所述矩形框处于所述预设目标跟踪区域内。

应用本发明实施例提供的方案,能够将摄像头时刻的调整到正对目标的位置,同时能够有效的解决目标跟丢的现象,在目标跟丢的情况下,触发驱动装置,驱动电子设备原地转动,360°搜索目标,大大提高了目标跟踪的稳定性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1