本发明涉及一种快速多目标行人追踪和分析方法及其智能装置。
背景技术:
目前,现如今的深度学习追踪算法中,存在网络冗余多,追踪速度慢,模型大,难以实用,无法实时追踪,更无法进行多目标追踪等问题。每次都要通过模型算法重新计算并提取特征,进而会形成造成反复运算,使反应速度大大受限。所以急需一种基于相关滤波的视频对象追踪方法及其智能装置,来解决实现在对于多目标行人准确且快速追踪和分析的问题。
技术实现要素:
本发明要解决的技术问题是解决了传统追踪算法网络冗余多,追踪速度慢,模型大,难以实用,无法实时追踪,更无法进行多目标追踪的技术问题。
解决上述技术问题,本发明提供了一种基于相关滤波的视频对象追踪方法,它包括:
将视频帧序列缩放到同一尺度;
在第一帧中,对物体框区域进行截图得到目标数据图片;
将目标数据图片通过卷积神经网络提取目标数据图片的特征;
根据所述目标数据图片的特征通过滤波器计算出目标数据滤波参数,根据所述目标数据滤波参数得到预测框;
在下一帧中,通过所述预测框对图片进行截图得到搜索区域图片;
将搜索区域图片通过卷积神经网络提取搜索区域图片的特征;
根据所述搜索区域图片的特征通过滤波器计算出搜索区域滤波参数;
根据所述搜索区域滤波参数获取响应最大区域作为最终位置框。
更进一步,根据所述搜索区域图片的特征得到
根据公式
根据公式
更进一步,所述卷积神经网络为三层无补零的共享参数孪生卷积神经网络。
更进一步,所述物体框区域进行截图前将该帧图片放大2.5倍,所述预测框对图片进行截图前将该帧图片放大2.5倍。
本申请还提供了一种智能装置,它包括:
缩放单元,用于将视频帧序列缩放到同一尺度;
截图单元,用于在第一帧中,对物体框区域进行截图得到目标数据图片;
提取单元,用于将目标数据图片通过卷积神经网络提取目标数据图片的特征;
计算单元,用于根据所述目标数据图片的特征通过滤波器计算出目标数据滤波参数,根据所述目标数据滤波参数得到预测框;
所述截图单元,还用于在下一帧中,通过所述预测框对图片进行截图得到搜索区域图片;
所述提取单元,还用于将搜索区域图片通过卷积神经网络提取搜索区域图片的特征;
所述计算单元,还用于根据所述搜索区域图片的特征通过滤波器计算出搜索区域滤波参数;
获取单元,用于根据所述搜索区域滤波参数获取相应最大区域作为最终位置框。
更进一步,所述提取单元,还用于所述搜索区域图片的特征得到
所述计算单元.还用于根据公式
所述获取单元,还用于根据公式
更进一步,所述提取单元,用于提取特征的所述卷积神经网络为三层无补零的共享参数孪生卷积神经网络。
更进一步,所述缩放单元,还用于所述物体框区域进行截图前将第一帧图片放大2.5倍,所述预测框对图片进行截图前将第二帧图片放大2.5倍。
本发明的有益效果:
1.速度快:在i5cpu上达到对单目标100fps以上的追踪速度,而当前主流的视频帧率的25fps,故算法能够对视频中的目标物体进行实时追踪。
2.模型小:模型大小为76k,作为基于卷积神经网络的系统,轻量级的模型使得该系统能很容易地用在嵌入式设备中。
3.准确率高:在速度快,模型小的基础上,改追踪模型在追踪的标准数据集otb(objecttrackingbenchmark)和vot(visualobjecttracking)中均达到很高的准确率,完全能适用于现实中的行人追踪场景。
4.多目标追踪:目前主流的追踪模型难以对多目标进行追踪,本发明设计的追踪系统能够对多个目标实时进行追踪。
5.端到端的训练方式:该追踪系统的训练框架能够结合卷积神经网络和相关滤波,减少了手动调参的繁琐,而且能达到更优的性能。
附图说明
图1是本申请一实施例的对相关滤波的视频对象追踪方法的流程图;
图2是本申请另一实施例的对相关滤波的视频对象追踪智能装置的架构图;
图3是本申请训练过程整体流程示意图;
图4是本申请第一实施例具体应用的流程示意图;
图5是本申请第二实施例具体应用的流程示意图;
图6是本申请图像具体应用的使用状态第一示意图;
图7是本申请图像具体应用的使用状态第二示意图;
图8是本申请图像具体应用的使用状态第三示意图;
具体实施方式:
以下实施例仅是为清楚的发明本所作的举例,而并非对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在下述说明的基础上还可以做出其他不同形式的变化或变动,而这些属于本发明精神所引出的显而易见的变化或变动仍处于本发明的保护范围之中。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
现如今的深度学习追踪算法中,存在网络冗余多,追踪速度慢,模型大,难以实用,无法实时追踪,无法进行多目标追踪等问题。在本发明中,通过轻量级的网络结构,通过基于深度学习的相关滤波端到端训练方式,避免了传统滤波方法需要手动调参的缺点。通过设计一个3层的轻量级的孪生深度学习网络进行特征提取,在保证了速度的同时,显著减小了模型容量。利用相关滤波对特征进行多尺度分析,能准确输出目标的位置。
如图3所示,将过程分为数据处理,特征提取,相关滤波三个部分进行讨论:
1.数据处理
将视频帧序列缩放到同一尺度,对于训练图片,以物体框的位置为中心,对框放大2.5倍的区域进行截图,作为训练图片。在测试时,在第一帧根据物体框放大2.5倍的区域进行截图,将产生的截图通过卷积神经网络,计算出滤波器参数。从第二帧开始,利用上一帧的预测框位置放大2.5倍对该帧进行截图,同样将截图通过卷积神经网络,通过上一帧的滤波器参数计算出最终框的位置。在追踪过程中,每隔5帧进行滤波器参数更新,使得滤波器能不断地适应目标的形态光线以及周围背景的变化。
2.特征提取
在训练过程中,使用三层无补零的共享参数的孪生卷积神经网络分别对目标数据和搜索区域进行特征提取。这样,就能得到两个特征矩阵,再将特征矩阵进行相关滤波计算,训练标签是一个和输入数据相同大小的高斯状特征图,在目标区域的响应最大。在测试过程中,仅根据上一帧的预测框位置放大2.5倍进行截图,得到搜索区域,将搜索区域图片数据输入到三层卷积神经网络中,得到最终的特征矩阵,将特征卷积通过相关滤波器,得到该帧最终的预测框位置。
3.相关滤波
通过2中的特征提取,得到
其中,wl是通道l的滤波器参数。★代表循环相关操作,即对w和先做循环移位操作,在进行相关运算,参数λ≥0是正则化参数。该方程的解可以表示为:
这里,
在其另一个实施例中,根据图1所示,本发明提供了一种基于相关滤波的视频对象追踪方法,它包括:
s101,将视频帧序列缩放到同一尺度;
s102,在第一帧中,对物体框区域进行截图得到目标数据图片;
s103,将搜索区域通过卷积神经网络提取目标数据图片的特征;
s104,根据所述目标数据图片的特征通过滤波器计算出目标数据滤波参数,根据所述目标数据滤波参数得到预测框;
s105,在下一帧中,通过所述预测框对图片进行截图得到搜索区域图片;
s106,将搜索区域图片通过卷积神经网络提取搜索区域图片的特征;
s107,根据所述搜索区域图片的特征通过滤波器计算出搜索区域滤波参数;
s108,根据所述搜索区域滤波参数获取响应最大区域作为最终位置框。
首先,将视频每帧都缩放到同一尺度,以物体框的位置为中心进行截图,作为训练图片。对产生的训练图片截图(即上述的目标数据图片)通过卷积神经网络提取特征,根据提取的特征进行滤波器计算,计算出目标数据滤波参数,根据所述目标数据滤波参数的情况推测得到一个所述预测框,该预测框是一个假设上认为目标出现最大概率的区域,通过这个区域进一步在下一帧中进行截图。获取搜索区域图片,对搜索区域图片通过卷积神经网络进行提取特征,再次通过滤波器计算出搜索区域滤波参数,根据所述搜索区域滤波参数获取响应最大区域作为最终位置框。上述过程中,每隔5帧进行滤波器参数更新,使得滤波器能不断地适应目标的形态光线以及周围背景的变化。
在另一个可选实施例中,具体的将如何计算进行阐述,该方法还包括:
根据所述搜索区域图片的特征得到
根据公式
根据公式
其次,事实上两次提取和计算滤波参数的过程是一样的,不同在于第二提取特征时,还会获取响应的最大区域作为最终的框位置。
在另一个可选实施例中,如图3所示,该方法还包括:
再次,所述卷积神经网络为三层无补零的共享参数孪生卷积神经网络,该种三层结构为轻量级的卷积神经网络。孪生即为两个卷积神经网络,分别进行提取特征后通过滤波器进行计算获取滤波参数,进而得到框的具体区域。
在另一个可选实施例中,该方法还包括:
所述物体框区域进行截图前将该帧图片放大2.5倍,所述预测框对图片进行截图前将该帧图片放大2.5倍。对其进行放大再进行捕捉为之后的特征提取打下基础。在经过了上述训练过程后,训练出一个高效快速的cnn追踪模型(特征的架构)。通过上述的追踪模型在之后使用阶段,直接通过对处理图片进行特征提取架构,省略了之中的重新计算过程,大幅提高了工作效率。
上述模型对其之后的具体实施方式进行举例说明如下:
例1:如图4所示的追踪系统,首先,利用目标检测技术检测第一帧的目标位置,将多个待追踪目标加入到追踪队列中。输入下一帧图片,然后遍历追踪队列,对于每一个追踪目标调用追踪算法得到该目标在下一帧中的位置。得到该目标在下一帧的位置之后,通过阈值判断该目标是否离开屏幕。如果该目标离开了屏幕,则将该目标移出追踪目标队列。
每隔24帧,调用一次目标检测,将目标检测的结果跟追踪的结果计算iou,如果目标检测的某个结果和追踪的所有目标的iou<0.1,则认为新的目标加入了屏幕,将该目标加入追踪队列中。如果iou>0.5,利用目标检测的框替代追踪的框,进行位置校正。其中,iou(intersectionoverunion):交并比,两个集合的交集除以两个集合的并集。
判断目标是否离开屏幕的条件是(满足任一条件即可):
perdict_score<threshold
h/w>threshold1
w/h>threshold2
|x1|/w<threshold3
|w-x2|/w<threshold3
|y1|/h<threshold4
|h-y1|/h<threshold4
其中,h和w分别为物体的高和宽,h和w分别为帧的高和宽。(x1,y1)为目标左上角的点坐标,(x2,y2)为目标右下角的点坐标。
例2:如图5所示的质量评估系统。我们的追踪会对一个目标进行长时间的追踪,而视频帧与帧之间存在众多的冗余,因此,我们入库的只是一个目标在一段时间之内质量最高的,最有代表性的一张图。
如图6-8所示,是一段行人过马路的视频,三个图分别是第一帧,第20帧,和第40帧的效果图,我们先对第一帧进行行人检测,在接下来的帧里面对该行人目标进行追踪。在一段时间内,调用我们的质量评估算法进行评估,选出一个行人结果入库。这里由于所有帧该目标都是侧身角度,因此我们选取一个质量得分最高的小图片入库。
本申请还提供了一种智能装置,如图2所示,它包括:
缩放单元,用于将视频帧序列缩放到同一尺度;
截图单元,用于在第一帧中,对物体框区域进行截图得到目标数据图片;
提取单元,用于将目标数据图片通过卷积神经网络提取目标数据图片的特征;
计算单元,用于根据所述目标数据图片的特征通过滤波器计算出目标数据滤波参数,根据所述目标数据滤波参数得到预测框;
所述截图单元,还用于在下一帧中,通过所述预测框对图片进行截图得到搜索区域图片;
所述提取单元,还用于将搜索区域图片通过卷积神经网络提取搜索区域图片的特征;
所述计算单元,还用于根据所述搜索区域图片的特征通过滤波器计算出搜索区域滤波参数;
获取单元,用于根据所述搜索区域滤波参数获取响应最大区域作为最终位置框。
更进一步,所述提取单元,还用于所述搜索区域图片的特征得到
所述计算单元,还用于根据公式
所述获取单元,还用于根据公式
更进一步,所述提取单元,用于提取特征的所述卷积神经网络为三层无补零的共享参数孪生卷积神经网络。
更进一步,所述缩放单元,还用于所述物体框区域进行截图前将第一帧图片放大2.5倍,所述预测框对图片进行截图前将第二帧图片放大2.5倍。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。