基于特征融合的自适应场面监视视频目标检测方法和系统与流程

文档序号:36414127发布日期:2023-12-19 10:47阅读:58来源:国知局
基于特征融合的自适应场面监视视频目标检测方法和系统与流程

本发明属于计算机视觉中视频目标检测,更具体地,涉及一种机场环境下,基于特征融合的自适应场面监视视频目标检测方法和系统,对机场航空器及车辆目标进行识别与检测。


背景技术:

1、目标检测是计算机视觉领域的一项非常重要的研究课题。目标检测模型不仅可以应用于各种安防监控系统、自动驾驶系统、无人机等领域,而且还有着广泛的商业用途,例如人脸识别、车牌识别、医学影像分析等。随着深度学习技术的不断发展,越来越多的优秀的目标检测算法被提出,这使得目标检测有着更强的准确性、更快的速度和更高效的处理大量数据的能力。

2、深度学习是一种人工智能的技术,它通过模拟人脑神经网络的结构和功能来实现机器学习。在图像目标检测方面,深度学习有着很多的优势,例如准确性高、速度快、能够处理大量数据等。因此,深度学习在图像目标检测方面得到了广泛的应用。但是在视频目标检测方面,面临着更为复杂的困难和挑战。首先,视频数据量巨大,处理起来非常耗时,这需要算法具备更高的速度和效率。其次,视频中的目标可能会发生运动、遮挡、形变等变化,这些都会给目标检测带来困难。此外,视频目标检测需要实时性,这对算法的速度和效率提出了更高的要求。

3、在深度学习出现之前,传统的目标检测方法一般可以分为区域选择(滑窗)、特征提取(sift、hog等)和分类器(svm、adaboost等)三个部分。例如,viola-jones检测器采用滑动窗口的方式以检查目标是否存在窗口之中。其主要问题有两方面:一方面滑窗选择策略没有针对性、时间复杂度高,窗口冗余;另一方面手工设计的特征鲁棒性较差。而在深度学习时代,目标检测可以分为两类:“双级检测(two-stage detection)”和“单级检测(one-stage detection)”。前者将检测框定为一个“从粗到细”的过程,而后者则是“一步到位”。例如,rcnn是一个典型的基于深度学习的二阶段目标检测算法。它首先通过选择性搜索算法从一组对象候选框中选择可能出现的对象框,然后将这些选择出来的对象框中的图像resize到某一固定尺寸的图像,并喂入到cnn模型提取特征,最后将提取出的特征送入到分类器来预测该对象框中的图像是否存在待检测目标,并进一步预测该检测目标具体属于哪一类。

4、然而,这些视频目标检测方法往往对所有帧采取相同的处理方式,或者对选取固定帧作为关键帧进行目标检测,从而导致检测识别速度极慢。同时,这些方法往往忽视了视频中不同帧之间的时序信息,这对于提升检测精确度和速度而言是至关重要的。因此,如何准确地捕捉视频中不同上下文之间的时序信息,采取不同的处理策略,是值得深入研究的,它可以为提高视频目标检测的精确度和速度做出重要的贡献。


技术实现思路

1、本发明的目的是于针对上述现有技术存在的问题,提供一种面向机场环境下,基于特征融合的自适应场面监视视频目标检测方法和系统,在充分融合时序上下文的特征实现检测精度的同时,达到检测速度的均衡。

2、实现本发明目的的技术解决方案为:基于特征融合的自适应场面监视视频目标检测方法和系统,所述方法包括以下步骤:

3、步骤1:确定包括待检测目标的视频流,所述视频流包括多帧图像序列,图像中包括待检测目标;

4、步骤2:采用resnet网络作为特征提取网络nfeat,采用rfcn网络作为分类定位网络ntask,设计一个卷积神经网络作为权重网络nw,设计一个基于卷积神经网络的光流网络flownet;

5、步骤3:若当前帧为视频流第一帧,则将当前帧选为关键帧,利用所述特征提取网络nfeat提取当前帧图像的特征,然后将其特征图直接输入所述分类定位网络ntask,进行分类和定位,得到目标检测结果;

6、步骤4:若当前帧不是视频流第一帧,则根据时序自适应关键帧动态调度策略,计算当前帧和前一个关键帧的光流运动场及特征时序一致性判别矩阵qk2i,判断当前帧是关键帧或非关键帧;

7、步骤5:若当前帧是关键帧,则利用所述特征提取网络nfeat提取当前帧图像的特征,并计算当前帧与前一个关键帧的特征图经过权重网络nw聚合后的融合特征图,然后进行分类和定位,得到目标检测结果;

8、步骤6:若当前帧是非关键帧,则采用空间自适应局部特征更新方法,根据所述步骤4得到的一致性判别矩阵qk2i和前一个关键帧的特征图计算当前帧的特征图,然后进行分类和定位,得到目标检测结果。

9、进一步地,步骤1:确定包括待检测目标的视频流,所述视频流包括多帧图像序列,图像中包括待检测目标;

10、进一步地,步骤2所述采用resnet网络作为特征提取网络nfeat,采用rfcn作为分类定位网络ntask,设计一个卷积神经网络作为权重网络nw,设计一个基于卷积神经网络的光流网络flownet,具体包括:

11、步骤2-1:构造基于resnet的特征提取网络nfeat用于计算图像的特征图。这里使用经更改后的resnet-101模型。

12、其中resnet101将最后的分类层丢弃,将conv5的第一个块的步幅修改为1,在conv5中的所有3x3卷积核上应用holing算法,这样可以保证模型的感受野不变。因此nfeat的整体步长是16,即nfeat的输出是原图的1/16。

13、在conv5的最后,还需要添加一个3x3卷积层,将特征通道维度减少到1024。更改后的resnet-101模型需要先根据数据集进行预训练。将当前关键帧的图像输入nfeat网络,输出得到关键帧的特征图。

14、步骤2-2:构造基于rfcn的分类定位网络ntask用于计算当前帧的分类和定位。首先需要提取当前帧图像的特征图,然后将其输入到ntask网络中进行处理。

15、在ntask网络中,首先对输入的特征图进行一系列卷积和池化操作,以提取其中的特征。接着,借助一些类似于全连接层的结构,将提取出来的特征进行降维、调整,最终输出当前帧所对应的目标分类和位置信息。这个位置信息包括了目标框的左上角坐标以及框的宽度和高度等参数。

16、步骤2-3:采用自适应权重的特征融合方式。构造基于卷积神经网络的权重网络,网络包括3层卷积层和3层激活层。将当前帧特征图和前一个关键帧特征图一起输入网络,在最后一层池化层结束后,经由余弦相似度函数处理,获得重要性权重。根据权重,对两张特征图进行加权求和得到新的关键帧的特征图;

17、步骤2-4:构造基于flownetcorr的光流网络flownet用于计算光流运动场,将flownetcorr网络中的卷积核数量减少一半,提高运行速度。将当前帧和前一个关键帧一起输入flownet,输出得到当前帧的光流运动场。光流运动场是计算机视觉中的一个重要概念,用于描述图像序列中物体的运动。它表示了一张图像中每个像素点的运动向量,即每个像素点在图像序列中的移动方向和速度。光流运动场的计算基于一个假设:在相邻的图像帧之间,同一物体上的像素点具有相同的运动。因此,通过比较相邻图像帧中的像素值,可以计算出每个像素点的运动向量,从而得出光流运动场。

18、进一步地,步骤3:若当前帧为视频流第一帧,则将当前帧选为关键帧,利用所述特征提取网络nfeat提取当前帧图像的特征,然后将其特征图直接输入所述分类定位网络ntask,进行分类和定位,得到目标检测结果;

19、进一步地,步骤4所述若当前帧不是视频流第一帧,则根据时序自适应关键帧动态调度策略,计算当前帧和前一个关键帧的光流运动场及特征时序一致性判别矩阵qk2,判断当前帧是关键帧或非关键帧,具体包括:

20、步骤4-1:将当前帧和前一个关键帧一起输入步骤2-4所述光流网络flownet,输出得到当前帧和前一个关键帧之间的光流运动场;

21、步骤4-2:根据步骤4-1得到的光流运动场,计算特征时序一致性判别矩阵qk2i,具体计算方式为:设置一个阈值,若光流运动场上每个像素点的位置偏移量超过此阈值,则矩阵qk2i对应元素设置为1,否则设置为0;若偏移量超过阈值,我们认为该像素点的物体的运动幅度较大。

22、步骤4-3:根据特征时序一致性判别矩阵qk2i判断当前帧是关键帧或非关键帧;具体为:设定一个阈值,若qk2i中元素值为1的比例超过阈值,则把当前帧选为关键帧,否则选为非关键帧。这是因为1的比例超过阈值时,图像中较多像素的偏移量也超过了阈值;我们则认为在当前图像中,物体的运动幅度较大,所以需要选为关键帧。

23、进一步地,步骤5所述若当前帧是关键帧,则利用所述特征提取网络nfeat提取当前帧图像的特征,并计算当前帧与前一个关键帧的特征图经过权重网络nw聚合后的融合特征图,然后进行分类和定位,得到目标检测结果;具体包括:

24、步骤5-1:将当前帧输入步骤2-1所述特征提取网络nfeat,得到特征图;

25、步骤5-2:将当前帧和前一个关键帧的特征图一起输入步骤2-3所述权重网络nw,得到两帧的特征图聚合后的一张融合特征图,融合后的特征图代表当前帧的特征图。不同的相邻关键帧之间以这种方式不断迭代进行,达到将重要的信息在整个视频中传递的目的。

26、步骤5-3:将融合后的特征图输入步骤2-2所述分类定位网络ntask,进行分类和定位,得到目标检测结果。

27、进一步地,步骤6所述若当前帧是非关键帧,则采用空间自适应局部特征更新方法,根据所述步骤4得到的一致性判别矩阵qk2i和前一个关键帧的特征图计算当前帧的特征图,然后进行分类和定位,得到目标检测结果;具体包括:

28、步骤6-1:根据所述步骤4-2得到的特征时序一致性判别矩阵qk2i,将矩阵qk2i元素值为0的区域所对应的当前帧像素点划分为a区域,将矩阵qk2i元素值为1的区域所对应的当前帧像素点划分为b区域,a区域和b区域共同构成了当前帧;

29、步骤6-2:对当前帧的a区域,结合所述步骤4-1得到的光流运动场和前一个关键帧的特征图,进行计算当前帧a区域的特征图;因为我们认为a区域的像素偏移量较小,为了达到检测速度的目的,所以用前一个关键帧的特征图和之间的光流运动场进行预测当前帧a区域的特征图。

30、步骤6-3:对当前帧的b区域,利用特征提取网络对局部区域b做卷积提取特征。因为我们认为b区域的像素偏移量较大,如果继续沿用步骤6-2的方式,则会对检测精度产生不利的影响。居于此考虑,我们对b区域采用卷积提取特征的方式。

31、步骤6-4:将当前帧a区域和b区域的特征重组,得到当前帧的特征图,然后输入分类定位网络ntask,进行分类和定位,得到检测结果。当前帧融合的特征图在降低了计算速度的同时,保证了特征提取的精确度。相比于单纯的全域卷积提取特征或根据光流运动场预测计算,这种方式都有综合性能的提升。

32、本发明还揭示了一种基于特征融合的自适应场面监视视频目标检测系统,其特征在于,系统包括:

33、特征图获取模块,采用基于resnet的特征提取网络nfeat作为主干网络,用于提取视频中关键帧的特征图;

34、分类和定位获取模块,采用基于rfcn的分类和定位网络ntask,用于根据视频中每一帧图像的特征图计算图像内容的分类和定位;

35、特征融合模块,构造基于卷积神经网络的权重网络。将当前帧特征图和前一个关键帧特征图一起输入网络,在最后一层池化层处理结束后,经由余弦相似度函数处理,最后得重要性权重。根据权重,对两张特征图进行加权融合得到新的关键帧的特征图;

36、光流运动场计算模块,构造基于卷积神经网络的光流网络flownet用于计算光流运动场。将当前帧和前一个关键帧一起输入flownet,输出得到当前帧的光流运动场;

37、关键帧选择模块,采用自适应决策方式,计算当前帧的时序特征时序一致性判别矩阵qk2i,然后根据矩阵自适应判断是否选取当前帧为关键帧。

38、特征图计算模块,用于计算当前帧的特征图,对于关键帧采用所述步骤4的方式计算特征图;对于非关键帧去,采用所述步骤5的方式计算特征图。

39、根据本发明的基于特征融合的自适应场面监视视频目标检测系统的一实施例,特征图获取模块,采用基于resnet的特征提取网络nfeat作为主干网络,用于提取视频中关键帧的特征图,其中resnet101将最后的分类层丢弃,将conv5的第一个块的步幅修改为1,在conv5中的所有3x3卷积核上应用holing算法,这样可以保证模型的感受野不变。因此nfeat的整体步长是16,即nfeat的输出是原图的1/16。在conv5的最后,还需要添加一个3x3卷积层,将特征通道维度减少到1024。更改后的resnet-101模型需要先根据数据集进行预训练。将当前关键帧的图像输入nfeat网络,输出得到关键帧的特征图。

40、根据本发明的基于特征融合的自适应场面监视视频目标检测系统的一实施例,特征融合模块,采用自适应权重的特征融合方式。构造基于卷积神经网络的权重网络,网络包括3层卷积层和3层激活层。将当前帧特征图和前一个关键帧特征图一起输入网络,在最后一层池化层结束后,经由余弦相似度函数处理,获得重要性权重。根据权重,对两张特征图进行加权求和得到新的关键帧的特征图;

41、根据本发明的基于特征融合的自适应场面监视视频目标检测系统的一实施例,关键帧选择模块,进一步配置为执行以下处理:

42、将当前帧和前一个关键帧一起输入步骤2-4所述光流网络flownet,输出得到当前帧和前一个关键帧之间的光流运动场;

43、根据步骤4-1得到的光流运动场,计算特征时序一致性判别矩阵qk2i,计算方式为:设置一个阈值,若光流运动场上每个像素点的位置偏移量超过此阈值,则矩阵qk2i对应元素设置为1,否则设置为0;

44、根据特征时序一致性判别矩阵qk2i判断当前帧是关键帧或非关键帧。

45、根据本发明的基于特征融合的自适应场面监视视频目标检测系统的一实施例,特征图计算模块,进一步配置为执行以下处理:

46、若当前帧为关键帧,将当前帧和前一个关键帧分别输入步骤2-1所述特征提取网络nfeat,得到两帧对应的特征图;

47、将两帧的特征图一起输入权重网络nw,得到两帧的特征图聚合后的一张融合特征图;

48、将融合后的特征图输入分类定位网络ntask,进行分类和定位,得到目标检测结果。

49、若当前帧为非关键帧,根据判别矩阵qk2i,将矩阵qk2i元素值为0的区域所对应的当前帧像素点划分为a区域,将矩阵qk2i元素值为1的区域所对应的当前帧像素点划分为b区域,a区域和b区域共同构成了当前帧;

50、对当前帧的a区域,结合所述步骤4-1得到的光流运动场和前一个关键帧的特征图,进行计算当前帧a区域的特征图;

51、对当前帧的b区域,利用特征提取网络对局部区域b做卷积提取特征。

52、将当前帧a区域和b区域的特征重组,得到当前帧的特征图,然后输入分类定位网络ntask,进行分类和定位,得到检测结果。

53、本发明对比现有技术有如下的有益效果:第一,本发明的基于特征融合的自适应场面监视视频目标检测方法在特征融合的过程中,将前一个关键帧的特征与当前帧的特征计算了自适应权重,然后进行融合,使得对当前帧进行目标检测时,结合了前面所有关键帧的语义信息。第二,本发明的基于特征融合的自适应场面监视视频目标检测方法在关键帧选择的过程中,采用了时序自适应关键帧动态调度策略,在每一帧的轮询过程中,动态计算决策当前帧是否选为关键帧,具有随时序变化的自适应性。第三,本发明的基于特征融合的自适应场面监视视频目标检测方法在非关键帧特征图计算过程中,考虑到非关键帧相对于关键帧会有局部较大变化,沿用光流传播的特征计算很容易发生错误,因此采用了一种空间自适应局部特征更新方法,避免了这个问题。

54、所述三点使得此方法在视频目标检测中区别于其他方法,在检测精度和速度方面达到了优异的均衡,并在复杂环境中获得了稳定的检测结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1