基于时域roi特征融合的视频目标检测方法和系统
技术领域
1.本发明涉及视频目标检测技术领域,具体涉及一种基于时域roi特征融合的视频目标检测方法和系统。
背景技术:2.图像目标检测发展至今已十分成熟,而在视频领域的目标检测仍处于发展阶段。作为计算机视觉领域的一项基本任务,视频目标检测在生活中的应用越来越广泛,在无人驾驶技术、智能视频监控、机器人导航等众多场景中都得到了应用。与图像目标检测不同,视频目标检测往往存在运动模糊、散焦模糊、物体遮挡、光照变化、罕见姿态等诸多问题,给视频领域的目标检测带来了挑战。
3.传统的目标检测方法主要采用方向梯度直方图(hog)、尺度不变特征变换(sift)、帧差法(fd)和光流法对视频中的目标进行检测,但传统算法无法满足视频数据分析的精度要求。随着深度学习的发展,基于深度学习的视频目标检测已成为目前的主流方法,在过去几年中取得显著进展。基于深度学习的视频目标检测主要包含两类方法,第一类方法基于单帧图像实现,将视频中的每一帧看作独立图像,逐帧进行图像目标检测,然后对图像检测结果进行后处理。基于单帧图像的视频目标检测方法未能充分挖掘视频相对于图像而言增加的时序信息,导致检测结果不稳定,容易出现目标丢失、检测框大小跳变等问题,难以应用于运动模糊、物体遮挡等的复杂场景。第二类方法基于时域信息实现,通过将同一视频中其他帧的运动和时间上下文信息聚合到当前帧来融合视频序列中的有用特征,从其他帧的选择、特征融合层级的选择以及特征融合方式的选择等角度挖掘时域信息,缓解复杂情况下目标漏检错检的问题,提高视频对象检测算法的准确性。
4.如何充分利用视频序列中包含的时序信息已经成为了视频目标检测领域的重要研究方向之一,对序列中相似语义特征提取与融合方式的设计对视频目标检测精度至关重要,低效的设计往往导致复杂场景中检测结果的不稳定。
技术实现要素:5.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
6.本发明的目的在于解决上述问题,提供了一种基于时域roi特征融合的视频目标检测方法和系统,解决了视频目标检测中时序信息未充分挖掘的问题。
7.本发明的技术方案为:本发明揭示了一种基于时域roi特征融合的视频目标检测方法,该方法包括:
8.步骤1:对于目标帧,随机选取同一视频内的两帧图像作为参考帧;
9.步骤2:采用残差网络作为主干网络提取视频中每帧图像的特征,得到每帧图像的
特征图,包括目标帧特征图和参考帧特征图;
10.步骤3:将步骤2中得到的特征图作为区域生成网络的输入,得到每帧图像的候选框;
11.步骤4:将步骤3中每帧图像的候选框投影到步骤2提取的特征图上,得到相应的roi特征,包括目标帧roi特征和参考帧roi特征;
12.步骤5:利用余弦相似度计算目标帧的每个roi特征图与参考帧特征图之间的相似性,并以相似性作为权重度量对参考帧中与当前roi特征最相似的部分进行加权,得到参考帧的最相似roi特征;
13.步骤6:将步骤5中得到的所有参考帧的最相似roi特征与步骤4中的目标帧roi特征作为时域roi特征融合处理的输入,得到目标帧的时域roi特征;
14.步骤7:将步骤6中目标帧的时域roi特征和步骤4中参考帧roi特征作为检测头的输入,实现对目标帧检测框位置的修正,并对检测框所包含目标进行分类,得到视频目标检测结果。
15.根据本发明的基于时域roi特征融合的视频目标检测方法的一实施例,步骤1中所使用的残差网络为resnet-101网络,其中resnet-101网络将卷积层conv5阶段的第一个卷积块的步幅进行缩小以提高特征图的分辨率,同时提高卷积层的扩张率以弥补步幅缩小所造成的感受野缩小的问题。
16.根据本发明的基于时域roi特征融合的视频目标检测方法的一实施例,步骤5进一步包括:
17.步骤5-1:计算该特征点与当前参考帧特征图上的所有特征点的余弦相似度;
18.步骤5-2:选择参考帧特征图上与该特征点相似度最高的两个点,获得这两个点的特征;
19.步骤5-3:对这两个点对应的余弦相似度进行softmax操作,转化为权重;
20.步骤5-4:以余弦相似度生成的权重对相似度最高的两个点的特征进行加权,得到该特征点在其他帧特征图提取出的特征,即当前特征点的最相似roi特征;
21.目标帧roi特征图上的每一个特征点以及每个参考帧均重复上述步骤。
22.根据本发明的基于时域roi特征融合的视频目标检测方法的一实施例,步骤6进一步包括:
23.步骤6-1:对目标帧roi特征与其自身及参考帧最相似roi特征分别进行拼接操作,输入三层卷积网络;
24.步骤6-2:将步骤6-1的输出结果进行拼接,并沿roi特征的个数维度进行softmax操作,转化为权重;
25.步骤6-3:以步骤6-2中生成的权重对步骤6-1的输出结果进行加权,得到包含参考帧有利信息的目标帧时域roi特征。
26.根据本发明的基于时域roi特征融合的视频目标检测方法的一实施例,步骤7中采用faster rcnn的检测头,并在检测头中的两个全连接层后各增加一个相似语义聚合模块,该相似语义聚合模块的处理进一步包括:
27.步骤7-1:使用多头注意力机制计算目标帧特征与参考帧特征之间的权重。
28.步骤7-2:沿参考帧候选框数量的维度对得到的权重进行softmax操作。
29.步骤7-3:使用归一化后的权重对参考帧特征加权求和。
30.本发明还揭示了一种基于时域roi特征融合的视频目标检测系统,系统包括:
31.参考帧选取模块,配置为对于目标帧,随机选取同一视频内的两帧图像作为参考帧;
32.特征图获取模块,配置为采用残差网络作为主干网络提取视频中每帧图像的特征,得到每帧图像的特征图,包括目标帧特征图和参考帧特征图;
33.候选框获取模块,配置为将特征图获取模块中得到的特征图作为区域生成网络的输入,得到每帧图像的候选框;
34.roi特征获取模块,配置为将候选框获取模块中每帧图像的候选框投影到步骤1提取的特征图上,得到相应的roi特征,包括目标帧roi特征和参考帧roi特征;
35.最相似roi特征获取模块,配置为利用余弦相似度计算目标帧的每个roi特征图与参考帧特征图之间的相似性,并以相似性作为权重度量对参考帧中与当前roi特征最相似的部分进行加权,得到参考帧的最相似roi特征;
36.时域roi特征融合模块,配置为将参考帧最相似roi特征获取模块中得到的所有参考帧的最相似roi特征与roi特征获取模块中的目标帧roi特征作为时域roi特征融合处理的输入,得到目标帧的时域roi特征;
37.视频目标检测模块,配置为将时域roi特征融合模块中目标帧的时域roi特征和roi特征获取模块中参考帧roi特征作为检测头的输入,实现对目标帧检测框位置的修正,并对检测框所包含目标进行分类,得到视频目标检测结果。
38.根据本发明的基于时域roi特征融合的视频目标检测系统的一实施例,特征图获取模块中所使用的残差网络为resnet-101网络,其中resnet-101网络将卷积层conv5阶段的第一个卷积块的步幅进行缩小以提高特征图的分辨率,同时提高卷积层的扩张率以弥补步幅缩小所造成的感受野缩小的问题。
39.根据本发明的基于时域roi特征融合的视频目标检测系统的一实施例,最相似roi特征获取模块进一步配置为执行以下的处理:
40.计算该特征点与当前参考帧特征图上的所有特征点的余弦相似度;
41.选择参考帧特征图上与该特征点相似度最高的两个点,获得这两个点的特征;
42.对这两个点对应的余弦相似度进行softmax操作,转化为权重;
43.以余弦相似度生成的权重对相似度最高的两个点的特征进行加权,得到该特征点在其他帧特征图提取出的特征,即当前特征点的最相似roi特征;
44.目标帧roi特征图上的每一个特征点以及每个参考帧均重复上述步骤。
45.根据本发明的基于时域roi特征融合的视频目标检测系统的一实施例,时域roi特征融合模块进一步配置为执行以下的处理:
46.对目标帧roi特征与其自身及参考帧最相似roi特征分别进行拼接操作,输入三层卷积网络;
47.将卷积网络的输出结果进行拼接,并沿roi特征的个数维度进行softmax操作,转化为权重;
48.以生成的权重对卷积网络的输出结果进行加权,得到包含参考帧有利信息的目标帧时域roi特征。
49.根据本发明的基于时域roi特征融合的视频目标检测系统的一实施例,视频目标检测模块中采用faster rcnn的检测头,并在检测头中的两个全连接层后各增加一个相似语义聚合模块,该相似语义聚合模块的处理进一步包括:
50.使用多头注意力机制计算目标帧特征与参考帧特征之间的权重。
51.沿参考帧候选框数量的维度对得到的权重进行softmax操作。
52.使用归一化后的权重对参考帧特征加权求和。
53.本发明对比现有技术有如下的有益效果:第一,本发明的基于时域roi特征融合的视频目标检测方法在提取roi特征的过程中,根据目标帧的roi特征与主干网络提取的参考帧的特征图之间的语义相似性,对参考帧特征图中与目标帧roi特征最相似的部分加权求和,使得模型在对目标帧进行检测时能够结合其他帧所包含的丰富语义信息。第二,本发明的基于时域roi特征融合的视频目标检测方法在时域roi特征融合过程中,以所有参考帧的最相似roi特征和目标帧的roi特征作为输入,利用三层卷积层提取其中的相似性信息,并以该相似性信息作为权重融合目标帧与参考帧的roi特征,实现对目标帧与参考帧特征的充分利用,当目标帧存在模糊或遮挡等问题时,模型能够从其他帧获取有用的语义特征,用于辅助目标帧的检测。第三,本发明的基于时域roi特征融合的视频目标检测方法在检测头部分利用多头注意力机制更进一步地挖掘参考帧特征中有利于目标帧检测的部分,使得有用特征更加聚合,提高视频目标检测模型在复杂场景下的检测准确性,获得更加稳定的检测结果。
附图说明
54.在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
55.图1示出了本发明的基于时域roi特征融合的视频目标检测方法的一实施例的整体框架示意图。
56.图2示出了图1所示的整体框架中的最相似roi特征获取的处理的示意图。
57.图3示出了图1所示的整体框架中的时域roi特征融合的处理的示意图。
58.图4示出了本发明的基于时域roi特征融合的视频目标检测系统的一实施例的原理图。
具体实施方式
59.以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
60.图1示出了本发明的基于时域roi特征融合的视频目标检测方法的一实施例的整体框架。请参见图1,本实施例的方法的实施步骤详述如下。
61.步骤1:对于目标帧,随机选取同一视频内的两帧图像作为参考帧,而非使用邻近帧作为参考帧。
62.由于邻近帧的信息冗余程度一般较高,且诸如运动模糊、物体遮挡、光照变化等外观退化现象通常会持续一段时间,若采用邻近帧作为参考帧会削弱特征聚合的优势,降低
基于时域信息方法的有效性,因此使用随机帧代替邻近帧以提供可用的语义信息。
63.步骤2:采用残差网络(例如resnet-101)作为主干网络提取视频中每帧图像的特征,得到每帧图像的特征图,包括目标帧特征图和参考帧特征图。
64.其中resnet-101网络将卷积层conv5阶段的第一个卷积块的步幅由2修改为1,用于提高特征图的分辨率,同时,为弥补步幅缩小所造成的感受野缩小的问题,提高该阶段中所有3
×
3卷积层的扩张率。
65.步骤3:将上述步骤1中得到的特征图(包括目标帧特征图和参考帧特征图)作为区域生成网络的输入,得到每帧图像的候选框。
66.其中,区域生成网络的输入为主干网络的conv4的输出,设置4种比例尺{64^2、128^2、256^2、512^2}、3种横纵比{0.5,1.0,2.0}共12种大小的锚框,每张图像上产生300个候选框。
67.步骤4:将步骤3中每帧图像的候选框投影到步骤2提取的特征图(包括目标帧特征图和参考帧特征图)上,得到相应的roi(感兴趣区域,region of interest)特征(包括对应的目标帧roi特征和参考帧roi特征)。
68.其中,roi特征的长和宽均设置为7,即特征图的大小为49。
69.步骤5:利用余弦相似度计算目标帧的每个roi特征图与参考帧特征图之间的相似性,并以相似性作为权重度量对参考帧中与当前roi特征最相似的部分进行加权,得到参考帧最相似roi特征。
70.步骤5的细化处理如图2所示,以目标帧的一个roi特征图上的一个特征点以及一张参考帧特征图为例,说明如下。
71.步骤5-1:计算该特征点与当前参考帧特征图上的所有特征点的余弦相似度。
72.步骤5-2:选择参考帧特征图上与该特征点相似度最高的两个点,获得这两个点的特征。
73.步骤5-3:对这两个点对应的余弦相似度进行softmax操作,转化为权重。
74.步骤5-4:以余弦相似度生成的权重对相似度最高的两个点的特征进行加权,得到该特征点在其他帧特征图提取出的特征,即当前特征点的最相似roi特征。
75.同样的,目标帧roi特征图上的每一个特征点以及每个参考帧均重复上述步骤。
76.步骤6:将步骤5中得到的所有参考帧的最相似roi特征与步骤4中的目标帧的roi特征作为时域roi特征融合处理的输入,得到目标帧的时域roi特征。
77.时域roi特征融合处理的细节如图3所示,实现方式如下。
78.步骤6-1:对目标帧roi特征与其自身及参考帧最相似roi特征分别进行拼接操作,输入三层卷积网络。
79.具体而言,三层卷积网络的结构包括:一个卷积核大小为1
×
1、卷积核个数等于输入通道数的卷积层与一个卷积核大小为3
×
3、卷积核个数等于输入通道数的卷积层,以及一个卷积核大小为1
×
1、卷积核个数是输入通道数一半的卷积层,用于融合拼接的两类特征以及保持输出特征大小与输入的目标帧roi特征的大小一致。
80.步骤6-2:将步骤6-1的输出结果进行拼接,并沿roi特征的个数维度进行softmax操作,,得到目标帧roi特征与其自身以及其他参考帧roi特征之间的相似性,作为输入特征的权重。
81.步骤6-3:以步骤6-2中生成的权重对步骤6-1的输出结果进行加权,得到包含参考帧有利信息的目标帧时域roi特征。
82.步骤7:将步骤6中目标帧的时域roi特征和步骤4中参考帧的roi特征作为检测头的输入,实现对目标帧检测框位置的修正,并对检测框所包含目标进行分类,得到视频目标检测结果。
83.其中采用faster rcnn的检测头,并在检测头中的两个全连接层后各增加一个相似语义聚合模块,该相似语义聚合模块的实现方式为:
84.步骤7-1:使用多头注意力机制计算目标帧特征与参考帧特征之间的权重。
85.步骤7-2:沿参考帧候选框数量的维度对得到的权重进行softmax操作。
86.步骤7-3:使用归一化后的权重对参考帧特征加权求和。
87.图4示出了本发明的基于时域roi特征融合的视频目标检测系统的一实施例的原理。
88.请参见图4,本实施例的系统包括:参考帧选取模块、特征图获取模块、候选框获取模块、roi特征获取模块、最相似roi特征获取模块、时域roi特征融合模块、视频目标检测模块。
89.参考帧选取模块,配置为对于目标帧,随机选取同一视频内的两帧图像作为参考帧。
90.由于邻近帧的信息冗余程度一般较高,且诸如运动模糊、物体遮挡、光照变化等外观退化现象通常会持续一段时间,若采用邻近帧作为参考帧会削弱特征聚合的优势,降低基于时域信息方法的有效性,因此使用随机帧代替邻近帧以提供可用的语义信息。
91.特征图获取模块,配置为采用残差网络作为主干网络提取视频中每帧图像的特征,得到每帧图像的特征图,包括目标帧特征图和参考帧特征图。
92.特征图获取模块中所使用的残差网络为resnet-101网络。其中resnet-101网络将卷积层conv5阶段的第一个卷积块的步幅由2修改为1,用于提高特征图的分辨率,同时,为弥补步幅缩小所造成的感受野缩小的问题,提高该阶段中所有3
×
3卷积层的扩张率。
93.候选框获取模块,配置为将特征图获取模块中得到的特征图作为区域生成网络的输入,得到每帧图像的候选框。
94.其中,区域生成网络的输入为主干网络的conv4的输出,设置4种比例尺{642、1282、2562、5122}、3种横纵比{0.5,1.0,2.0}共12种大小的锚框,每张图像上产生300个候选框。
95.roi特征获取模块,配置为将候选框获取模块中每帧图像的候选框投影到步骤1提取的特征图上,得到相应的roi特征,包括目标帧roi特征和参考帧roi特征。其中,roi特征的长和宽均设置为7,即特征图的大小为49。
96.最相似roi特征获取模块,配置为利用余弦相似度计算目标帧的每个roi特征图与参考帧特征图之间的相似性,并以相似性作为权重度量对参考帧中与当前roi特征最相似的部分进行加权,得到参考帧的最相似roi特征。
97.最相似roi特征获取模块进一步配置为执行以下的处理:
98.计算该特征点与当前参考帧特征图上的所有特征点的余弦相似度;
99.选择参考帧特征图上与该特征点相似度最高的两个点,获得这两个点的特征;
100.对这两个点对应的余弦相似度进行softmax操作,转化为权重;
101.以余弦相似度生成的权重对相似度最高的两个点的特征进行加权,得到该特征点在其他帧特征图提取出的特征,即当前特征点的最相似roi特征;
102.目标帧roi特征图上的每一个特征点以及每个参考帧均重复上述步骤。
103.具体如图2所示,已经在前述的方法实施例中详细描述,在此不再赘述。
104.时域roi特征融合模块,配置为将最相似roi特征获取模块中得到的所有参考帧的最相似roi特征与roi特征获取模块中的目标帧roi特征作为时域roi特征融合处理的输入,得到目标帧的时域roi特征;
105.时域roi特征融合模块进一步配置为执行以下的处理:
106.对目标帧roi特征与其自身及参考帧最相似roi特征分别进行拼接操作,输入三层卷积网络。
107.将卷积网络的输出结果进行拼接,并沿roi特征的个数维度进行softmax操作,转化为权重。
108.以生成的权重对卷积网络的输出结果进行加权,得到包含参考帧有利信息的目标帧时域roi特征。
109.具体如图3所示,已经在前述的方法实施例中详细描述,在此不再赘述。
110.视频目标检测模块,配置为将时域roi特征融合模块中目标帧的时域roi特征和roi特征获取模块中参考帧roi特征作为检测头的输入,实现对目标帧检测框位置的修正,并对检测框所包含目标进行分类,得到视频目标检测结果。
111.视频目标检测模块中采用faster rcnn的检测头,并在检测头中的两个全连接层后各增加一个相似语义聚合模块,该相似语义聚合模块的处理进一步包括:
112.使用多头注意力机制计算目标帧特征与参考帧特征之间的权重。
113.沿参考帧候选框数量的维度对得到的权重进行softmax操作。
114.使用归一化后的权重对参考帧特征加权求和。
115.尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
116.本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
117.结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例
如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。
118.结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
119.在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、dsl、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(cd)、激光碟、光碟、数字多用碟(dvd)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
120.提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。