一种结合帧间光流的表观运动联合弱小运动目标检测方法

文档序号：28502073发布日期：2022-01-15 05:03阅读：来源：国知局

技术特征：
1.一种结合帧间光流的表观运动联合弱小运动目标检测方法，包括如下步骤：(1)累积光流计算：利用深度神经网络光流计算方法计算当前帧与前一帧之间的光流，得到当前帧每个像素点的光流，所述光流包含运动方向和运动大小；按照上述方法计算n个连续帧中每相邻两帧的光流，得到n-1个光流，将所述n-1个光流叠加，形成多帧累积光流；(2)表观运动联合网络构建：在yolov3单帧目标检测网络的基础上，通过用darknet-53骨干网络提取特征，在不同尺度的yolo层进行目标检测的结构构建表观运动联合网络，将所述多帧累积光流中包含的水平、垂直方向的运动信息作为双通道信息，连同当前帧图像的rgb三通道像素值，经过预处理后一同作为所述表观运动联合网络的输入；在yolo层每一个预测边界框输出结果中增加运动目标置信度；并在yolov3单帧目标检测网络的五类损失之外，增加运动目标预测损失，从而改进损失函数；在训练过程中对所述表观运动联合网络进行约束，使所述表观运动联合网络在目标检测的基础上，进一步区分运动目标和静止目标。2.如权利要求1所述的方法，其特征在于：所述步骤(1)中多帧累积光流的计算过程包括：针对n个连续帧，利用深度神经网络光流计算方法pwc-net计算出每相邻两帧间的光流，得到n-1个光流结果，将所述每相邻两帧的光流结果以矩阵形式表示，所述矩阵中每个元素表示每个像素点的光流结果；将所述n-1个光流结果进行叠加，形成所述多帧累积光流，以增强慢速小目标的运动信息，所述相邻两帧的光流结果记为(u
i
→
i+1
,v
i
→
i+1
)，从第1帧到第n帧的n-1帧累积光流s1→
n
由下述公式(1)计算得到，3.如权利要求1所述的方法，其特征在于：所述步骤(2)中表观运动联合网络的具体构建过程为：(2.1)以yolov3单帧目标检测网络为基础，将输入的图像经过darknet-53骨干网络提取特征，在yolo层进行目标检测，并将该yolo层中特征图经过上采样层，与darknet-53后两层中相应尺度的特征图进行维度拼接，实现多层特征的融合，作为下一个yolo层提供数据；(2.2)使用多个yolo层进行不同尺度的目标检测，每个yolo层将输入的特征图进行若干次darknetconv2d_bn_leaky，即dbl操作,所述dbl操作是在一个卷积层后跟一个batch normalization层和一个leakyrelu层，得到输入到下一个yolo层的特征图，再进行1次darknetconv2d_bn_leaky操作，并经过1
×
1卷积运算，输出对应的s
×
s
×
b
×
(c+(4+1))维度的张量，其中，s
×
s表示yolo层中划分的网格数量，b表示每一个网格上产生的边框个数，c表示网络支持识别的类别数；输出张量中包含每个预测边界框的所属类别概率、位置参数以及物体置信度，其中，所属类别概率表示在预测框存在目标的情况下，目标属于各个类别的对应概率，位置参数包括4个参数x、y、w、h，分别表示预测框的中心点相对网格的偏移量和相对于s
×
s网格的宽、高，物体置信度表示预测框中存在目标的概率。4.如权利要求1所述的方法，其特征在于：所述步骤(2)中将多帧累积光流与当前帧图像的rgb三通道像素值一同作为表观运动联合网络的输入的计算过程包括：将多帧累积光流和rgb三通道像素值经过预处理后，通过维度连接操作进行连接，作为表观运动联合网络的输入；所述多帧累积光流输入包含水平、垂直两个方向的运动信息，将yolov3单帧目标检测网络第一个卷积层中每一个卷积核的神经元权重参数从3个增加到5个，使得第一层的神
经元能够使用新增的神经元权重参数在5个通道输入上计算得出第一层特征图，从而同时提取表观和运动特征；网络第一层特征f1可以用下述公式(2)表示，其中表示预处理后的双通道多帧累积光流经过卷积操作的计算结果，表示rgb三通道像素值经过卷积操作的计算结果。5.如权利要求1所述的方法，其特征在于：所述步骤(2)中多帧累积光流和rgb三通道像素值的预处理过程为：将多帧累积光流结果取绝对值，去除累积光流的方向信息，只使用累积光流的数值大小表示当前像素的运动快慢，从而减少表观运动联合网络训练过程中的噪声，加快收敛速度；同时，对所述rgb三通道像素数据采用归一化处理，将数据范围限制在0到1之间，对所述多帧累积光流也采用归一化处理，使所述多帧累积光流的数据分布与表观特征的数据分布范围相同；对所述多帧累积光流采用如下述公式(3)进行归一化，其中mean
|u|
表示u方向上累积光流绝对值的平均值，variance
|u|
表示u方向上累积光流绝对值的标准差，mean
|v|
表示v方向上累积光流绝对值的平均值，variance
|v|
表示v方向上累积光流绝对值的标准差。6.如权利要求1所述的方法，其特征在于：所述步骤(2)中表观运动联合网络为了区分运动目标和静止目标，在yolo层每一个预测边界框输出结果中增加运动目标置信度的具体过程包括：在yolov3单帧目标检测网络yolo层每一个预测边界框输出4个位置参数和1个物体置信度的基础上，增加1个运动目标置信度，该值是回归连续值，用来表示当前目标框中预测得到的目标是运动目标的置信度，其计算方式如公式(4)所示，output_dim＝s
×
s
×
b
×
(c+(4+1+1))
ꢀꢀꢀꢀꢀ
(4)其中output_dim表示yolo层输出的张量维度；表观运动联合网络将输入数据进行了yolov3中的编码操作，yolo层将该输出张量进行与输入时编码相应的解码操作得到最终输出结果。7.如权利要求1所述的方法，其特征在于：所述步骤(2)中表观运动联合网络在yolov3单帧目标检测网络的五类损失之外，增加运动目标预测损失，该损失使用二分类交叉熵，具体计算如公式(5)所示，其中loss表示yolov3单帧目标检测网络提出的损失函数，用来累计检测框位置损失和类别损失，求和符号中的s2表示yolo层中分割的网格数量，表示第i个网格的第j个预测边界框中是否存在目标，如果存在目标则为1，否则为0，m
i
(j)表示第i个网格的第j个预测边界框中预测得出的运动目标置信度，表示数据集中运动目标区域的真实标注，运动目标标注为1，静止目标标注为0，通过上述公式(5)在训练过程中对网络进行约束，令网络
能够区分静止目标和运动目标；在测试时，根据网络输出的运动目标置信度判断该目标是否为运动目标，如果运动目标置信度大于th，则将其视为运动目标输出。8.如权利要求1所述的方法，其特征在于步骤(1)中多帧累积光流的累积帧数参数n，优选为n＝3。9.如权利要求3所述的方法，其特征在于网络使用多个yolo层进行不同尺度的目标检测时，yolo层的数量优选为3个。10.如权利要求3所述的方法，其特征在于每个yolo层将输入的特征图进行若干次darknetconv2d_bn_leaky时，若干次dbl操作优选为5次。11.如权利要求7所述的方法，其特征在于运动目标置信度阈值th，优选为th＝0.5。

技术总结
本发明提出一种结合帧间光流的表观运动联合弱小运动目标检测方法。该方法基于YOLOv3单帧目标检测网络框架构建表观运动联合网络，将多帧累积光流作为运动特征融合到输入的单帧图像中，对表观特征进行有效补充，从而提升弱小运动目标的检测准确率。其中，采用多帧累积光流来代替相邻两帧间光流，可以更好地突出慢速小目标的运动特征，当小目标存在运动甚至慢速运动时，可以有效地通过较长时间运动信息的累积结果来补充表观信息的缺失，提升弱小运动目标的检测准确率。针对运动目标检测任务，设计表观运动联合网络的运动目标置信度和损失函数，使网络可以进一步将运动目标和静止目标区分开。实验结果表明，结合帧间光流的表观运动联合网络相比于单帧目标检测网络，可以有效地提升弱小运动目标的检测准确率。效地提升弱小运动目标的检测准确率。效地提升弱小运动目标的检测准确率。

技术研发人员：郑锦王菲于智浩百晓
受保护的技术使用者：北京航空航天大学
技术研发日：2021.09.28
技术公布日：2022/1/14

完整全部详细技术资料下载

当前第2页1 2