一种基于未来特征自监督学习的流式感知方法

文档序号:36419938发布日期:2023-12-20 07:49阅读:35来源:国知局
一种基于未来特征自监督学习的流式感知方法

本发明涉及一种应用于目标检测的一种基于未来特征自监督学习的流式感知方法,属于计算机视觉领域。


背景技术:

1、在快速发展的计算机视觉领域中,精确而及时的目标检测要求至关重要,尤其是在自动驾驶和无人机监控等实际应用中。传统的目标检测方法,无论是基于图像的方法或基于视频的方法,主要以离线模式运行。它们无法及时跟上实际环境中连续快速的变化,从而损害它们的有效性。数据获取和处理之间的延迟使得环境条件得以演变,突显对能够预测未来状态的预测方法的迫切需求。为解决这个挑战,建立一种新的范式,称为流式感知,在当前的研究中逐渐得到广泛应用。

2、流式感知通过处理连续的数据流来产生即时的预测。与仅关注静态图像中目标检测的图像目标检测和整合来自连续帧的历史数据的视频目标检测不同,流式感知利用当前和历史帧数据来预测目标的未来位置。考虑到目标检测任务的约束,延迟成为一个核心挑战,影响检测结果的准确性和可靠性。数据采集和处理之间的延迟允许环境条件演变,突显流式感知的重要性,它可以预测和迅速响应环境变化,有效解决延迟问题。

3、流式感知已经引发许多创新方法的提出。早期的解决方案之一是streamer,它是一种元检测器。streamer通过采用决策理论调度、异步跟踪和基于卡尔曼滤波器的预测等独特策略脱颖而出。然而,streamer的一个重要局限性是它依赖于预定义的调度。为解决streamer的调度问题,引入自适应的streamer。通过使用深度强化学习,自适应的streamer实现更准确的预测。尽管改进性能,但自适应的streamer的训练过程复杂,计算要求高。为解决自适应的streamer的问题,一些新方法采用端到端的策略。具体来说,streamyolo通过利用连续帧中包含的时间信息来预测未来状态,从而减少复杂的训练过程。类似地,longshortnet在其独特的双路径网络中将长期的时间运动和短期的空间语义相结合,便于流式感知。

4、然而,现有的端到端方法存在特征对齐的挑战,即当前帧和过去帧的输入数据与下一帧的监督数据之间存在时间上的不匹配。当目标从一帧到下一帧发生显着移动时,这种不匹配通常导致不准确的预测。在动态环境中,目标的快速变化很常见,这使得这种不准确性更加明显,因此需要更适应性的方法。


技术实现思路

1、为解决当前流感知算法主要依赖于坐标信息而无法提供精确预测的问题,本发明的目的是提供一种基于未来特征自监督学习的流式感知方法,利用未来帧的外观特征来增强流式感知的性能,显著地提高ffssl模型对时间序列数据中连续性和时序变化的捕获能力,确保预测的连续性和准确性;此外,本发明结合streamyolo和yolox的特点,实现对视频序列中每帧数据的深度解析,得到更丰富、更多样的特征表示,通过对历史、当前和未来帧进行综合分析,保证模型在每一步都能充分地利用每帧的信息,并通过自监督的学习策略,有效地整合目标在不同时间点的特征,进而实现对目标的高精度、高稳定性预测。

2、本发明的目的是通过下述技术方案实现的:

3、本发明公开的基于未来特征自监督学习的流式感知方法,基于未来特征自监督学习的流式感知ffssl模型实现。通过构建输入数据,该输入由历史帧、当前帧和下一帧数据组成,为ffssl模型提供时空连续性的信息。应用streamyolo子模型进行初步处理,该结构包括yolox子模型、特征融合模块与特定的损失函数,从而捕捉视频流中的动态特性。根据streamyolo子模型和yolox子模型的输出作为自监督模块的输入,这两个输入是streamyolo子模型的特征融合输出以及下一帧通过yolox子模型产生的特征输出。为在这一阶段中进行精确的特征对齐,采用目标坐标位置标签对两个输入进行特征提取,并根据输入图像与yolox子模型及streamyolo子模型特征融合模块的输出特征进行对比,得出一个缩放比例来获得新的真值标签。样本对构建步骤系统地构建锚点和正负样本对,确保ffssl模型能够从数据中学习到更为鲁棒的特征。使用streamyolo子模型的特征融合输出,根据真值标签提取出含有目标区域的锚点;采用yolox子模型处理下一帧的特征,并利用缩放后的真值标签提取出带有目标特征的正样本;通过利用与缩放后真值标签相同大小的背景区域,构建负样本。引入特征一致性损失,确保从连续帧中提取的特征具有良好的一致性。通过使用锚点、正负样本来构建该损失,确保视频流中的连续帧之间的特征对齐和一致。通过目标检测技术、特征融合策略和自监督学习模块,提高流感知的准确性,并为视频流处理等实际应用场景提供有力的技术支持。

4、本发明公开的一种基于未来特征自监督学习的流式感知方法,包括如下步骤:

5、步骤1:输入检测目标的rgb数据,由历史帧、当前帧和下一帧数据组成,rgb数据不仅为目标预测提供时空连续性的信息,有助于流式感知模型准确捕捉目标在连续帧中的外观特征。

6、步骤2:构建未来特征自监督学习的流式感知模型,所述流式感知模型简称为ffssl模型。所述ffssl模型包括streamyolo子模型、yolox子模型、自监督模块。所述streamyolo子模型用于处理连续帧数据,预测目标的未来状态。所述streamyolo主要由yolox子模型、特征融合和损失函数组成。所述自监督模块用于利用未标记的rgb数据进行模型训练,利用连续帧中目标的一致性和连续性,强化流式感知模型的学习能力,而不依赖大量标记数据。特征融合用于融合连续帧中历史帧和当前帧的特征,增强ffssl模型对未来状态的预测能力。损失函数用于减小预测和实际未来状态之间的差异。当rgb数据进入模型时,yolox子模块从中提取目标特征。目标特征随后输入到streamyolo子模型中,特征融合将多帧的特征融合在一起。融合后的特征被送入自监督模块,以增强ffssl模型的预测能力。ffssl模型通过损失函数进行优化,确保预测的准确性,使ffssl模型能够综合利用多帧数据,实现高效且准确的目标预测。

7、步骤3:输入步骤1获取的检测目标的rgb数据。根据视频帧序列中的当前帧ft,将其定义为中心帧,并进一步确定其前后相邻帧ft-1和ft+1作为历史帧和下一帧。在构建完训练样本数据组后,历史帧ft-1和当前帧ft的信息经过特征融合模块进行处理,下一帧ft+1通过yolox进行特征提取。将历史帧ft-1、当前帧ft和下一帧ft+1三个帧作为ffssl模型的输入。

8、步骤4:基于streamyolo子模型对rgb数据进行处理。利用步骤3中生成的训练样本数据组进行训练,并通过streamyolo结构得到特征融合的输出。

9、步骤5:利用streamyolo子模型的输出计算分类损失、回归损失和目标度损失,所述损失函数用来进行t+1帧标签监督训练。

10、分类损失

11、

12、是基于交叉熵损失进行计算的。对于每个边界框,该损失测量预测的类别概率与实际类别标签之间的差异。其中,yo,c是目标o属于类别c的实际标签,po,c是目标o被预测为类别c的概率,c是类别的总数。

13、回归损失

14、

15、计算预测的边界框坐标与实际坐标之间的差异。在ffssl模型中,回归损失使用均方误差mse计算。其中,npos是正样本边界框的数量,bi是预测的边界框坐标,是实际坐标。

16、目标性损失

17、

18、在图像中用来区分目标与背景。考虑预测的边界框是否包含目标的概率,该损失使用二元交叉熵损失计算,其中,n是边界框的数量,yi是表示边界框i是否包含目标的实际标签,1表示包含目标,0表示背景,pi是预测的边界框i包含目标的概率。

19、步骤6:streamyolo的特征融合输出以及通过yolox得到的下一帧的特征输出被送入自监督模块。自监督模块利用目标坐标位置标签,对两个输入进行特征提取。为了进行特征提取,两个输入都使用目标坐标位置标签,并根据输入图片与yolox子模型及streamyolo子模型特征融合模块输出的特征对比,得到一个缩放比例,进而获取新的真值标签。自监督模块对输入图像与yolox及streamyolo特征融合模块的输出特征进行比对,并计算出一个新的真值标签。

20、为根据输入图像与输出特征计算缩放比例,定义两幅图像的宽度和高度:iinput为输入图像,其宽度和高度分别为winput和hinput;而ifeature为特征融合的输出图像,其宽度和高度分别为wfeature和hfeature。

21、缩放比例分别为宽度和高度计算:

22、

23、

24、基于输入图像与特征之间的缩放比例,自监督模块计算出一个新的真值标签。

25、步骤7:利用已提取的特征和真值标签,执行样本对构建,即构建锚点和正负样本对:使用streamyolo子模型特征融合模块输出的特征,经过真值标签提取出带有目标区域的锚点;使用yolox子模型提取的下一帧的特征,经过缩放后的真值标签提取出带有目标特征的正样本;使用与缩放后的真值标签区域相同大小的背景区域构建负样本。通过构建样本对确保ffssl模型能够从数据中捕获更鲁棒的特征。使用步骤4中streamyolo子模型的融合特征,得到特征图ft-1:t。根据目标的真值标签,计算ft与融合特征之间的缩放比例,根据该比例计算出特征图中目标的精确位置,获取到目标的锚点区域。

26、同样使用步骤4中yolox子模型处理的下一帧特征,并结合缩放后的真值标签,得到带有目标特征的正样本ft+1,即第t+1帧的特征。从这个特征图中,根据第一个特征图中锚点的位置,选择与锚点对应的目标区域。这个正样本与锚点在外观上是相似的,因此在自监督学习中被视为有效的学习目标。

27、根据步骤4中yolox处理下一帧的特征作为输入,并利用缩放后的真值标签提取具有与锚点相同大小的背景区域,得到负样本。负样本为与正样本的对比提供不同的视角,从而增强ffssl模型的区分能力。为保持正负样本的数量平衡,每选择一个正样本就随机选择一个负样本。在ffssl模型下,样本对构建过程对streamyolo子模型起到促进自监督学习的作用,精确地捕捉连续帧之间目标的特征信息。ffssl模型通过自监督学习模块增强前两帧的融合特征与下一帧特征之间的前景特征一致性,实现对视频序列中每帧数据的深度解析,从而得到更丰富、更多样的特征表示。所述特征表示不仅反映目标的位置变化,还捕捉到其外观、大小、形状和其他相关属性的变化,保证ffssl模型在每一步都能充分地利用每帧的信息。

28、步骤8:通过锚点、正负样本构建特征一致性损失。为确保从连续帧中提取的特征具有良好的一致性,使用步骤4中的锚点、正负样本来构建特征一致性损失fcl。

29、

30、s=s(ft-1:t,ft+1)

31、

32、其中,ft-1:t表示由第t-1帧和第t帧的特征融合得到的特征,ft+1表示第t+1帧的特征,而s(ft-1:t,ft+1)则是ft-1:t和ft+1的特征表示之间的相似度度量。变量表示从第t+1帧的非目标区域中选择的负样本。τ是温度参数,用于调节分布的锐度。

33、fcl的目标是最大化正样本(锚点及其在下一帧中对应的目标)与负样本之间的互信息,从而提高自监督学习过程的有效性。通过实施fcl机制,优化自监督学习策略的有效性,有助于提高流式感知性能。fcl与步骤2中提到的其他关键损失结合,构成训练过程中的损失函数,自监督的学习策略有效地整合目标在不同时间点的特征,进而实现对目标的高精度、高稳定性预测。

34、步骤9:为确保ffssl模型的预测性能,结合特征一致性损失fcl与监督损失构建综合损失函数

35、

36、通过结合目标检测技术、特征融合策略和自监督学习模块,提高流感知的准确性,并为视频流处理等实际应用场景提供了有力的技术支持。

37、步骤10:在ffssl模型的推理阶段不再使用自监督模块,但在训练阶段通过自监督学习形成的特征表示仍然对预测能力产生显著的增强,进而提高对目标的预测精度和稳定性,有效解决当前流感知算法主要依赖于坐标信息而无法提供精确预测的问题。

38、有益效果:

39、1、本发明公开的一种基于未来特征自监督学习的流式感知方法,利用未来帧的外观特征来增强流式感知的性能,显著地提高ffssl模型对时间序列数据中连续性和时序变化的捕获能力。通过考虑未来帧的外观特征,该方法不仅提高短期的连续性预测能力,而且对于那些长期依赖关系也具有强大的识别和处理能力。特别是当目标在当前帧中部分被遮挡或消失时,未来帧的信息不仅为模型提供额外时空连续性的信息,还为连续的预测提供有力的支撑,确保预测的连续性和准确性。

40、2、本发明公开的一种基于未来特征自监督学习的流式感知方法,不完全依赖于坐标信息进行感知,使ffssl模型能够更加细致地捕捉对象的所有可能属性和特征,而不仅仅是其位置信息。结合streamyolo和yolox的特点,该方法实现对视频序列中每帧数据的深度解析,从而得到更丰富、更多样的特征表示。这些特征表示不仅反映目标的位置变化,还捕捉到其外观、大小、形状和其他相关属性的变化。通过对历史、当前和未来帧进行综合分析,该方法保证ffssl模型在每一步都能充分地利用每帧的信息,并通过自监督的学习策略,有效地整合目标在不同时间点的特征,进而实现对目标的高精度、高稳定性预测。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1