一种自监督预训练目标检测方法、系统、设备及存储介质

文档序号：33963340发布日期：2023-04-26 17:31阅读：52来源：国知局

本发明属于图像处理，涉及一种自监督预训练目标检测方法、系统、设备及存储介质。

背景技术：

1、目标检测是计算机视觉中的重要任务，包括对图像中目标的定位和分类，是比图像分类更为复杂的任务。目标检测技术在安防、交通、智慧农业、医疗等行业都有广泛的应用。所以对于深度学习目标检测技术的研究很有意义。

2、通常为了实现好的检测效果，需要大量的标注数据来训练模型，但是标注数据的成本很高而且准确性也因为标注误差而受到影响。无监督任务是使用不需要标注的数据，但是并没有充分的使用到数据的特征。最近人们关注于自监督学习，所谓自监督学习是指根据设计的代理任务，利用数据本身来提供弱监督，不需要对数据进行标注来进行预训练。通常是在类似于imagenet或者coco这样的大数据集上进行预训练，得到对下游任务有价值的特征表示。在图像处理领域，常见的代理任务有拼图、抠图(随机扣除掉图像的某个部分，用剩余部分来预测扣除的部分)、颜色补全(把图像的灰度图作为输入、预测真实的彩图)等。对于目标检测任务而言，构建合适的代理任务使得模型在预训练阶段获取一定的定位和分类能力，增强了其在下游任务的表征性能。

3、对于代理任务的设计和实现，大多数之前工作是关注于预训练模型的主干网络部分。最近的up-detr(也是基于detr的一种预训练方法)和detreg(也是基于detr构建的一种预训练方法)是基于detr模型架构设计的代理任务，实现了整个模型端到端的预训练。up-detr的代理任务是让模型在预训练阶段学习检测图像中的随机patch块，但是随机patch块并不能代表图中出现的实际物体。而detreg的代理任务使用了传统的selective-search算法来提取proposals作为待检测的物体，促进模型识别物体。但是因为传统算法的准确性限制，使得detreg的定位能力和分类能力受到了约束。

技术实现思路

1、本发明的目的在于解决现有技术中自监督预训练代理任务在目标检测定位和分类方面的不足的问题，提供一种自监督预训练目标检测方法、系统、设备及存储介质。

2、为达到上述目的，本发明采用以下技术方案予以实现：

3、一种自监督预训练目标检测方法，包括以下步骤：

4、s1：给定输入图片，从给定的输入图片中提取proposals，选取前30个proposals作为带粘贴的patch块；

5、s2：从数据集中选择一张图作为背景图，将s1中获取的patch块粘贴到背景图中，得到合成图，提取下游待检测目标的色彩rgb值，在粘贴的patch块中随机选择一片区域将其改为与提取的色彩rgb值相应的颜色；

6、s3：分别提取合成图的特征以及合成图中粘贴的patch块的多尺度特征，并将patch块的多尺度特征编码为object query；

7、s4：object query基于提取的合成图特征进行学习，并对学习后的object query进行类别和边界框预测，得到预测的集合，将预测的集合和真实的标注集合进行匹配。

8、本发明的进一步改进在于：

9、所述步骤s1包括以下步骤：

10、通过selective-search算法提取proposals，具体为，对给定的输入图片进行分割获取一系列区域，按照设定的损失函数计算不同区域的相似度进行合并，按照相似度从高到底选取前30个proposals。

11、所述步骤s2还包括以下步骤：

12、对获取的patch块进行水平翻转、改变亮度、改变对比度、改变饱和度以及改变色调。

13、所述步骤s3包括以下步骤：

14、通过resnet50主干网络提取合成图的特征以及合成图中粘贴的patch块的多尺度特征。

15、所述步骤s3中，粘贴的patch块编码为object query的过程包括：

16、对每张合成图选取若干个patch块进行编码

17、通过主干网络对每个patch块进行特征提取，得到若干个不同尺度的patch特征图；

18、对获取的patch特征图进行池化处理；

19、基于获取的不同尺度的patch特征图定义对应的linear层，得到不同尺度的patch特征转换得到的object query；

20、根据合成图提取的多尺度输入特征不同的大小比例，将每个patch在不同尺度特征编码得到的object query进行重复操作。

21、所述步骤s4中，object query和合成图的特征输入至transformer中学习，并在transformer的解码器中自注意力模块引入为object query设计的注意力掩码。

22、所述步骤s4中，对学习后的object query进行类别和边界框预测的过程包括：

23、通过预测头进行预测，所述预测头包括fbox、fcat和frec；

24、fbox用于预测bounding boxes，fcat预测是否是粘贴上的patch，frec用于重建object descriptors，其中则v1……vk表示通过transformer计算的与图像相关的objectquery。

25、一种自监督预训练目标检测系统，包括patch块提取模块、合成图构成模块、多尺度特征转化模块和匹配模块；

26、patch块提取模块，用于给定输入图片，从给定的输入图片中提取proposals，选取前30个proposals作为带粘贴的patch块；

27、合成图构成模块，用于从数据集中选择一张图作为背景图，将s1中获取的patch块粘贴到背景图中，得到合成图，提取下游待检测目标的色彩rgb值，在粘贴的patch块中随机选择一片区域将其改为与提取的色彩rgb值相应的颜色；

28、多尺度特征转化模块，用于分别提取合成图的特征以及合成图中粘贴的patch块的多尺度特征，并将patch块的多尺度特征编码为object query；

29、匹配模块，用于object query基于提取的合成图特征进行学习，并对学习后的object query进行类别和边界框预测，得到预测的集合，将预测的集合和真实的标注集合进行匹配。

30、一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明任一项所述方法的步骤。

31、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明任一项所述方法的步骤。

32、与现有技术相比，本发明具有以下有益效果：

33、本发明公开了一种自监督预训练目标检测方法，首先将图片进行合成处理，具体为在给定的输入图片中选取更具特征的patch块，并将patch块与选择的背景图进行粘贴合成构成合成图，为预训练提供了准确的位置标注，优化了预训练目标检测过程中的定位问题，提高了定位能力，同时基于下游检测目标的色彩rgb值改变部分粘贴的patch块的像素值，为其增加下游颜色噪声，优化了预训练目标检测中的分类能力，将patch块的多尺度特征转化为object query后进行学习，使得对于不同尺度的特征有不同数量的object query去学习，可以更充分的挖掘不同尺度的特征，提高检测性能，并对学习后的object query进行边界框预测保证了预测的patch和真实patch之间的特征一致性。

34、进一步的，本发明中，通过selective-search算法提取proposals得到的patch块对于下游任务能学到更好的特征表达，使特征学习更有价值。

35、进一步的，本发明中，获取的patch块进行亮度、对比度、饱和度和色调的调整，增强特征学习的鲁棒性，可以更好的配合下游数据集的目标检测任务。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐亦飞李斌严实刘汕王优尉萍萍宋毓韬余乐
技术所有人：西安交通大学
我是此专利的发明人

上一篇：旋转准直型静态CT成像系统的制作方法
上一篇：一种冷却循环无污染表面处理反应装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。