一种针对复杂背景中目标的检测与分割方法

文档序号：34105909发布日期：2023-05-10 19:59阅读：47来源：国知局

本发明涉及图像处理，具体指一种基于深度学习并针对复杂背景中目标的检测与分割方法。

背景技术：

1、复杂背景中的目标指的是难以被肉眼或传统计算机视觉技术识别出来的目标。其中，背景可能包括树木、草丛、花园、城市街道等，而目标可以是人、车、建筑、装备或其他任何物体。这些目标采用包括颜色伪装、纹理伪装、形状伪装等独特的伪装技术，将其融入到周围环境中，与背景融为一体，使其自身难以被发现，以避免被侦测或识别。通常这种目标的检测与分割方法用于隐蔽军事行动、犯罪活动、情报收集等领域，也被广泛用于生物学和生态学研究中，以帮助科学家研究野生动物的行为和生存策略。

2、目标的检测和分割是图像处理、计算机视觉和机器学习等领域中的一个重要研究课题，其目的是让计算机像人一样识别和理解视觉场景中的目标物体。显著性目标是指在一张图片中与背景显著不同的目标物体。目前，研究者在显著性目标检测和分割领域已经取得了很大的成功，并取得了许多优秀的成果。然而，由于显著性目标与伪装目标之间的差异，显著性目标检测模型并不能完美地应用于复杂背景中目标的检测。针对该目标和背景高度相似的特点，通常需要采用更加复杂和精细的方法，例如纹理分析、形状分析、特征匹配等技术，来识别和检测伪装目标，但是计算复杂，效率低下，并且成功率也非常不乐观。

3、目前针对复杂背景中目标检测与分割的研究仍不成熟。现有的工作主要模仿人类视觉系统，将检测和分割分为定位和聚焦两个阶段。首先，定位模块会大致确定目标的位置，然后聚焦模块会进一步细化目标的边缘和细节特征。但是，目前的模型不能深入分析各种特征之间的差别，也不能深入分析伪装目标前景和背景的特征差异。因此，研究人员无法根据伪装目标的特征针对性地构建模型以获得最佳效果。

4、本发明重点分析复杂背景中目标的相似特征并进行交叉融合，针对多场景、多物体种类、多隐藏模式的目标，分析出前景与背景的差异特征，而后围绕特征的异同性开展检测与分割工作。

技术实现思路

1、针对现有技术中存在的不足，本发明提出一种针对复杂背景中目标的检测与分割方法，该方法主要由res2net-50编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络组成，通过对神经网络进行训练，得到最优参数，实现对目标的自动检测与分割。

2、为了解决上述技术问题，本发明的技术方案为：

3、一种针对复杂背景中目标的检测与分割方法，包括如下步骤：

4、s1、获取cood10k数据集，所述cood10k数据集包括原图与真值图，并制作训练集与测试集；

5、s2、构建检测分割初始模型，所述检测分割初始模型包括res2net-50编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络；

6、所述的res2net-50编码器的结构与resnet50一致，由50个基本块组成，但在每个基本块单个残差块内构造分层的残差类连接，以更细粒度表示多尺度特征，并增加每个网络层的感受野范围，该模块可提取5层包含不同层级信息的特征；

7、所述的自上向下的解码方式，由双线性插值上采样操作和拼接组成，对高层信息使用双线性插值上采样操作扩大尺寸后，与其下一级特征进行拼接，并缩减通道数。本操作使用高级特征指导低级特征，以增强相似特征，减弱相异特征。

8、所述的倒三角解码器为聚合特征金字塔结构，由双线性插值上采样、逐元素相乘、拼接等组成，本模块用于融合高级特征与低级特征，以保持不同层级的语义信息一致性并跨层级拼接上下文信息，定位隐藏对象，生成粗糙预测图。

9、所述的特征交叉融合网络，主要由逐元素相乘与sigmoid操作组成。使用预测特征与预测特征互相交叉指导验证，将验证结果拼接后输出最终预测图，以进一步细化特征信息得到精确的显著图。

10、s3、输入数据集通过res2net-50编码器提取特征信息；

11、s4、输入提取的特征信息由双线性插值上采样和拼接组成的网络通过自上向下的解码方式生成预测特征；

12、s5、输入提取的特征信息通过由双线性插值上采样和拼接组成的倒三角解码器生成预测特征；

13、s6、将预测特征和预测特征通过特征交叉融合网络生成最终预测图；

14、s7、输入数据集训练检测分割初始模型，得到检测分割最终模型。

15、作为优选，所述res2net-50编码器是以resnet50为主干网络，并且在resnet50中每个基本块单个残差块内构造分层的残差类连接。

16、作为优选，所述步骤s3中提取特征信息的方法为：导入数据集中的训练数据提取5层特征，其中，和为低级语义特征，包括图像的纹理信息和颜色信息；、和层为高级语义特征，包括图像的位置信息和上下文内容语义信息；使用conv3+bn+relu操作将每层特征的通道数均降至64通道。

17、作为优选，所述步骤s4中生成预测特征的方法为：输入由步骤s3提取的特征信息，每一次操作时，对上一层特征进行双线性插值上采样，使其尺寸与下一层特征相同，然后采用拼接操作获取特征，随后进行降通道操作，得到预测特征。

18、作为优选，所述步骤s5中生成预测特征的方法为：输入由步骤s3提取的特征信息，使用双线性插值上采样扩大高级语义特征的尺寸，使其与下一级特征具有相同的尺寸，然后将两级特征进行逐元素相乘并与高级语义特征进行拼接，生成位置图，重复上述步骤得到多个位置图，多个位置图两两进行逐元素相乘，得到预测特征。

19、具体的说，本模块共有3个输入，分别为、和。首先对使用双线性插值上采样操作，将其尺寸放大一倍，然后与逐元素相乘，然后与上一层级信息进行拼接操作，得到。对和使用同样的操作，得到。最后对与进行逐元素相乘，得到预测特征。

20、作为优选，所述步骤s6的具体方法为：将预测特征和进过sigmoid操作，映射至0-1区间，经过交叉融合，进一步强化细节特征，然后使用拼接操作得到最终预测图。

21、作为优选，所述步骤s7的具体方法：在训练过程中，使用conv1的卷积层将中间特征的通道数降为1，随后进行sigmoid操作，生成中间预测图，监督中间预测图和最终预测图的输出。

22、作为优选，所述监督的方法为：通过双线性插值上采样放大结果，使其输出的尺寸大小与输入图片相同，然后通过sigmoid操作将预测图的数值输出映射到0-1，通过比较最终预测图和真值图的差异即损失值，观察损失值之和是否收敛来判断网络的训练过程。

23、本发明具有以下的特点和有益效果：

24、结合残差网络、双线性插值上采样和交叉融合等操作，使深度学习网络尽可能的准确识别并分割出复杂背景下的目标，又减轻了网络的训练负担。

25、res2net-50编码器在每个残差块的内部构建特征金字塔结构，进行多尺度的卷积，形成不同感受野，获得不同细粒度的5层特征。通过自上向下的解码方式，利用高级特征逐步指导细化低级特征，以增强相似特征，减弱相异特征。利用倒三角解码器融合高级特征与低级特征，保持不同层级的语义信息一致性并跨层级拼接上下文信息，定位隐藏对象，生成粗糙的预测图。

26、最后使用特征交叉融合解码器，进一步强化细节特征，生成最终准确的预测图。优异的网络结构，配合严谨的模型训练过程，可得到最优参数，进一步提升了目标预测的准确率。

27、另外，与已有公开发明相比，本发明具有网络结构简单明了，训练速度快等优点，并且本发明适用于多种复杂场景下的目标，对难以察觉的目标有着更好的观察效果。本发明结构简单，工程部署更为便利。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王涛王坚王丽吴旭光
技术所有人：杭州电子科技大学
我是此专利的发明人

上一篇：用于病人升降机的驱动系统的制作方法
上一篇：政务事项的申报方法、装置及计算机可读存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。