针对RGB-D图像的显著目标检测方法

文档序号:35134340发布日期:2023-08-16 16:58阅读:92来源:国知局
针对RGB-D图像的显著目标检测方法

本发明涉及深度学习和rgb-d显著目标检测领域,特别涉及一种在低质量深度图情况下改善rgb-d显著目标检测系统性能的方法。


背景技术:

1、在机器视觉任务中,显著目标检测(sod),是一种模拟人类视觉感知系统来定位场景中最吸引人的物体的方法。当前,显著目标检测在很多现实应用中发挥着关键作用,如语义分割、目标跟踪和动作识别等。随着传感技术进步,深度传感器能够有效捕获场景中丰富的空间深度信息,生成深度图,有望提升显著目标检测的性能。

2、当前,针对rgb图与深度图结合的rgb-d图像的显著目标检测,得到了广泛的关注和研究。但是,目前的rgb-d显著目标检测方法,主要是基于双流模型和多尺度融合策略,利用深度信息进行跨模态融合,而忽略了前景和背景相似以及低对比度等挑战性环境下的深度图质量问题对显著性图预测的影响。同时,在融合过程中忽略了rgb图和深度图不同区域的重要性不同的事实,使得不必要的附加信息在网络中充当噪声,难以生成准确的显著性掩码。

3、基于此,一种能够提供更高质量的显著性图预测结果的显著目标检测方法亟待研究。


技术实现思路

1、本发明的目的在于提供一种针对rgb-d图像的显著目标检测方法,能够在低质量深度图情况下改善rgb-d显著目标检测系统性能,用以至少解决现有技术中的一个技术问题。

2、本发明的技术方案是:

3、一种针对rgb-d图像的显著目标检测方法,包括:

4、按指定数量采样rgb图和深度图样本,形成采样数据,并采用数据增强技术对所述采样数据进行预处理,得到待处理数据;

5、特征提取阶段的各层跨模态融合中,使用注意力机制推理显著区域,以确定不同区域的显著性程度,各层次融合得到低级特征和高级特征;

6、在特征引导中,对所述高级特征和所述低级特征进行拼接和卷积操作,得到rgb特征和深度特征的联合特征;

7、根据所述rgb特征和深度特征的联合特征动态分配rgb图和深度图特征的权值,得到显著目标检测模型;

8、根据所述显著目标检测模型实现显著目标检测结果。

9、所述“特征提取阶段的各层跨模态融合中,使用注意力机制推理显著区域,以确定不同区域的显著性程度,各层次融合得到高级特征和低级特征”,包括:

10、按指定数量采集rgb图和深度图样本,并利用数据增强技术处理所述rgb图和深度图样本;

11、在特征提取网络对输入的所述rgb图和深度图样本进行特征提取;所述特征提取网络内运用注意力机制进行特征的跨模态优化,将优化后的特征各自作为下层的输入;

12、选取特定层次特征通过特征融合得到低级特征;其他层次特征和空洞空间卷积池化金字塔的输出特征通过特征融合得到高级特征。

13、所述特征提取网络包括两个独立的vgg16分支;

14、每个vgg16分支分为5个子层;

15、vgg16的第五子层的输出要经过空洞空间卷积池化金字塔,该空洞空间卷积池化金字塔由四个膨胀卷积组成,卷积核大小和膨胀率为[k=1,d=1;k=3,d=6;k=3,d=12;k=3,d=18];其中,k代表卷积核的大小,d代表膨胀卷积的膨胀率。

16、所述“运用注意力机制进行特征的跨模态优化,将优化后的特征各自作为下层的输入”,包括:

17、将特征提取网络内的两个所述独立的vgg16分支中对应子层的特征作为特征优化的输入,并获取空间注意得分,得到空间注意力权重矩阵s*(sr、sd),具体如下:

18、s*=σ(f1×1(f3×3(f));

19、其中,f为rgb特征或深度特征;f3×3为rgb特征或深度特的3×3卷积;f1×1为rgb特征或深度特的1×1卷积;σ为sigmoid函数;

20、基于所述空间注意得分,将空间注意力权重矩阵按元素相乘和相加,得到经过空间注意力处理后的各个层次的特征,如下式:

21、

22、其中,f*为输入对应的rgb特征或深度特征;s*为rgb特征或深度特征的空间注意力权重矩阵;是经过空间注意力计算后的特征;sr为rgb特征的空间注意力权重矩阵;sd为深度特征的空间注意力权重矩阵;

23、将一个c×h×w的特征先分别将其送入一个1×1的卷积;然后,分别进行一个空间的全局平均池化avgpool和最大池化maxpool得到两个c×1×1的通道描述;

24、将得到的两个通道描述相加后经过一个sigmoid激活函数得到通道注意力权重系数c*(cr、cd),c*为rgb特征的通道注意力权重系数cr或者深度特征的通道注意力权重系数cd。

25、通过c*与得到经通道注意力处理后的特征

26、

27、将得到的经过自注意力机制后得到经特征优化后的输出,作为下一子层的输入;

28、将在第3维度进行展开,将展开后的特征分别经过wq、wk、wv线性矩阵得到q、k、v矩阵;

29、利用下式得到作为下一子层的输入:

30、

31、其中,dk表示k的维度;s为softmax函数;m是将计算后的特征展开的逆操作,然后与进行残差连接。

32、所述“选取特定层次特征通过特征融合得到低级特征;其他层次特征和空洞空间卷积池化金字塔的输出特征通过特征融合得到高级特征”,包括:

33、所述特征提取网络内设置2个独立的vgg16分支,分别为rgb分支和深度分支;

34、所述vgg16分支,包括:5个子层和1个空洞空间卷池化金字塔;

35、将1、2、3子层的输出特征作为低级特征进行特征融合,并将4、5子层的输出以及空洞空间卷积池化金字塔的输出作为高级特征进行特征融合;

36、在进行特征融合后,分别得到所述rgb分支和所述深度分支对应的低级特征和高级特征。

37、所述“对所述高级特征和所述低级特征进行拼接和卷积操作,得到rgb特征和深度特征的联合特征”,包括:

38、通过高级特征对低级特征进行引导,确定低级特征的显著区域并保留边缘细节,得到引导后的低级特征;

39、将所述引导后低级特征的显著区域和高级特征执行连接操作,得到最终的rgb特征和深度图特征;

40、将最终的rgb特征和深度图特征经过拼接后得到rgb特征和深度特征的联合特征。

41、所述高级特征对低级特征的引导的步骤,包括:

42、将高级特征进行上采样保持,并将高级特征与低级特征进行连接,得到连接后的特征;

43、将所述连接后的特征经过卷积层后得到兼具边缘细化和显著区域明显的特征;

44、将所述引导后的低级特征再次与所述高级特征连接,并送入卷积,分别得到对应rgb和深度的最终特征,并将所述最终特征在通道维度连接为联合特征。

45、所述“根据所述rgb特征和深度特征的联合特征动态分配rgb图和深度图特征的权值,得到显著目标检测模型”,包括:

46、所述联合特征经过权值分配得到rgb特征和深度特征对最终预测的贡献度权重;

47、将所述贡献度权重与所述联合特征进行乘法运算,并经过解码器得到最终的显著预测图;

48、将所述显著预测值图与标签真值进行损失函数计算,并采用梯度下降法更新所述特征提取网络,且当特征提取网络损失值达到收敛时,得到所述显著目标检测模型。

49、对所述联合特征[fr;fd]进行卷积、归一化和relu函数激活;

50、经过4×4平均池化后,在通道维度对联合特征特征进行展平;

51、得到由两个权重值pr、pd组成的向量wp,分别表示联合特征中fr、fd的贡献度;并利用如下公式得到输入特征矩阵fall:

52、fall=[fr×pr;fd×pd]

53、将fall的值输入到解码器中,输出最终的显著图预测值ipred;

54、并且,对所述联合特征[fr;fd]在通道维度求和,得到一个单通道矩阵ps;并利用如下公式获取距离矩阵ds:

55、ds=|ps-[fr;fd]|;

56、分别对通道数在0≤k<c和c≤k<2c两个范围内分别获取距离平均值,得到第一平均距离值dr和第二平均距离值dd;

57、通过下述公式得到向量wp对应的真值wgt的两个元素:

58、

59、采用l1损失函数计算wp和wgt的l1距离,通过下述公式来计算损失值lwam:

60、

61、其中,i表示权重值个数;rgb和深度的最终特征fr、fd。

62、所述“采用梯度下降法更新所述特征提取网络”,包括:

63、采用混合损失函数来监督所述显著目标检测模型训练,包括二元交叉熵损失函数、并交比损失函数、lwam损失函数;

64、所述的混合损失函数设计如下:

65、l=λ1lbce+λ2liou+λ3lwam;

66、其中,lbce为二元交叉熵损失函数,liou为交并比损失函数,λ1、λ2、λ3分别表示加权系数;

67、所述二元交叉熵损失函数的定义为:

68、

69、所述并交比损失函数定义为:

70、

71、其中,igt为真值标签,igt的取值为{0,1},其中0表示非显著区域,1表示显著区域;ipred为预测值;(x,y)代表当像素点位置;igt(x,y)代表真值标签当中的第x行y列的像素点值;ipred(x,y)代表预测值标签当中的第x行y列的像素点值。

72、本发明的有益效果至少包括:

73、本发明所述的方法,在特征提取阶段的各层跨模态融合中,使用注意力机制推理显著区域,以确定不同区域的显著性程度;同时,对高级特征和低级特征进行卷积操作,以确定低级特征的显著区域并保留边缘细节;而且,在两个分支的最终特征执行连接操作后,动态分配rgb图和深度图特征的权值;本发明所述的方法能够较好的检测出显著目标,且能够较好的应对深度图对比度低的场景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1