一种基于多阶段神经网络的透明物体深度图像修复方法

文档序号:31302142发布日期:2022-08-27 05:15阅读:149来源:国知局
一种基于多阶段神经网络的透明物体深度图像修复方法

1.本发明涉及一种透明物体深度图像修复方法。


背景技术:

2.深度图像是由深度相机拍摄获得的一种特殊图像,深度图像记录了物体与相机之间的距离信息,是基于视觉的机器人技术中十分重要的距离信息来源。随着深度相机的普及和计算机视觉研究的深入,能够将日益发展的计算机视觉技术引入机器人的研究领域,如基于视觉的机器人抓取、导航避障等。由于透明物体所具有的独特光学性质,光线经过透明物体时发生了折射或镜面反射,使得当前的深度相机无法捕获到透明物体的深度信息。因此,在基于计算机视觉的机器人技术中,无法较好地对透明物体进行处理,这导致了机器人无法抓取透明物体、导航避障无法识别到玻璃障碍物等问题。
3.传统的透明物体识别和深度修复方法过于依赖外部设备,需要固定背景、固定装置等,限制了其在不同场景环境下的泛化能力,无法大规模地应用。而一些基于神经网络的修复方法其推理速度过慢,效率过低,这对于追求实时检测、抓取的机器人来说是不可接受的。


技术实现要素:

4.本发明克服了现有技术上的上述缺点,提出一种基于多阶段神经网络的透明物体修复方法。
5.本发明的一种基于多阶段神经网络的透明物体深度图像修复方法,包括以下步骤:
6.s1.读取需要输入的彩色rgb图像i
rgb
,相对应的深度图像i
dep

7.s2.对读取的图片进行放缩处理,使用双线性插值将图像分辨率调整为网络所需要的分辨率height
×
width。height表示图像纵向的分辨率,width表示图像横向的分辨率。
8.s3.使用deeplab v3+网络模型获得分割图像iseg,公式如下:
9.i
seg
=deeplab(i
rgb
)
ꢀꢀ
(1)
10.其中,deeplab()表示deeplab v3+网络模型,如图2所示。
11.s4:去除深度图像中的噪声。使用预测出的分割图像i
seg
,将深度图像中i
dep
属于透明物体像素的深度值修改为0,从而去除深度图像中的噪声。公式如下:
[0012][0013]
其中表示分割图像中位于i行、j列的像素,表示深度图像位于i行、j列个像素。
[0014]
s5.使用动态卷积层初步提取图像特征,公式如下:
[0015]
[0016]
其中conv
dynamic
()表示动态卷积层,f
rgb0
表示对i
rgb
提取到的初始特征,f
dep0
表示对i
dep
提取到的初始特征。
[0017]
s6.使用编解码器架构提取第一阶段的特征。公式如下:
[0018][0019]
其中unet()表示编解码器架构的unet子网络模型,如图3所示。f
rgb1
表示对f
rgb0
进行特征提取得到的特征,f
dep1
表示对f
dep0
进行特征提取得到的特征。
[0020]
s7.生成空间注意力图。公式如下:
[0021][0022]
其中sab()表示空间注意力模块,sa
rgb
表示对f
rgb1
进行解码得到的空间注意力图,sa
dep
表示对f
dep1
进行解码得到的空间注意力图。
[0023]
s8.生成第一阶段修复图像out
rgb
与out
dep
。公式如下:
[0024][0025]
其中dec()表示解码模块,用来输出修复后的结果。out
rgb
表示对f
rgb1
解码得到的结果,out
dep
表示对f
dep1
解码得到的结果。
[0026]
s9.对预测结果进行融合得到第一阶段的输出结果out1。公式如下:
[0027]
out1=sa
rgb
·
out
rgb
+sa
dep
·
out
dep
ꢀꢀ
(7)
[0028]
s10.将f
rgb1
与f
dep1
相加得到融合特征f1,输入第二阶段的子网络提取特征。公式如下:
[0029][0030]
其中f2表示第二阶段网络提取到的特征。
[0031]
s11.使用解码模块对特征f2解码,得到第二阶段的输出结果out2。
[0032]
s12.将特征f2输入第三阶段的网络得到特征f3。公式如下:
[0033]
f3=ornet(f2)
ꢀꢀ
(9)
[0034]
其中ornet()表示带有空间注意力的尺度不变网络,如图4所示。
[0035]
s13.使用解码模块对特征f3解码,得到第三阶段的输出结果out3。
[0036]
s14.使用空间注意力模块预测输出结果out1的空间注意力图sa1,输出结果out2的空间注意力图sa2,输出结果out3的空间注意力图sa3。
[0037]
s15.对各阶段的输出结果进行融合即可得到修复后的深度图像i
out
。公式如下:
[0038]iout
=sa1·
out1+sa2·
out2+sa3·
out3ꢀꢀ
(10)
[0039]
与现有技术相比,本发明具有以下优点:
[0040]
(1)解决了合成数据集和真实环境数据集的差异问题,使该方法能够在真实环境数据集下取得较好结果,提高了方法的泛化性。
[0041]
(2)修复准确率提升。该发明提出的多阶段网络,动态卷积层能够对全局信息动态
生成适合于当前图片的卷积核参数;尺度不变网络则能够对精细的细节进行修复。
[0042]
(3)模型推理速度快。该发明提出的网络在gpu上的平均推理速度为0.02s,与先前的方法相比,推理速度提升了100倍。
附图说明
[0043]
图1为本发明方法总体流程图。
[0044]
图2为本发明方法中数据处理网络结构图。
[0045]
图3为本发明方法中编解码器网络结构图。
[0046]
图4为本发明方法中尺度不变网络结构图。
具体实施方式
[0047]
为了能够更容易理解本发明的过程,本发明将结合实例对本发明进行详细描述。
[0048]
s1.读取需要输入的彩色rgb图像i
rgb
,相对应的深度图像i
dep

[0049]
s2.对读取的图片进行放缩处理,使用双线性插值将图像分辨率调整为网络所需要的分辨率height
×
width。height表示图像纵向的分辨率,width表示图像横向的分辨率。
[0050]
s3.使用deeplab v3+网络模型获得分割图像i
seg
,公式如下:
[0051]iseg
=deeplab(i
rgb
)
ꢀꢀ
(11)
[0052]
其中,deeplab()表示deeplab v3+网络模型,如图2所示。
[0053]
s4:去除错误深度信息部分的设计。使用预测出的分割图像i
seg
,将深度图像中i
dep
属于透明物体像素的深度信息修改为0,从而去除错误的深度信息。公式如下:
[0054][0055]
其中表示分割图像中位于i行、j列的像素,表示深度图像位于i行、j列个像素。
[0056]
s5.使用动态卷积层对图像特征的初步提取。公式如下:
[0057][0058]
其中conv
dynamic
()表示动态卷积层,f
rgb0
表示对i
rgb
提取到的初始特征,f
dep0
表示对i
dep
提取到的初始特征。
[0059]
s6.使用编解码器架构提取第一阶段的特征。公式如下:
[0060][0061]
其中unet()表示编解码器架构的unet子网络模型,如图3所示。f
rgb1
表示对f
rgb0
进行特征提取得到的特征,f
dep1
表示对f
dep0
进行特征提取得到的特征。
[0062]
s7.生成空间注意力图。公式如下:
[0063][0064]
其中sab()表示空间注意力模块,sa
rgb
表示对f
rgb1
进行解码得到的空间注意力图,
sa
dep
表示对f
dep1
进行解码得到的空间注意力图。
[0065]
s8.生成第一阶段修复图像out
rgb
与out
dep
。公式如下:
[0066][0067]
其中dec()表示解码模块,用来输出修复后的结果。out
rgb
表示对f
rgb1
解码得到的结果,out
dep
表示对f
dep1
解码得到的结果。
[0068]
s9.对预测结果进行融合得到第一阶段的输出结果out1。公式如下:
[0069]
out1=sa
rgb
·
out
rgb
+sa
dep
·
out
dep
ꢀꢀ
(17)
[0070]
s10.将f
rgb1
与f
dep1
相加得到融合特征f1,输入第二阶段的子网络提取特征。公式如下:
[0071][0072]
其中f2表示第二阶段网络提取到的特征。
[0073]
s11.使用解码模块对特征f2解码,得到第二阶段的输出结果out2。
[0074]
s12.将特征f2输入第三阶段的网络得到特征f3。公式如下:
[0075]
f3=ornet(f2)
ꢀꢀ
(19)
[0076]
其中ornet()表示带有空间注意力的尺度不变网络,如图4所示。
[0077]
s13.使用解码模块对特征f3解码,得到第三阶段的输出结果out3。
[0078]
s14.使用空间注意力模块预测输出结果out1的空间注意力图sa1,输出结果out2的空间注意力图sa2,输出结果out3的空间注意力图sa3。
[0079]
s15.对各阶段的输出结果进行融合即可得到修复后的深度图像i
out
。公式如下:
[0080]iout
=sa1·
out1+sa2·
out2+sa3·
out3ꢀꢀ
(20)
[0081]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1