三维场景定位方法、装置和设备与流程

文档序号:37935990发布日期:2024-05-11 00:14阅读:9来源:国知局
三维场景定位方法、装置和设备与流程

本发明涉及图像处理,具体涉及一种三维场景定位方法、装置和设备。


背景技术:

1、室内视觉定位技术可以实现基于rgb图像,在图像中定位目标物体的位置,已经广泛应用在国内工业与服务业。

2、但是目前一般的室内视觉定位技术,无法确定物体在现实场景中的实际位置,而利用rgb-d图像的三维场景定位技术,需要将室内拍摄的多帧图像生成的多个点云融合为一个完整点云作为输入,才能实现定位,数据采集困难,而且面对多个相似物体如不同颜色的椅子时,无法实现精确定位。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种三维场景定位方法、装置和设备,以克服目前室内图像定位效果差的问题。

2、为实现以上目的,本发明采用如下技术方案:

3、第一方面,本申请实施例提供一种三维场景定位方法,包括:

4、获取目标图像和与所述目标图像对应的深度信息;

5、对所述目标图像进行检测和分割,生成多个第一候选物体图像;

6、基于所述目标图像和所述深度信息,确定各所述第一候选物体图像的第一关键点三维坐标;

7、将所述第一候选物体图像、所述第一关键点三维坐标和包含有待定位物体信息的第一文本提示输入至预测模型中,得到由所述预测模型输出的与待定位物体对应的第一目标候选物体图像的信息;

8、基于所述目标图像和所述深度信息,确定与所述第一目标候选物体图像的信息对应的完整三维坐标;

9、将所述完整三维坐标作为所述待定位物体的坐标。

10、进一步地,所述深度信息包括深度图像。

11、进一步地,所述基于所述目标图像和所述深度信息,确定与所述第一目标候选物体图像的信息对应的完整三维坐标,包括:

12、基于所述目标图像,确定与所述第一目标候选物体图像的信息对应的像素坐标;

13、基于所述深度图像,确定与所述第一目标候选物体图像的信息对应的深度信息;

14、基于所述像素坐标和所述深度信息,确定所述完整三维坐标。

15、进一步地,所述预测模型的构建过程包括:

16、获取目标数据集;

17、基于所述目标数据集训练得到所述预测模型;

18、其中,所述目标数据集包括:候选物体图像子集、关键点三维坐标子集和属性子集;所述候选物体图像子集中包含多个第二候选物体图像;所述关键点三维坐标子集中包含与各所述第二候选物体图像一一对应的第二关键点三维坐标;所述属性子集中包含与所述第二候选物体图像一一对应的属性,所述属性包括颜色和类别中的至少一种。

19、进一步地,所述获取目标数据集,包括:

20、获取基础数据集和扩充数据集;其中,所述基础数据集包括基础候选物体图像子集、基础关键点三维坐标子集和基础属性子集;所述基础候选物体图像子集中包含多个基础第二候选物体图像;所述基础关键点三维坐标子集中包含与各所述基础第二候选物体图像一一对应的基础第二关键点三维坐标;所述基础属性子集中包含与各所述基础第二候选物体图像一一对应的属性,所述属性包括颜色和类别中的至少一种;

21、用所述扩充数据集中的候选物体图像替换所述基础候选物体图像子集中的至少部分基础第二候选物体图像;

22、基于标准正态分布偏移更新所述基础第二关键点三维坐标子集中的三维坐标,和更新所述基础属性子集中的属性;

23、将经替换操作后的基础候选物体图像子集作为所述候选物体图像子集;将经更新后的基础关键点三维坐标子集作为所述关键点三维坐标子集;将经更新后的基础属性子集作为所述属性子集,得到所述目标数据集。

24、进一步地,所述预测模型包括:编码器模块和解码器模块,所述基于所述目标数据集训练得到所述预测模型,包括:

25、基于所述候选物体图像子集,提取得到候选物体图像特征;

26、基于所述关键点三维坐标子集,提取得到关键点三维坐标特征;

27、基于所述属性子集和所述关键点三维坐标子集,生成第二文本提示;

28、将所述候选物体图像特征顺序输入至所述编码器模块中,以及将对应所述关键点三维坐标特征输入至所述编码器模块中,得到编码器输出结果;和将所述编码器输出结果和第二文本提示特征,输入至所述解码器模块中,训练得到所述预测模型;其中,所述第二文本提示特征基于所述第二文本提示生成。

29、进一步地,在所述将所述候选物体图像特征顺序输入至所述编码器模块中之前,还包括:

30、基于线性层转换原理,将所述候选物体图像特征、所述关键点三维坐标特征和所述第二文本提示特征的长度转换为目标长度。

31、进一步地,所述基于所述关键点三维坐标子集,提取得到关键点三维坐标特征,包括:

32、基于所述关键点三维坐标子集,提取得到基础关键点三维坐标特征;

33、在所述基础关键点三维坐标特征中,加入位置编码,得到所述关键点三维坐标特征。

34、第二方面,本申请实施例还提供一种三维场景定位装置,包括:

35、获取模块,用于获取目标图像和与所述目标图像对应的深度信息;

36、检测分割模块,用于对所述目标图像进行检测和分割,生成多个第一候选物体图像;

37、第一坐标确定模块,用于基于所述目标图像和所述深度信息,确定各所述第一候选物体图像的第一关键点三维坐标;

38、确定模块,用于将所述第一候选物体图像、所述第一关键点三维坐标和包含有待定位物体信息的第一文本提示输入至预测模型中,得到由所述预测模型输出的与待定位物体对应的第一目标候选物体图像的信息;

39、第二坐标确定模块,用于基于所述目标图像和所述深度信息,确定与所述第一目标候选物体图像的信息对应的完整三维坐标,并将所述完整三维坐标作为所述待定位物体的坐标。

40、第三方面,本申请实施例还提供一种三维场景定位装置,包括处理器和存储器,所述处理器与存储器相连:

41、其中,所述处理器,用于调用并执行所述存储器中存储的程序;

42、所述存储器,用于存储所述程序,所述程序至少用于执行上述的三维场景定位方法。

43、本发明涉及图像处理技术领域,具体涉及一种三维场景定位方法、装置和设备,该方法具体包括:获取目标图像和与目标图像对应的深度信息;对目标图像进行检测和分割,生成多个第一候选物体图像,以及得到各第一候选物体图像的第一关键点三维坐标;将第一候选物体图像、第一关键点三维坐标和包含有待定位物体信息的第一文本提示输入至预测模型中,得到与待定位物体对应的第一目标候选物体图像的信息;进而得到与第一目标候选物体图像的信息对应的完整三维坐标,并将其作为待定位物体的坐标。如此,只需要一张图像和其对应深度信息,就可以实现对图像中物体的现实三维定位。



技术特征:

1.一种三维场景定位方法,其特征在于,包括:

2.根据权利要求1所述的三维场景定位方法,其特征在于,所述深度信息包括深度图像。

3.根据权利要求2所述的三维场景定位方法,其特征在于,所述基于所述目标图像和所述深度信息,确定与所述第一目标候选物体图像的信息对应的完整三维坐标,包括:

4.根据权利要求1所述的三维场景定位方法,其特征在于,所述预测模型的构建过程包括:

5.根据权利要求4所述的三维场景定位方法,其特征在于,所述获取目标数据集,包括:

6.根据权利要求4所述的三维场景定位方法,其特征在于,所述预测模型包括:编码器模块和解码器模块,所述基于所述目标数据集训练得到所述预测模型,包括

7.根据权利要求6所述的三维场景定位方法,其特征在于,在所述将所述候选物体图像特征顺序输入至所述编码器模块中之前,还包括:

8.根据权利要求6所述的三维场景定位方法,其特征在于,所述基于所述关键点三维坐标子集,提取得到关键点三维坐标特征,包括:

9.一种三维场景定位装置,其特征在于,包括:

10.一种三维场景定位设备,其特征在于,包括处理器和存储器,所述处理器与存储器相连:


技术总结
本发明涉及图像处理技术领域,具体涉及一种三维场景定位方法、装置和设备,该方法具体包括:获取目标图像和与目标图像对应的深度信息;对目标图像进行检测和分割,生成多个第一候选物体图像,以及得到各第一候选物体图像的第一关键点三维坐标;将第一候选物体图像、第一关键点三维坐标和包含有待定位物体信息的第一文本提示输入至预测模型中,得到与待定位物体对应的第一目标候选物体图像的信息;进而得到与第一目标候选物体图像的信息对应的完整三维坐标,并将其作为待定位物体的坐标。如此,只需要一张图像和其对应深度信息,就可以实现对图像中物体的现实三维定位。

技术研发人员:王志伟,谭泽汉,杨双赫,胡道君,高彩红
受保护的技术使用者:珠海格力智能装备有限公司
技术研发日:
技术公布日:2024/5/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1