一种物体姿态的检测方法及装置

文档序号:30647450发布日期:2022-07-05 23:19阅读:109来源:国知局
一种物体姿态的检测方法及装置

1.本发明涉及计算机视觉技术领域,尤其是涉及一种物体姿态的检测方法及装置。


背景技术:

2.在计算机的图像处理中,目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的姿态,物体的姿态是指物体在3d空间中的空间位置xyz,以及物体绕x轴,y轴和z轴旋转的角度。
3.对于人来说,如果我们想要获取一个特定物体,那就必须知道物体在空间内的姿态。对于计算机而言也是一样,在图像中找出最终的目标也需要物体的准确姿态,因此,目标检测一直是计算机视觉领域最具有挑战性的问题。


技术实现要素:

4.本发明提供一种物体姿态的检测方法及装置,通过对图像物体进行拆分识别,能够区分出目标物体的不同组成部件,进而实现目标物体部件的姿态检测。
5.为了解决上述技术问题,本发明实施例提供了一种物体姿态的检测方法,包括:
6.获取图像数据,其中,所述图像数据中具有目标物体;
7.在所述图像数据中获取构成物体的部件及所述部件对应的部件框;
8.基于所述部件和所述部件框在预设的物体结构关系库中的对应信息,得到所述目标物体的类别;
9.根据所述类别和所述部件框的坐标尺寸信息,组合得到所述目标物体;
10.对组合后的所述目标物体进行处理,得到构成所述目标物体的部件的姿态信息。
11.作为其中一种优选方案,所述图像数据包括rgb图像和对应的深度图像;
12.在所述图像数据中获取构成物体的部件及所述部件对应的部件框后,所述方法还包括:
13.计算所述rgb图像中的所述部件框中心点的三维坐标、所述部件在成像平面内的旋转角度和所述部件与视线方向的夹角。
14.作为其中一种优选方案,所述物体结构关系库中具有各类物体的标准对照图。
15.作为其中一种优选方案,所述根据所述类别和所述部件框的坐标尺寸信息,组合得到所述目标物体,具体包括:
16.对所述部件框进行预测,得到若干数量的用于组成目标物体的预测框;
17.筛选所述预测框,得到能够组成所述目标物体的邻接框;
18.基于所述部件框对应的部件和所述邻接框对应的邻接件,组合得到所述目标物体。
19.作为其中一种优选方案,所述对组合后的所述目标物体进行处理,得到构成所述目标物体的部件的姿态信息,具体包括:
20.对所述部件框在所述深度图像中的对应的位置深度进行采样,得到反映构成所述
目标物体的部件的三维坐标;
21.对所述三维坐标进行坐标变换,得到变换后的三维坐标;
22.对所述变换后的三维坐标进行计算,并在归一化处理后得到构成所述目标物体的部件与坐标系的夹角。
23.本发明另一实施例提供了一种物体姿态的检测装置,包括:
24.图像获取模块,用于获取图像数据,其中,所述图像数据中具有目标物体;
25.部件框模块,用于在所述图像数据中获取构成物体的部件及所述部件对应的部件框;
26.物体类别识别模块,用于根据所述部件和所述部件框在预设的物体结构关系库中的对应信息,得到所述目标物体的类别;
27.物体组合模块,用于根据所述类别和所述部件框的坐标尺寸信息,组合得到所述目标物体;
28.姿态获取模块,用于对组合后的所述目标物体进行处理,得到构成所述目标物体的部件的姿态信息。
29.作为其中一种优选方案,所述图像数据包括rgb图像和对应的深度图像;
30.所述装置还包括:
31.坐标夹角计算模块,用于计算所述rgb图像中的所述部件框中心点的三维坐标、所述部件在成像平面内的旋转角度和所述部件与视线方向的夹角。
32.作为其中一种优选方案,所述物体结构关系库中具有各类物体的标准对照图。
33.作为其中一种优选方案,所述物体组合模块包括:
34.预测框单元,用于对所述部件框进行预测,得到若干数量的用于组成目标物体的预测框;
35.邻接框单元,用于筛选所述预测框,得到能够组成所述目标物体的邻接框;
36.组合单元,用于根据所述部件框对应的部件和所述邻接框对应的邻接件,组合得到所述目标物体。
37.作为其中一种优选方案,所述姿态获取模块包括:
38.采用单元,用于对所述部件框在所述深度图像中的对应的位置深度进行采样,得到反映构成所述目标物体的部件的三维坐标;
39.坐标变换单元,用于对所述三维坐标进行坐标变换,得到变换后的三维坐标;
40.计算单元,用于对所述变换后的三维坐标进行计算,并在归一化处理后得到构成所述目标物体的部件与坐标系的夹角。
41.相比于现有技术,本发明实施例的有益效果在于以下所述中的至少一点:在获取到由摄像机拍摄到的图像数据后,首先识别图像中的所有物体的部件,以部件框的形式对其进行标识,然后在预设的物体结构关系库中进行比对查询,得到目标物体的类别,进而根据所述类别和所述部件框的坐标尺寸信息,组合得到所述目标物体,从而实现了目标物体的拆分和组合,最后对组合后的所述目标物体进行处理,得到构成所述目标物体的部件的姿态信息。整个过程能够明晰物体部件之间的组合关系,区分出目标物体的不同组成部件,还能够推算出物体在三维空间中的摆放角度等姿态信息,实现目标物体整体和组成部件的姿态检测。
附图说明
42.图1是本发明其中一种实施例中的物体姿态的检测方法的流程示意图;
43.图2是本发明其中一种实施例中的摄像头成像坐标系示意图;
44.图3是本发明其中一种实施例中的部件对应的部件框的示意图;
45.图4是本发明其中一种实施例中的物体结构关系库中的标准勺子示意图;
46.图5是本发明其中一种实施例中的物体结构关系库中的标准手钻示意图;
47.图6是本发明其中一种实施例中的邻接框的预测示意图。
具体实施方式
48.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
49.在本技术描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
50.在本技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”以及类似的表述只是为了说明的目的,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中的具体含义。
51.在本技术的描述中,需要说明的是,除非另有定义,本发明所使用的所有的技术和科学术语与属于本的技术领域的技术人员通常理解的含义相同。本发明中说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明,对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中的具体含义。
52.本发明一实施例提供了一种物体姿态的检测方法,具体的,请参见图1~图6,其中图1示出为本发明其中一种实施例中的物体姿态的检测方法的流程示意图,图2示出为本发明其中一种实施例中的摄像头成像坐标系示意图,其中z轴正方向为摄像头视线方向,x轴正方向为成像平面水平向右方向,y轴正方向为成像平面竖直向下方向,图3示出为本发明其中一种实施例中的部件对应的部件框的示意图,其中(x,y)为部件框中心坐标,w、h分别为框的宽和高,θ为框旋转角度,图4示出为本发明其中一种实施例中的物体结构关系库中的标准勺子示意图,图5示出为本发明其中一种实施例中的物体结构关系库中的标准手钻示意图,图6示出为本发明其中一种实施例中的邻接框的预测示意图,其中,本发明实施例中的物体姿态的检测方法包括步骤s1~s5:
53.s1、获取图像数据,其中,所述图像数据中具有目标物体;
54.s2、在所述图像数据中获取构成物体的部件及所述部件对应的部件框;
55.s3、基于所述部件和所述部件框在预设的物体结构关系库中的对应信息,得到所述目标物体的类别;
56.s4、根据所述类别和所述部件框的坐标尺寸信息,组合得到所述目标物体;
57.s5、对组合后的所述目标物体进行处理,得到构成所述目标物体的部件的姿态信息。
58.应当说明的是,由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域具有挑战性的问题。现有目标检测方法通过在直框标注的目标检测数据集上进行网络训练获得目标检测网络参数模型,但现有的目标检测技术将物体作为一个整体识别,无法区分物体组成部件,导致在识别过程中丢失物体各个部件的信息,不利于后续对物体进行姿态估计的操作等任务。
59.在本发明实施例中,对于上述步骤s1,优选为通过rgbd相机获取rgb图像,根据对rgb图像的检测结果,计算机可以获取到画面中的直框显示的物体类别和位置。在使用rgbd相机时,通过深度图像可获得物体距离摄像头平面的远近,结合摄像头内外参数可以获得物体在以摄像头为坐标原点的空间直角坐标系中位置。
60.针对现有的无法识别物体拆分部件关系和物体摆放方向的缺点,本发明实施例针对不同物体构建预设的物体结构关系库,其中包含物体的组成部件、组成部件的位置关系、部件长宽比例信息,并结合部件框物体部件检测结果,本发明能够得到物体部件之间的组合关系,进而推算出物体在三维空间中的摆放角度。在这其中,需要结合深度相机给出的深度图像与rgbd相机的内外参数,方能得到相应部件的3d坐标信息,在此不再赘述。
61.进一步地,在上述实施例中,所述图像数据包括rgb图像和对应的深度图像;对于上述步骤s2,对rgbd相机传回的rgb图像进行物体部件检测,得到构成物体的部件及所述部件对应的部件框后,所述方法还包括:
62.将部件框检测结果结合深度图像与rgbd相机的内外参数,计算得出rgb图像中部件框中心点的三维坐标、物体部件在摄像头(相机)成像平面内的旋转角度β和物体部件与视线方向存在的夹角α。其中,上述步骤是基于相机投影变换关系给出的计算。
63.进一步地,对于上述步骤s3,物体结构关系库为预先设置,其具有各类物体的标准对照图(图4中展示了标准勺子,图中展示了标准手钻)。由于本实施例检测的是物体的部件而不是物体的整体,而图像中常常存在多个物体部件,因此难以简单地判断部件的组合关系。在本实施例中,以勺子为例,假如图像中出现多个摆放较近的勺子,对图像进行部件识别后,可以得到多个勺子头和勺柄的检测结果,但此时不易判断目标物体的类别,更难以识别图像中的某一勺子头应该和哪一个勺柄相连,此时就需要根据物体结构关系库中的标准勺子来推理和判断部件之间的组合关系。
64.如图4所述,图4中将一个标准的勺子归一化到1
×1×
1的立方体中,并将勺子按照部件分为勺子头和勺柄,图5中将一个标准的手钻归一化到1
×1×
1的立方体中,并将手钻按照部件分成钻头、手钻主体、手钻把手。由此可见,物体结构关系库可以在部件检测基础上对物体的部件组合方式提供指导。
65.进一步地,在图像中包含的多个部件的检测结果的情况下,需要按照一定规则对
部件进行组合来构成多个完整的物体,组合过程如步骤s4所述,具体来说包括:
66.s41、对所述部件框进行预测,得到若干数量的用于组成目标物体的预测框;
67.s42、筛选所述预测框,得到能够组成所述目标物体的邻接框;
68.s43、基于所述部件框对应的部件和所述邻接框对应的邻接件,组合得到所述目标物体。
69.以勺子为例,在勺子头的基础上,根据勺子头和勺子柄之间存在的组合关系,预测出勺子头的上下左右四个方向均有可能存在一个勺子柄,此时存在四个勺子柄的预测框。
70.对四个预测框进行筛选,根据预测结果与实际邻接部件的检测结果的三维坐标、长宽、角度进行匹配,将角度和顶点之间的距离与预测框最接近的检测结果视为与部件框组合的邻接框(具体距离可以取为余弦距离和欧氏距离的加权和),在得到部件框和邻接框后,即可基于所述部件框对应的部件和所述邻接框对应的邻接件,组合得到所述目标物体。
71.优选地,在上述实施例中,根据物体部件的坐标、给出邻接框的3d中心坐标和长宽,具体计算公式如下:
[0072][0073][0074]
其中,h
predict
、w
predict
分别为邻接件的高、宽,h
part
、w
part
分别为中心部件检测结果的高、宽;h
normalizedneighbor
、w
normalizedneighbor
分别为归一化邻接框的高、宽;h
normalizedcenterpart
、w
normalizedcenterpart
分别为归一化中心框的高、宽。
[0075]
进一步地,在上述实施例中,对于上述步骤s5,具体包括:
[0076]
s51、对所述部件框在所述深度图像中的对应的位置深度进行采样,得到反映构成所述目标物体的部件的三维坐标;
[0077]
s52、对所述三维坐标进行坐标变换,得到变换后的三维坐标;
[0078]
s53、对所述变换后的三维坐标进行计算,并在归一化处理后得到构成所述目标物体的部件与坐标系的夹角。
[0079]
具体的,根据物体部件检测结果对部件框对应的深度图像所在位置的深度进行采样,获取采样点在摄像头坐标系下的三维坐标,结合摄像头内外参数,对采样获得的点的坐标表示进行坐标变换,坐标变换计算公式为:
[0080]
p

=pt
x
tytz[0081]
其中,p

=[x

,y

,z

],为变换后的三维坐标;p=[x,y,z]为变换前的三维坐标;变换矩阵t
x
、ty、tz的表达式分别为:
[0082][0083]
[0084]
其中a、b、c分别是摄像头绕x、y、z轴旋转的角度。
[0085]
在得到物体部件中心和采样点在摄像头笛卡尔坐标系中的三维坐标后,根据采样点z轴坐标与x、y轴坐标比值的反正切函数即可计算出物体部件与摄像头笛卡尔坐标系z轴的夹角α;根据物体采样点之间归一化后x、y轴坐标的二范数可计算出物体与x轴的夹角β。具体计算公式如下:
[0086][0087][0088]
其中,x1,y1,z1为采样点1在摄像头笛卡尔坐标系中的三维坐标,x2,y2,z2为采样点2在摄像头笛卡尔坐标系中的三维坐标。当然,为保证坐标计算准确,可按照不同的分布选择多组采样点并拟合直线计算角度,在此不再赘述。
[0089]
本发明另一实施例提供了一种物体姿态的检测装置,包括:
[0090]
图像获取模块11,用于获取图像数据,其中,所述图像数据中具有目标物体;
[0091]
部件框模块12,用于在所述图像数据中获取构成物体的部件及所述部件对应的部件框;
[0092]
物体类别识别模块13,用于根据所述部件和所述部件框在预设的物体结构关系库中的对应信息,得到所述目标物体的类别;
[0093]
物体组合模块14,用于根据所述类别和所述部件框的坐标尺寸信息,组合得到所述目标物体;
[0094]
姿态获取模块15,用于对组合后的所述目标物体进行处理,得到构成所述目标物体的部件的姿态信息。
[0095]
进一步地,在上述实施例中,所述图像数据包括rgb图像和对应的深度图像;
[0096]
所述装置还包括:
[0097]
坐标夹角计算模块,用于计算所述rgb图像中的所述部件框中心点的三维坐标、所述部件在成像平面内的旋转角度和所述部件与视线方向的夹角。
[0098]
进一步地,在上述实施例中,所述物体结构关系库中具有各类物体的标准对照图。
[0099]
进一步地,在上述实施例中,所述物体组合模块14包括:
[0100]
预测框单元,用于对所述部件框进行预测,得到若干数量的用于组成目标物体的预测框;
[0101]
邻接框单元,用于筛选所述预测框,得到能够组成所述目标物体的邻接框;
[0102]
组合单元,用于根据所述部件框对应的部件和所述邻接框对应的邻接件,组合得到所述目标物体。
[0103]
进一步地,在上述实施例中,所述姿态获取模块15包括:
[0104]
采用单元,用于对所述部件框在所述深度图像中的对应的位置深度进行采样,得到反映构成所述目标物体的部件的三维坐标;
[0105]
坐标变换单元,用于对所述三维坐标进行坐标变换,得到变换后的三维坐标;
[0106]
计算单元,用于对所述变换后的三维坐标进行计算,并在归一化处理后得到构成
所述目标物体的部件与坐标系的夹角。
[0107]
本发明实施例提供的物体姿态的检测方法及装置,有益效果在于以下所述中的至少一点:
[0108]
在获取到由摄像机拍摄到的图像数据后,首先识别图像中的所有物体的部件,以部件框的形式对其进行标识,然后在预设的物体结构关系库中进行比对查询,得到目标物体的类别,进而根据所述类别和所述部件框的坐标尺寸信息,组合得到所述目标物体,从而实现了目标物体的拆分和组合,最后对组合后的所述目标物体进行处理,得到构成所述目标物体的部件的姿态信息。整个过程能够明晰物体部件之间的组合关系,区分出目标物体的不同组成部件,还能够推算出物体在三维空间中的摆放角度等姿态信息,实现目标物体整体和组成部件的姿态检测。
[0109]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1