基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置的制造方法_2

文档序号:9751324阅读:来源:国知局
体识别方法的流程图;
[0046]图2为根据另一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D 物体识别方法的流程图;
[0047] 图3为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物 体识别装置的结构示意图;
[0048] 图4为根据一示例性实施例示出的基于密集匹配的相似性度量的示意图;
[0049]图5a为根据一示例性实施例示出的基于密集匹配的重排序示意图;
[0050]图5b为根据另一示例性实施例示出的基于密集匹配的重排序示意图。
[0051]这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考 特定实施例为本领域技术人员说明本发明的概念。
【具体实施方式】
[0052] 下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方 案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部 分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造 性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。 本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
[0053] 需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明 显,本发明的实现可以没有这些具体细节。
[0054]需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其 中的技术特征可以相互组合而形成技术方案。
[0055]本发明实施例的核心思想是利用密集匹配来自适应待查询物体的尺度、视角、姿 态,从而更加鲁棒的来检索数据库中的物体,并且设计多种密集匹配子来有效的融合RGB和 深度信息来获得高精度的物体识别。
[0056]图1为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物 体识别方法的流程图。如图1所示,该方法至少可以包括步骤S102至步骤S108。
[0057] 步骤S102:提取待查询物体和参考物体的卷积神经网络特征。
[0058] 在该步骤中,卷积神经网络特征是三维矩阵特征。采用卷积神经网络特征来表达 每个像素点,比单纯地用像素值来表达每个像素点具有更强的表达能力。优选地,采用无监 督的卷积神经网络特征来表达每个像素点。通过卷积神经网络特征,来捕捉更加鲁棒的物 体浅层特征(例如边沿信息)以及中层特征(例如物体部件信息),以对物体进行更好的表 达。
[0059]步骤S104:基于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询 物体进行密集匹配。
[0060]在该步骤中,密集匹配的目的是使得参考物体能够按照待查询物体进行形变,从 而使得它们具有相似的尺度、视角和姿态。在本质上,密集匹配是找到从参考物体到待查询 物体的映射关系。
[0061 ] 举例而言,做出如下定义:Iq表示待查询物体,Ir表示参考物体,pi = (X,y)表示参 考物体Ir的一个像素点,p/ =(,)表示待查询物体Iq中与Pl相匹配的那个像素点,记t = (dx,dy)为位移量。
[0062] 则:Ir中的每个像素都能在^中找到对应的匹配像素,即:
[0063] (x7 ,y7 ) = (x,y) + (dx,dy) (1)
[0064] 在一个可选的实施例中,为了对参考物体和待查询物体进行密集匹配,借鉴光流 中的图匹配方法,并将RGB和深度信息融合进来,定义一个包含数据位移项
丨勺能量函数E(ti):
[0065]
') (!)
[0066]其中,U表示待查询物体中第i个像素点在参考物体中找到的对应像素点的位移 量;k表示待查询物体中第j个像素点在参考物体中找到的对应像素点的位移量;01(^)表 示两个匹配的像素点的卷积神经网络特征之间的差异;λ表示限定待查询物体中相邻像素 点的结构关系的一个阈值;α和β表示数据项、平移项和平滑项之间的加权系数。
[0067]本领域技术人员应该能够理解:上述定义只是为了更好地说明本发明实施例,不 视为是对本发明保护范围的不当限定。
[0068] 通过对公示(2)中的能量函数进行最小化,就可以使得Iq*每个像素点都尽可能 的在Ir中找到最相似的像素点,并且保证I q中邻近的像素点在Ir中找到的相似点也是邻近 的。这样,就能找到Iq中每一点在I冲相对应的点,即得到映射关系Μ: Ir- Iq。
[0069] 下面对公示(2)中的每一项进行说明。
[0070] 数据项 D是用来衡量待查询物体和参考物体这两个物体RGB和深度特征的 差异性。与传统的光流的数据项相比,本发明实施例中的数据项包含了RGB和深度信息。
[0071] 在一个可选的实施例中:
[0072] Di(ti) = 0 · [frgb(pi | Ir)-frgb(pi+ti | Iq) ] +
[0073] (3)
[0074] (1-θ) · [fdepth(pi I Ir)-fdepth(pi+ti I Iq)].
[0075] 其中,5社匕|1<1),5的匕|1:)是指待查询物体和参考物体的1^图片中第1个像素 点提取的卷积神经网络特征;fdepth(Pi I Iq),fdepth(Pi I Ir)是指提取的深度特征;Θ是指RGB和 深度信息的融合系数。
[0076] 位移项为11范数,用来对不期望出现的较大的形变进行惩罚。 平滑巧
彳来保证邻近的像素的位移具有相似性,从而保证 物体的局部结构具有相似性。
[0077]在实际应用中,在对能量函数E(tl)进行最小化的时候,即在使得待查询物体和参 考物体的匹配关系满足下列关系:a.表观特征相似的像素点尽可能地匹配在一起(由数据 项控制);b.相匹配的像素点位移不会太大,即限制物体之间不会存在太大的形变变化(由 位移项控制);c.在待查询物体中邻近的局部像素点在参考物体中找到的匹配点也是邻近 的(由平滑项控制),这样能够保证物体的局部结构进行相似性匹配。
[0078] 经过密集匹配之后,参考物体能够自适应待查询物体的尺度、视角以及姿态。
[0079] 步骤S106:基于密集匹配的结果,度量参考物体和待查询物体之间的相似性。
[0080] 为了对物体进行识别,在一个可选的实施例中,将公式(2)得到的能量函数量化成 相似度分数,即为:
[0081]

[0082]其中,γ表示尺度化因子;DKt)表示两个匹配的像素点的卷积神经网络特征之间 的差异;se(Ir I Iq)表示参考物体和待查询物体之间的相似度分数。
[0083] 图4为根据一示例性实施例示出的基于密集匹配的相似性度量的示意图。图4示出 了带匹配的物体对经过密集匹配之后的结果,以及再对密集匹配结果进行相似性度量之后 的结果的示意图。从图中可以了解到经过相似性度量之后得到的RGB图片和深度图片的情 况。
[0084] 由于密集匹配可能会出现错误的匹配,造成误差。因此,在估计γ时采用的是鲁棒 预测法。即:丢掉前5%误差最大的匹配能量值,将剩下
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1