一种基于手绘草图的目标物可抓取点检测方法及系统

文档序号：29737324发布日期：2022-04-21 18:03阅读：106来源：国知局

1.本发明涉及机器人视觉抓取技术领域，尤其是涉及一种基于手绘草图的目标物可抓取点检测方法及系统。

背景技术：

2.对比于自然语言的描述形式，手绘草图是一种对人类而言更直观的表达方式来描述他们所看到的物体。草图也是人类基于对物体语义信息理解的基础上进行的一种抽象化表达形式。目前大多数现有技术已经能够实现机器人理解自然语言并与人类进行适当的交互，但是仍无法应用于现实生活中的一些无法用语言表达的场景。例如，面对无法组织语言的失语症患者，该类患者知道他们想要的物体但是无法用语言的形式来描述该物体；面对对尚未能流利用语言进行交流的婴幼儿童；面对突然忘记某种物体的名字但尚能知道该物体的外观的情况等等。机器人如果能够理解手绘草图，就能够依赖手绘草图的方式与机器人进行更高效的交互，就能够很好的解决上述实际生活中的场景，为人们带来便利。
3.但是，相比于自然语言而言，理解草图是非常具有挑战的：(1)手绘草图是一种稀疏的表示，其用于描述对象时具有一定的抽象性或隐含性；(2)草图具有较大的类内变化，对于同一个物体，不同用户个体的草图的风格都是独一无二的；(3)草图和自然图像之间存在较大的域间变化，反映了二者原始像素的不同分布；并且(4)很难获得大量配对的草图和自然图像来训练网络模型。
4.近年来，在人机交互方面，已有工作一些工作开始利用手绘草图作为一种新颖的人机交互接口，如采用直接手绘的室内场景的地图来引导移动机器人进行导航，实现更友好的人机交互形式。然而在服务机器人(特别是在机器人抓取)领域，目前大多数的人机交互方式多通过人工编程或者自然语言来实现，鲜有工作关注到利用草图的方式引导机器人抓取用户描述的特定物体。在草图检索方面，现有技术大都通过手绘草图，检索与草图描绘内容一致的自然图片。然而这种检索的的方法仅仅只能从图像库筛选相似的最高的图片(图片中通常仅包含显著的主体物体)，而实际的机器人抓取应用往往需要对场景中的目标物体的可抓取区域进行定位，而且该场景通常含有多个随意摆放的物体。在抓取点检测方面，不同于现有的抓取点检测方法，现有方法大部分都是直接检测场景中所有物体的可抓取点，检测出的可抓取点较为凌乱，常常遇到机器人无法识别的情况。

技术实现要素：

5.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种有效实现基于草图引导机器人完成抓取目标物任务、网络收敛快、泛化能力强的基于手绘草图的目标物可抓取点检测方法及系统。
6.本发明的目的可以通过以下技术方案来实现：
7.一种基于手绘草图的目标物可抓取点检测方法，所述的可抓取点检测方法包括：
8.步骤1：获取标注好抓取框的自然场景图片集以及和场景中物体对应的手绘草图
样本集，并对样本进行预处理；
9.步骤2：将草图和目标物体可抓取框进行配对，构建训练集；
10.步骤3：构建基于草图内容为引导的可抓取框检测网络；
11.步骤4：训练基于草图内容为引导的可抓取框检测网络；
12.步骤5：使用训练好的可抓取框检测网络定位自然场景图片中与草图内容相符的物体所对应的可抓取框。
13.优选地，所述的步骤1具体为：
14.样本集中手绘草图是基于自然场景图片集中的自然场景图片绘制的，每一张手绘草图上均预设标注有抓取框，将手绘草图表示为有向图的结构：
15.s＝{v,ε}
[0016][0017][0018]
其中，v为草图笔画中顶点v(i)的二维坐标集合；ns为草图笔画中顶点的数量；ε为空笔画中相邻顶点构成的边；v(i)～v
(j)
表示同一笔画中v(i)v
(j)
为相邻顶点；
[0019]
将可抓取框表示为带旋转的矩形框，使用5维向量来参数化，该5维向量包含矩形框的中心坐标(x,y)、长宽参数(h,w)和旋转角度θ。
[0020]
优选地，所述的步骤2具体为：
[0021]
对于每张自然场景图片中每个类别的物体，从草图库随机分配对应类别的草图给该类物体，然后将分配到的对应草图和所属该类物体对应的所有可抓取框真实标注捆绑为所述的草图-目标物体可抓取框数据对。
[0022]
优选地，所述步骤3中基于草图内容为引导的可抓取框检测网络具体为：
[0023]
步骤3-1：利用深度特征提取模块提取草图全局特征向量和自然场景图片的特征图，并获取其相关性特征图；
[0024]
步骤3-2：生成可抓取区域提议框和抓取框；
[0025]
步骤3-3：构建损失函数。
[0026]
更加优选地，所述的步骤3-1具体为：
[0027]
步骤3-1-1：使用图卷积网络gcn对图结构的手绘草图进行全局特征提取；
[0028]
步骤3-1-2：使用残差网络resnet对自然图片进行特征提取获得空间特征图；
[0029]
步骤3-1-3：利用草图全局特征在自然图片上提取的空间特征图上进行检索，获得该全局特征与空间特征图上每个区域的相关性特征图。
[0030]
更加优选地，所述的步骤3-1-3具体为：
[0031]
将全局特征向量与特征图进行哈达玛积操作：
[0032][0033]
得到特征图中每个局部位置特征和全局特征向量的相关性；
[0034]
然后对相关性特征图和自然图片的空间特征图进行合并和线性投影降维得到最终的特征图其中h和w分别为输入网络的图片的高和宽。
[0035]
更加优选地，所述的步骤3-2具体为：
[0036]
步骤3-2-1：将步骤3-1获得的最终的特征图输入区域提议网络rpn，分别预测每个锚框i内存在的目标草图相关内容的可抓取区域参数和置信分数然后将预测的可抓取区域按照置信度分数从高到低进行排序，取置信度最高的n个抓取提议框，送入后续的的感兴趣区域检测头roi head；
[0037]
步骤3-2-2：感兴趣区域检测头roi head进行抓取区域参数预测；
[0038]
感兴趣区域检测头roi head回归可抓取框参数并将抓取框的角度预测作为分类任务，将置信度最高的类别对应的角度作为可抓取框的旋转角度。
[0039]
更加优选地，所述的步骤3-3具体为：
[0040]
损失函数包括抓取区域提议损失函数和抓取区域检测损失函数，两类损失函数均由回归损失和分类损失构成，回归损失具体为平滑l1范数损失函数，分类损使具体为交叉熵损失函数。
[0041]
优选地，所述的步骤4具体为：采用梯度下降的反向传播算法训练可抓取框检测网络。
[0042]
一种基于手绘草图的目标物可抓取点检测系统，所述的可抓取点检测系统包括：
[0043]
场景图片获取模块，用于采集自然场景图片；
[0044]
手绘草图获取模块，用于采集用户绘制的草图，并将其转换为图结构；
[0045]
目标物体可抓取点检测模块，内嵌上述基于手绘草图的目标物可抓取点检测方法，用于从多个物体的场景图片中检测与草图内容对应的物体的可抓取框。
[0046]
与现有技术相比，本发明具有以下有益效果：
[0047]
一、有效实现基于草图引导机器人完成抓取目标物任务：本发明中的基于手绘草图的目标物可抓取点检测方法及系统在获取场景图片、用户绘制的草图后，通过基于手绘草图的目标物体可抓取点检测网络，从而搜索图片中与草图所对应的物体的可抓取框，相比于现有技术中的方法和系统，本发明首次提出一种利用手绘草图作为机器人抓取任务中的新型人机交互接口，用于引导机器人完成抓取用户描述的目标物体的任务。
[0048]
二、网络收敛快，泛化能力强：本发明中的基于手绘草图的目标物可抓取点检测方法及系统利用图结构表示草图，用图卷积提取草图特征，使得网络模型在模型参数量更小且仅需少量手绘草图训练样本的情况下，使得网络收敛更快，具有更好的泛化能力。
附图说明
[0049]
图1为本发明中目标物可抓取点检测方法的流程示意图；
[0050]
图2为本发明实施例中可抓取框参数化和将草图图结构化的示意图；
[0051]
其中，图2(a)为物体可抓取框参数化的示意图片，图2(b)为手绘草图经过图结构化的示意图片；
[0052]
图3为本发明实施例的一种基于手绘草图来检测目标物体可抓取点方法的网络结构图；
[0053]
图4为本发明实施例的一种基于手绘草图来检测目标物体可抓取点方法的任务示
意图。
具体实施方式
[0054]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。
[0055]
一种基于手绘草图的目标物可抓取点检测方法，其流程如图1所示，包括：
[0056]
步骤1：获取标注好抓取框的手绘草图样本集以及对应的自然场景图片集，并对样本进行预处理；
[0057]
步骤2：将草图和目标物体可抓取框进行配对，构建训练集；
[0058]
步骤3：构建基于草图内容为引导的可抓取框检测网络；
[0059]
步骤4：训练基于草图内容为引导的可抓取框检测网络；
[0060]
步骤5：使用训练好的可抓取框检测网络定位自然场景图片中与草图内容相符的物体所对应的可抓取框。
[0061]
下面分别对各步骤进行详细描述：
[0062]
一、步骤1
[0063]
样本集中手绘草图是基于自然场景图片集中的自然场景图片绘制的，每一张手绘草图上均预设标注有抓取框。
[0064]
如图2所示，将手绘草图表示为有向图的结构：
[0065]
s＝{v,ε}
[0066][0067][0068]
其中，v为草图笔画中顶点v(i)的二维坐标集合；ns为草图笔画中顶点的数量；ε为空笔画中相邻顶点构成的边；v(i)～v
(j)
表示同一笔画中v(i)v
(j)
为相邻顶点，因此草图就被表示为点的集合和每个笔画中相邻点对的集合。
[0069]
将可抓取框表示为带旋转的矩形框，使用5维向量来参数化，该5维向量包含矩形框的中心坐标(x,y)、长宽参数(h,w)和旋转角度θ。
[0070]
二、步骤2
[0071]
获取配对的草图-目标物体可抓取框的训练样本。每张场景图片中通常包含多个物体，每个物体都有对应的类别标注和多个可抓取框的真实值标注，而且草图库中每个类别下都有各种各样的手绘草图样本。因此，对于每张自然场景图片中每个类别的物体，从草图库随机分配对应类别的草图给该类物体，然后将分配到的对应草图和所属该类物体对应的所有可抓取框真实标注捆绑为所述的草图-目标物体可抓取框数据对。对于一个场景中的一个的物体，其可以拥有多个真实的可抓取框标注，因此一个草图可配对多个抓取框。
[0072]
三、步骤3
[0073]
如图3所示，基于草图内容为引导的可抓取框检测网络具体为：
[0074]
步骤3-1：利用深度特征提取模块提取草图全局特征向量和自然场景图片的特征图，并获取其相关性特征图；
[0075]
步骤3-1-1：使用图卷积网络gcn对图结构的手绘草图进行全局特征提取，具体为：
[0076]
图卷积网络由四个边卷积edgeconv模块以残差连接方法相连来构成，每个边卷积模块输出的特征为：
[0077][0078]
然后将每个边卷积输出的特征进行拼接并进行最大池化操作，得到全局特征向量
[0079]
步骤3-1-2：使用残差网络resnet对自然图片进行特征提取获得空间特征图，具体为：
[0080]
使用在imagenet上进行预训练过的resnet-50网络的前40层来提取场景图片的特征图
[0081]
步骤3-1-3：利用草图全局特征在自然图片上提取的空间特征图上进行检索，获得该全局特征与空间特征图上每个区域的相关性特征图，具体为：
[0082]
将全局特征向量与特征图进行哈达玛积操作：
[0083][0084]
得到特征图中每个局部位置特征和全局特征向量的相关性；
[0085]
然后对相关性特征图和自然图片的空间特征图进行合并和线性投影降维得到最终的特征图其中h和w分别为输入网络的图片的高和宽。
[0086]
步骤3-2：生成可抓取区域提议框和抓取框；
[0087]
步骤3-2-1：将步骤3-1获得的最终的特征图输入区域提议网络rpn，分别预测每个锚框i内存在的目标草图相关内容的可抓取区域参数和置信分数然后将预测的可抓取区域按照置信度分数从高到低进行排序，取置信度最高的n个抓取提议框，送入后续的的感兴趣区域检测头roi head；本实施例在训练阶段n取512，测试阶段n取300；
[0088]
步骤3-2-2：感兴趣区域检测头roi head进行抓取区域参数预测；
[0089]
感兴趣区域检测头roi head回归可抓取框参数并将抓取框的角度预测作为分类任务，将置信度最高的类别对应的角度作为可抓取框的旋转角度；
[0090]
本实施例将角度离散化为18类：
[0091]
{10
°
,20
°
,
…
180
°
}
[0092]
加上额外的一类情况：当该抓取框与草图内容无关。因此，该分类任务对每个可抓取区域进行一个19分类的任务进行学习。
[0093]
步骤3-3：构建损失函数，具体为：
[0094]
损失函数包括抓取区域提议损失函数和抓取区域检测损失函数，两类损失函数均
由回归损失和分类损失构成，回归损失具体为平滑l1范数损失函数，分类损使具体为交叉熵损失函数。
[0095]
四、步骤4
[0096]
用梯度下降的反向传播算法训练可抓取框检测网络，本实施例利用sgd优化器对网络进行优化，动量优化系数为0.9，权重衰减系数为0.0005。总共训练大约50k轮迭代直至收敛，初始学习率为0.005，每过2600轮迭代学习率降为原来的0.75。
[0097]
五、步骤5
[0098]
图4为本发明实施例的一种基于手绘草图来检测目标物体可抓取点方法的任务示意图，如图4所示，在模型训练完成之后，对于给定的一个手绘草图和场景图片，将手绘草图变成图结构，和自然图片一起输入网络，直接输出得到场景图片中与草图内容相符的物体所对应的可抓取框。
[0099]
本实施例还涉及一种基于手绘草图的目标物可抓取点检测系统，包括：
[0100]
场景图片获取模块，用于采集自然场景图片；
[0101]
手绘草图获取模块，用于采集用户绘制的草图，并将其转换为图结构；
[0102]
目标物体可抓取点检测模块，内嵌上述基于手绘草图的目标物可抓取点检测方法，用于从多个物体的场景图片中检测与草图内容对应的物体的可抓取框。
[0103]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：付彦伟林海涛薛向阳
技术所有人：复旦大学
我是此专利的发明人

上一篇：一种可快速装卸的恒温运输箱的制作方法
上一篇：一种负极材料及其制备方法和应用与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。