一种面向拆垛分拣的包装箱快速识别分割方法与流程

文档序号：17470283发布日期：2019-04-20 05:46阅读：451来源：国知局

本发明属于物流分拣技术领域，尤其涉及一种面向拆垛分拣的包装箱快速识别分割方法。

背景技术：

目前，业内常用的现有技术是这样的：

在现代物流行业中，拆跺分拣包装箱耗费大量人力，人们一直尝试用机器人取代人进行这一繁重而又重复的工作。由机器人替代人来进行拆跺分拣的首要问题在于：如何对密集的包装箱进行准确的分割和识别，从而引导机器人进行精确地抓取。实际中包装箱的尺寸变化范围很大，摆放的角度和姿态不定，而且可能出现在图片的任何地方，因此对包装箱的检测失败率很高。而现有的对包装箱的分割和识别方法，在实际的应用场景还有很大的局限。目前算法大多根据经典的图像处理方法对包装箱进行检测，比如主流的边缘检测算法和sift特征匹配算法等等。然而这些方法受场景中的光照和遮挡等因素影响很大，鲁棒性不高，很难在实际产品中得到应用。

近年来，深度学习在物体分割和识别领域崭露头角，逐渐取代传统视觉方法而成为目标检测领域的主流算法。深度学习模型由于其强大的表示能力，对图像中的不同种类和姿态物体检测效果显著，加之计算力的进步，计算检测时间接近甚至少于传统算法。但是简单地移植现有的深度学习模型到包装箱的检测问题中来，效果却差强人意，主要原因在于：包装箱拆跺分拣相比于一般的目标检测问题，其物品过于密集，尺寸大小以及高度参差不齐，箱子纹理图案也千差万别，而现有目标检测模型大多都是根据2d的rgb图片进行识别和分割，很容易混淆箱子纹理与箱子边缘，导致对该场景的分割准确率很低。

综上所述，现有技术存在的问题是：

现有技术中，简单地移植现有的深度学习模型到包装箱的检测问题中来，效果差强人意，包装箱拆跺分拣相比于一般的目标检测问题，其物品过于密集，尺寸大小以及高度参差不齐，箱子纹理图案也千差万别；现有目标检测模型大多都是根据2d的rgb图片进行识别和分割，很容易混淆箱子纹理与箱子边缘，导致对该场景的分割准确率很低。

解决上述技术问题的难度和意义：

难度：相比于一般的目标检测问题，拆跺分拣场景下包装箱的识别分割更为复杂和困难。其难度在于首先包装箱是密集摆放堆叠，使得包装箱之间的间隙很小，分界边线很难区分；其次包装箱纹理图案千差万别，色彩的差异性对分割识别干扰性巨大，很容易混淆箱子间的边界线和纹理线；再者箱子的尺寸大小各异，摆放不定，对箱子朝向和抓取面估计十分困难。

意义：因此，解决包装箱的识别分割问题，是物流装卸自动化技术的首要基础，为机器人的准确抓取提供有力保证，极大地降低了机器人对货物毁坏的几率，提高了装卸的成功率和效率。

技术实现要素：

针对现有技术存在的问题，本发明提供了一种面向拆垛分拣的包装箱快速识别分割方法。

本发明是这样实现的，一种面向拆垛分拣的包装箱快速识别分割方法，具体包括以下步骤：

本发明的分割步骤具体为：通过kinect图像拍摄得到一组颜色(rgb)和深度(depth)图片，首先对深度图进行过滤和增强处理，然后将这一组颜色和深度图片输入给改进的maskrcnn网络，网络通过运算，输出得到箱子的分割和检测结果。网络的结构如第二部分所述。

步骤一：maskrcnn网络设计结构：包括主干特征提取网络，特征金字塔网络，区域提取网络，预测网络；

步骤二：改进的maskrcnn网络设计结构：从输入端增加深度通道，在特征金字塔后再增加一个特征金字塔结构，在各个层取出对应的特征区域后，加入一个特征融合层，融合所有层级的特征图后再输入给后续的包装箱预测网络；

步骤三：数据增强与处理：利用blender软件进行虚拟数据渲染，对深度图采用融合中位数法进行过滤和增强，对网络输入数据进行变换增强；

步骤四：错误数据收集和模型的迭代增强：对错误数据进行收集，采用人工标注的方式对真实采集的错误图片进行处理，处理后的图片作为后续模型增强的训练数据。

进一步，步骤一中，主干特征提取网络具体为：

选取resnet101网络作为主干网络，resnet101可以分为5个阶段，分别对应着5中不同尺度的特征图输出，特征图输入给特征金字塔网络(fpn)。

进一步，步骤一中，接收主干特征提取网络的五个阶段的特征图，进一步融合增强特征图。

进一步，步骤一中，区域提取网络为：

区域提取网络接收特征金字塔增强之后的各层级特征图，初始预测图像空间中物体的大小和位置，输出所有可能包围物体的区域提取框。

进一步，步骤一中，预测网络为：

预测网络接收特征金字塔的特征图和区域提取网络输出的提取框，预测最终的物体区域的大小、位置、物体的分类，以及区域中属于物体的像素(mask)。

进一步，步骤二中，改进的maskrcnn网络结构设计分为五个部分：主干特征提取网络，特征双金字塔网络，区域提取网络，特征层融合网络，预测网络。

进一步，步骤二中，特征双金字塔网络，包含一个由下而上的金字塔结构，为了加快信息的流动，操作为：

(1)下一层级的特征图首先经过一个2倍降采样，然后和当前的特征图层进行相加操作，再经过一个卷积得到新的当前特征图层；

(2)继续传给上一层级特征图；

(3)将得到的每个层级的特征图输入给后续的特征融合层。

进一步，步骤二中，区域提取网络，网络的输入是第一个金字塔增强后的各层级特征图。

进一步，步骤二中，特征层融合网络，该网络接收特征双金字塔网络的四个特征图层，以及区域提取网络的输出提取框。

进一步，步骤二中，特征层融合网络，具体为：

(1)在每个特征图层上框出对应的特征区域；

(2)对所有层的区域特征进行concate操作，随后进行一个卷积以及非线性变换，其输出将作为后续预测网络的输入。

进一步，步骤三中，虚拟数据渲染，具体为：

(1)利用blender软件进行模拟，用网络收集以及实际拍摄得到的包装箱纹理图片作为数据库，在虚拟环境中进行包装箱的几何建模；

(2)从数据库中随机抽取图片进行纹理贴图，同时随机一定的光照强度以及虚拟相机拍摄角度，模拟不同光照不同视角的拍摄效果；

(3)进行虚拟渲染快速得到大量训练图片数据。

进一步，步骤三中，对深度数据进行加强，具体为：

(1)在深度图来源上，kinect相机在单帧深度图上往往有部分随机噪声，因此对连续多帧数据进行融合可以有效减少噪声的出现；采用中位数法，设置采集连续八帧数据对深度进行增强。

(2)在数据缺失区域的填补算法上采用加权联合双边滤波法，联合颜色和深度图，在数据缺失的区域进行填补。

进一步，步骤三中，对网络输入数据进行变换增强，包括：

(1)对输入图片实施旋转平移变换进行模拟；

(2)在图像空间中加入随机噪声来增强对kinect深度的噪声的承受能力。

进一步，步骤四中，对错误数据进行收集，具体为：

(1)分割错误，导致机器人抓取的失败，此时机器人抓取失败的信号会传给主机，主机立刻把当前帧的图片保存到后端的文件夹中，作为数据备份；

(2)当错误数据积累到一定数量或者当天机器人抓取结束之后，会将错误数据传回云端服务器进行后续处理；

(3)云端服务器采用人工标注的方式对真实采集的错误图片进行处理，所有处理后的图片将作为后续模型增强的训练数据。

进一步，步骤四中，模型增强，具体为：

(1)从这些少量数量中抠出对应的箱子纹理，在blender中进行虚拟渲染，增强新的数据集；

(2)固定改进的maskrcnn网络前半部分的参数，只对预测网络部分的参数权重进行微调，此时只用增强后的错误数据集训练，并且设置较小的学习率；

(3)只固定主干特征提取网络的参数，对后面所有网络进行微调，此时融合老的数据集以及新的错误增强数据集进行训练，并且设置较小的学习率。

综上所述，本发明的优点及积极效果为：本发明的改进的maskrcnn网络模型，该模型在maskrcnn基础之上，有以下创新点：1.从输入端增加了深度通道；2.在特征金字塔后再增加一个特征金字塔结构；3.在各个层取出对应的特征区域后，加入一个特征融合层，融合所有层级的特征图后再输入给后续的包装箱预测网络。训练改进的maskrcnn模型(即第二部分)的数据来源，分虚拟数据集和真实采集数据集。核心主要包括以下几点：1.利用blender软件进行虚拟数据渲染，可以得到虚拟数据集；2.对真实采集数据深度图采用融合中位数法进行过滤和增强，提高真实采集数据的质量。3.真实和虚拟数据都可以采用数据增强技术进一步增大数据量(包括平移、旋转、调整对比度等措施)。第四部分是介绍如何在后续应用中逐步加强改进的maskrcnn(即第二部分)，主要包括两点：1.对真实数据中出现出错的图片进行保存，然后进行人工标注。2.提出了一种模型进行重训练的方式，目的是为了使模型能够融入对错误数据的正确分割能力，进而让模型得到增强。

本发明在两个方面对深度数据进行加强。第一在深度图来源上，kinect相机在单帧深度图上往往有部分随机噪声，因此对连续多帧数据进行融合可以有效减少噪声的出现。为了兼顾数据采集速度以及质量，本发明设置采集连续八帧数据来增强深度，增强的方法可以采用均值法或者中位数法。由于这里设置的采集数量为八帧，数据过少，一两个极端噪声值会使得均值法的误差过大，因此采用中位数法更为实用。第二在数据缺失区域的填补算法上采用加权联合双边滤波法，联合颜色和深度图，在数据缺失的区域进行填补。通过以上两种方式，可以将深度图的质量大大提高，减少实际中噪声过大对网络检测物体效果下降的影响。

本发明是基于目前最新的目标检测网络maskrcnn进行的改进，为了适应实际的包装箱的拆跺分拆场景，在maskrcnn检测网络中加入了depth的通道，融合了深度的信息。同时对网络层的特征进行了进一步的融合增强，结果表明，本发明能够对包装箱的进行精确地定位和分割，准确率大大得到了提升。

本发明对比了原始maskrcnn和改进后的maskrcnn的效果。实验数据采用了在物流仓库采集的232张图片，然后进行人工标注，统计得到包装箱的总数为1678个。用该数据集对两种方法进行测试，记录检测出的箱子个数，以及分割成功的个数，其中分割是否成功用指标交并比(iou)来判断。结果表明改进后的maskrcnn更好地对包装箱进行识别检测，相比于普通的maskrcnn，漏检率降低了80％，分割成功率提高了11.5％。

一个maskrcnn分割失败而改进的maskrcnn分割成功的事例。该场景包含两个要识别的箱子，一个小箱子压在大箱子之上。由于直接从颜色(rgb)图中很难区分小箱子是大箱子的纹理还是单独的个体，导致了maskrcnn的分割失败。但在改进的maskrcnn中加入了深度通道，通过深度的特征信息便很容易区分出这是两个箱子。这就说明了改进的maskrcnn在拆跺分拣场景中的适用性更强，识别分割能力更为出众。

附图说明

图1是本发明实施例提供的面向拆垛分拣的包装箱快速识别分割方法流程图。

图2是本发明实施例提供的maskrcnn的网络结构示意图。

图3是本发明实施例提供的特征金字塔网络操作示意图。

图4是本发明实施例提供的区域提取网络操作示意图。

图5是本发明实施例提供的预测网络操作示意图。

图6是本发明实施例提供的改进的maskrcnn网络设计结构示意图。

图7是本发明实施例提供的虚拟渲染示意图。

图8是本发明实施例提供的增强前后深度示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明从三维视觉入手，针对包装箱拆跺分拣场景的特点，提供一种基于rgbd的识别分割网络，能够对各个包装箱进行精确的定位和分割，从而为机器人的准确抓取提供有力保证。

下面结合附图对本发明的应用原理进行进一步详细说明；

如图1所述，本发明实施例提供的面向拆垛分拣的包装箱快速识别分割方法，具体包括以下步骤：

s101：maskrcnn网络设计结构：包括主干特征提取网络，特征金字塔网络，区域提取网络，预测网络；

s102：改进的maskrcnn网络设计结构：从输入端增加深度通道，在特征金字塔后再增加一个特征金字塔结构，在各个层取出对应的特征区域后，加入一个特征融合层，融合所有层级的特征图后再输入给后续的包装箱预测网络；

s103：数据增强与处理：利用blender软件进行虚拟数据渲染，对深度图采用融合中位数法进行过滤和增强，对网络输入数据进行变换增强；

s104：错误数据收集和模型的迭代增强：对错误数据进行收集，采用人工标注的方式对真实采集的错误图片进行处理，处理后的图片作为后续模型增强的训练数据。

步骤s101中，本发明实施例提供的主干特征提取网络具体为：

选取resnet101网络作为主干网络，resnet101分为5个阶段，分别对应着5中不同尺度的特征图输出，特征图输入给特征金字塔网络(fpn)。

步骤s101中，本发明实施例提供的接收主干特征提取网络的五个阶段的特征图，进一步融合增强特征图。

步骤s101中，本发明实施例提供的区域提取网络为：

区域提取网络接收特征金字塔增强之后的各层级特征图，初始预测图像空间中物体的大小和位置，输出所有可能包围物体的区域提取框。

步骤s101中，本发明实施例提供的预测网络为：

预测网络接收特征金字塔的特征图和区域提取网络输出的提取框，预测最终的物体区域的大小、位置、物体的分类，以及区域中属于物体的像素(mask)。

步骤s102中，本发明实施例提供的改进的maskrcnn网络结构设计分为五个部分：主干特征提取网络，特征双金字塔网络，区域提取网络，特征层融合网络，预测网络。

步骤s102中，本发明实施例提供的特征双金字塔网络，包含一个由下而上的金字塔结构，为了加快信息的流动，操作为：

(1)下一层级的特征图首先经过一个2倍降采样，然后和当前的特征图层进行相加操作，再经过一个卷积得到新的当前特征图层；

(2)继续传给上一层级特征图；

(3)将得到的每个层级的特征图输入给后续的特征融合层。

步骤s102中，本发明实施例提供的区域提取网络，网络的输入是第一个金字塔增强后的各层级特征图。

步骤s102中，本发明实施例提供的特征层融合网络，该网络接收特征双金字塔网络的四个特征图层，以及区域提取网络的输出提取框。

步骤s102中，本发明实施例提供的特征层融合网络，具体为：

(1)在每个特征图层上框出对应的特征区域；

(2)对所有层的区域特征进行concate操作，随后进行一个卷积以及非线性变换，其输出将作为后续预测网络的输入。

步骤s103中，本发明实施例提供的虚拟数据渲染，具体为：

(1)利用blender软件进行模拟，用网络收集以及实际拍摄得到的包装箱纹理图片作为数据库，在虚拟环境中进行包装箱的几何建模；

(2)从数据库中随机抽取图片进行纹理贴图，同时随机一定的光照强度以及虚拟相机拍摄角度，模拟不同光照不同视角的拍摄效果；

(3)进行虚拟渲染快速得到大量训练图片数据。

步骤s103中，本发明实施例提供的对深度数据进行加强，具体为：

(2)在数据缺失区域的填补算法上采用加权联合双边滤波法，联合颜色和深度图，在数据缺失的区域进行填补。

步骤s103中，本发明实施例提供的对网络输入数据进行变换增强，包括：

(1)对输入图片实施旋转平移变换进行模拟；

(2)在图像空间中加入随机噪声来增强对kinect深度的噪声的承受能力。

步骤s104中，本发明实施例提供的对错误数据进行收集，具体为：

(1)分割错误，导致机器人抓取的失败，此时机器人抓取失败的信号会传给主机，主机立刻把当前帧的图片保存到后端的文件夹中，作为数据备份；

(2)当错误数据积累到一定数量或者当天机器人抓取结束之后，会将错误数据传回云端服务器进行后续处理；

(3)云端服务器采用人工标注的方式对真实采集的错误图片进行处理，所有处理后的图片将作为后续模型增强的训练数据。

步骤s104中，本发明实施例提供的模型增强，具体为：

(1)从这些少量数量中抠出对应的箱子纹理，在blender中进行虚拟渲染，增强新的数据集；

(2)固定改进的maskrcnn网络前半部分的参数，只对预测网络部分的参数权重进行微调，此时只用增强后的错误数据集训练，并且设置较小的学习率；

(3)只固定主干特征提取网络的参数，对后面所有网络进行微调，此时融合老的数据集以及新的错误增强数据集进行训练，并且设置较小的学习率。

下面结合具体实施例对本发明的应用原理进行进一步详细说明；

实施例1；

本发明实施例提供的面向拆垛分拣的包装箱快速识别分割方法，具体包括以下步骤：

(一)maskrcnn网络设计结构

如图2所示，本发明实施例提供的maskrcnn的网络结构示意图。

该网络可以分为四个部分：主干特征提取网络，特征金字塔网络，区域提取网络，预测网络。

主干特征提取网络：这里选取resnet101网络作为主干网络，resnet101可以分为5个阶段，记为[c1，c2，c3，c4，c5]，每一个阶段的特征ci都是通过一系列卷积、非线性变换得到的，这5个阶段分别对应着5中不同尺度的特征图输出，每一阶段的特征图尺寸是上一个阶段的二分之一，这些特征图用来输入给后续的特征金字塔网络(fpn)。

特征金字塔网络：特征金字塔网络接收主干特征提取网络的五个阶段的特征图，进一步融合增强特征图。由于ci特征图其级别越高语义信息更为丰富，而低级别的特征图主要包含几何信息，语义信息比较匮乏，为了给低层级特征图融入语义信息，更好地加强特征图对不同尺寸物体的表示能力，设计了金字塔结构由上至下地增强每一层级的特征图。上一级层的特征图首先经过一个2倍的卷积上采样，得到和当前层级尺寸一样的特征图。同时当前层级的特征图实施1*1的卷积，使得特征的通道数和变换之后的上一级层的特征图匹配。最后将两个层级的特征图进行相加操作，后续经过非线性变换等操作得到加强之后的当前层级特征图。详细操作见下图所示。

如图3所示，本发明实施例提供的特征金字塔网络操作示意图。

区域提取网络：区域提取网络接收特征金字塔增强之后的各层级特征图，该网络用来初始预测图像空间中物体的大小和位置，输出是所有可能包围物体的区域提取框。

如图4所示，本发明实施例提供的区域提取网络操作示意图。

预测网络：预测网络接收特征金字塔的特征图和区域提取网络输出的提取框，该网络用来预测最终的物体区域的大小、位置、物体的分类，以及区域中属于物体的像素(mask)。

预测网络分为两个分支，一个分支经过卷积、全连接直接输出物体的分类以及大小位置的偏移量。另一个分支处理比较复杂，采用了全卷积网络，输出了属于物体像素的图像掩码。

如图5所示，本发明实施例提供的预测网络操作示意图。

maskrcnn在包装箱物体检测方面相比于其他传统算法有着独特的优势，效果显著。但是包装箱拆跺分拣场景过于复杂：箱子大小尺寸差别较大；箱子纹理过于丰富，与箱子之间的间隙混淆不清；个别箱跺中同一箱子重复较多，且箱子之间间隙很小；大小箱子错落，小箱子压在大箱子上时，小箱子与大箱子的纹理相互干扰，混淆不清。这些因素导致maskrcnn的效果还远没有达到实际应用的需求。

(二)改进的maskrcnn网络设计结构

如图6所示，本发明实施例提供的改进的maskrcnn网络设计结构示意图。

针对maskrcnn网络在包装箱拆跺分拣场景中的缺陷，本发明对maskrcnn网络进行了改进，上图是改进之后的maskrcnn的网络。该网络保留了原网络的框架结构，但加入了几个新的模块，主要有三个方面的显著不同：

1.是从输入端增加了深度通道，从源头上加强了信息的输入。这样网络可以从颜色和深度两个方面的综合信息对图像中的包装箱进行识别和分割。由于深度信息的加入，对纹理与箱子间隙的混淆以及大小箱子错落的情况起到了很好的针对性作用。

2.在特征金字塔后再增加一个特征金字塔结构，实现由下往上的信息融合，目的是为了让低层几何信息更好地融入高层的语义特征层。原有的高层特征图虽也含有低层几何信息，但是该金字塔结构对高层的特征实现了进一步的加强。

3.在各个层取出对应的特征区域后，发明加入了一个特征融合层，融合所有层级的特征图后再输入给后续的包装箱预测网络。原来的maskrcnn的做法是将每一层的特征都拿来进行预测，但是发明发现有效地融合各个层的特征之后再进行预测效果更为出众。

下面在原来的maskrcnn网络基础上，详细介绍改进后的maskrcnn网络的结构设计。改进后maskrcnn网络结构设计可以分为五个部分：主干特征提取网络，特征双金字塔网络，区域提取网络，特征层融合网络，预测网络。

主干特征提取网络：这里依然选取resnet101网络作为主干网络，resnet101可以分为5个阶段，记为[c1，c2，c3，c4，c5]，和原网络相同。主要区别在于：在c2之前，将resnet101分成两个分支，分别用来接收输入rgb图像和深度图像，注意的是两个分支并不共享权重参数。同时由于深度图像是单通道输入，需要将resnet101第一阶段的第一个卷积的输入通道数改为1通道。两个分支在经过resnet101网络的阶段一和阶段二处理之后，再进行特征层的融合，两个分支特征层的融合方式是首先进行concate操作，随后进行一个卷积变换，得到融合后新的resnet101阶段二的特征图层。后续网络处理与原有网络相同。

特征双金字塔网络：特征双金字塔网络接收主干特征提取网络的五个阶段的特征图，进一步融合增强特征图。将第一个金字塔网络得到增强后的特征图层记为[p2，p3，p4，p5]，每个级层的特征图尺寸是上一层级的2倍。因为信息流首先是从低层级到高层级流动，所以尽管经过多层卷积后依然保留了些许低层几何信息，但是这时高层级的几何信息已经比较弱化，为了加强高层特征的几何信息，

发明再设计另一个由下而上的金字塔结构。为了加快信息的流动，相比于第一个金字塔结构，这里简化了部分操作：下一层级的特征图首先经过一个2倍降采样，然后和当前的特征图层进行相加操作，再经过一个卷积得到新的当前特征图层，然后继续传给上一层级特征图。最终发明将得到的每个层级的特征图输入给后续的特征融合层。

区域提取网络：区域提取网络与原有的maskrcnn网络相同，不在此赘述，需要注意的是这里网络的输入是第一个金字塔增强后的各层级特征图。

特征层融合网络：该网络接收特征双金字塔网络的四个特征图层，以及区域提取网络的输出提取框。在每个特征图层上框出对应的特征区域，然后对所有层的区域特征进行concate操作，随后进行一个卷积以及非线性变换，其输出将作为后续预测网络的输入。

预测网络：预测网络与原有的maskrcnn网络相同。

(三)数据增强与处理

数据的好坏直接决定了网络的预测效果。网络设计再巧妙，如果没有合适的数据，也不能发挥其强大的表示能力。因此发明在数据处理上设计了一套完整的算法，能够对数据进行有效地利用，使得网络在仅有的数据集上发挥更大的预测功效。本处的数据处理算法分为三个部分介绍：1.虚拟数据渲染；2.深度图的过滤和增强；3.输入数据变换增强；

1.虚拟数据渲染：真实数据的采集数量是有限的，而且耗费巨大的时间和人力。随着3d渲染技术的逐渐成熟，在3d建模软件中构建真实世界的场景变得更为方便和简单，其渲染得到的图片不仅可以模拟不同情景不同光照的效果，而且真实感极强。由此虚拟渲染成为增强数据集的一种行之有效的手段。

本发明利用blender软件进行模拟，用网络收集以及实际拍摄得到的包装箱纹理图片作为数据库，在虚拟环境中进行包装箱的几何建模，然后从数据库中随机抽取图片进行纹理贴图，同时随机一定的光照强度以及虚拟相机拍摄角度，模拟不同光照不同视角的拍摄效果，最后进行虚拟渲染快速得到大量训练图片数据。

在虚拟环境中，可以追踪每个物体在图片中像素的位置，因此省去了时间耗费巨大的标注过程。另外，为了得到密集的包装箱拆跺场景，这里采用了3d箱子码垛算法，计算生成箱子密集摆放的坐标位置，产生多层箱体密集摆放，以及不同尺寸箱体参差错落的效果。虚拟渲染图如图7所示。

如图7所示，本发明实施例提供的虚拟渲染示意图。

2.深度图的过滤和增强：本发明对包装箱拆跺分拣场景的数据采集来源于kinectv2相机，kinectv2成本低，能够同时采集颜色和深度图片，其颜色分辨率为1920*1080，深度分辨率为512*424，相比于昂贵的激光传感器，kinectv2虽然在精度上有所差距，但价格优势比较明显。kinectv2的深度图存在噪声问题，特别是在物体边缘，深度缺失比较严重。为了提高深度图的质量，在图片进入网络输入之前，需要对原始深度图进行噪点去除和空洞区域填补。

如图8所示，本发明实施例提供的增强前后深度示意图。

3.网络输入数据变换增强:在数据集有限的情况下，可以对输入数据进行适当变换达到数据增强的效果。实际场景，同一个包装箱在不同的光照下有不同呈现效果，因此在图片进入网络前可以加入随机的明暗对比度变化；其次包装箱的摆放角度姿态千差万别，这里对输入图片实施旋转平移变换进行模拟；再者，还可以在图像空间中加入随机噪声来增强对kinect深度的噪声的承受能力。

(四)错误数据收集与模型增强

用改进的maskrcnn网络训练得到的模型来预测实际场景中的包装箱，其识别和分割效果大幅度提高。但是深度学习网络并不能保证每次百分之百预测正确，总有个别复杂的包装箱出现问题。为了让模型预测能力随着时间的推移逐步增强，本发明设计了一套错误数据收集与模型增强机制。

首先对错误数据设计了收集机制：由于分割错误，会导致机器人抓取的失败，此时机器人抓取失败的信号会传给主机，主机立刻把当前帧的图片保存到后端的文件夹中，作为数据备份。当错误数据积累到一定数量或者当天机器人抓取结束之后，会将错误数据传回云端服务器进行后续处理。在云端服务器处，本发明采用人工标注的方式对真实采集的错误图片进行处理，所有处理后的图片将作为后续模型增强的训练数据。

模型增强：用人工标注好的数据对最新的模型进行训练，这里发明设计了一套重新训练模型的方法。由于当前错误数据只有少量数据，如果只用这些数据进行重新训练，很容易导致模型的过拟合，破坏之前模型的检测效果。

本发明分三个阶段对模型进行增强，让模型不仅适应新的数据集，而且兼容老的数据集：

第一阶段是从这些少量数量中抠出对应的箱子纹理，在blender中进行虚拟渲染，增强新的数据集；

第二阶段是固定改进的maskrcnn网络前半部分的参数，只对预测网络部分的参数权重进行微调，此时只用增强后的错误数据集训练，并且设置较小的学习率；

第三阶段是只固定主干特征提取网络的参数，对后面所有网络进行微调，此时融合老的数据集以及新的错误增强数据集进行训练，并且设置较小的学习率。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄金;郑林涛
技术所有人：湖南视比特机器人有限公司
我是此专利的发明人

上一篇：泊车控制方法、装置、电子设备及存储介质与流程
上一篇：一种高可靠性薄型抗指污高亮银反射膜的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。