一种商品定位识别方法、装置、设备以及存储介质与流程

文档序号:17223579发布日期:2019-03-27 12:18阅读:157来源:国知局
一种商品定位识别方法、装置、设备以及存储介质与流程

本发明涉及计算机视觉技术领域,特别是涉及一种商品定位识别方法、装置、设备以及计算机可读存储介质。



背景技术:

使用深度学习和计算机视觉技术对商品进行识别是无人零售中的重要一环,是实现智能结算台的核心技术。目前主流的基于深度学习的目标检测算法包括faster-rcnn、ssd、yolo等。两步式算法faster-rcnn具有精准的定位和识别效果,然而在类别数目较大的时候,该算法会占据大量的显存,识别速度成比例下降,识别准确率难以控制。一步式算法ssd和yolo在识别速度上有明显提升,而定位不够精准,识别准确率也低于faster-rcnn。

鉴于此,提供一种减少显存占用,且同时提升检测速度以及识别准确率的商品定位识别方法是非常有必要的。



技术实现要素:

本发明的目的是提供一种商品定位识别方法、装置、设备以及计算机可读存储介质,以解决现有商品定位识别技术中大量占用显存、识别速度较低、识别准确率难以控制的问题。

为解决上述技术问题,本发明提供一种商品定位识别方法,包括:

获取输入的待识别图像;

将所述待识别图像输入至预先训练的神经网络模型中,提取出所述待识别图像中商品对应的区域;所述预先训练的神经网络模型为faster-rcnn网络模型;

截取所述商品对应的区域作为子图,输入至预先训练的图像分类神经网络模型;所述预先训练的图像分类神经网络模型为vgg-net网络模型;

由所述图像分类神经网络模型计算出所述子图属于各个商品类别的概率,识别出所述待识别图像中商品的类别。

可选地,所述vgg-net网络模型的训练过程包括:

对经过标注商品的训练样本图像进行预处理,输入至所述vgg-net网络模型,加入已知的类别标签,用交叉熵作为损失函数,用随机梯度下降的方式计算反向传播梯度,用梯度优化网络参数,直到损失趋近于0。

可选地,所述预先训练的神经网络模型为采用inception-v2作为基础的faster-rcnn网络模型,所述faster-rcnn网络模型的训练过程包括:

将训练样本图像输入到所述faster-rcnn网络模型中,由rpn预测的边框与已知的标注边框产生边框smooth函数损失,由rpn预测的类别与已知的标注类别产生类别交叉熵损失,在全连接层与精修后的边框与类别产生第二次损失,使用随机梯度下降的方式优化损失,在优化过程中,第二步的损失所产生的梯度会被阻断在rpn层之后,不断对rpn及rpn层之前的网络参数进行优化。

可选地,采用tensorflow中冻结模型的模型为pb文件的方式来联合所述vgg-net网络模型与所述faster-rcnn网络模型。

可选地,所述训练样本图像的生成过程包括:

将人工进行商品mask区域标注的图像作为训练图像,输入至deeplab网络进行训练;

采用训练好的deeplab网络对样本图像进行自动化标注,生成训练样本图像。

本发明还提供了一种商品定位识别装置,包括:

图像获取模块,用于获取输入的待识别图像;

区域提取模块,用于将所述待识别图像输入至预先训练的神经网络模型中,提取出所述待识别图像中商品对应的区域;所述预先训练的神经网络模型为faster-rcnn网络模型;

输入模块,用于截取所述商品对应的区域作为子图,输入至预先训练的图像分类神经网络模型;所述预先训练的图像分类神经网络模型为vgg-net网络模型;

类别识别模块,用于由所述图像分类神经网络模型计算出所述子图属于各个商品类别的概率,识别出所述待识别图像中商品的类别。

可选地,所述vgg-net网络模型为:对经过标注商品的训练样本图像进行预处理,输入至所述vgg-net网络模型,加入已知的类别标签,用交叉熵作为损失函数,用随机梯度下降的方式计算反向传播梯度,用梯度优化网络参数,直到损失趋近于0。

可选地,所述预先训练的神经网络模型为采用inception-v2作为基础的faster-rcnn网络模型,所述faster-rcnn网络模型为:将训练样本图像输入到所述faster-rcnn网络模型中,由rpn预测的边框与已知的标注边框产生边框smooth函数损失,由rpn预测的类别与已知的标注类别产生类别交叉熵损失,在全连接层与精修后的边框与类别产生第二次损失,使用随机梯度下降的方式优化损失,在优化过程中,第二步的损失所产生的梯度会被阻断在rpn层之后,不断对rpn及rpn层之前的网络参数进行优化。

本申请还提供了一种商品定位识别设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任一种所述商品定位识别方法的步骤。

本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种所述商品定位识别方法的步骤。

本发明所提供的商品定位识别方法,通过获取输入的待识别图像;将待识别图像输入至预先训练的神经网络模型中,提取出待识别图像中商品对应的区域;预先训练的神经网络模型为faster-rcnn网络模型;截取商品对应的区域作为子图,输入至预先训练的图像分类神经网络模型;预先训练的图像分类神经网络模型为vgg-net网络模型;由图像分类神经网络模型计算出子图属于各个商品类别的概率,识别出待识别图像中商品的类别。本申请通过将vgg-net分类网络与faster-rcnn网络相结合,可以减少显存占用,约十倍提升检测的速度,同时还能够提升识别的准确率。此外,本申请还提供了一种具有上述技术效果的商品定位识别装置、设备以及计算机可读存储介质。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明所提供的商品定位识别方法的一种具体实施方式流程图;

图2为本申请所提供的商品定位识别方法的另一种具体实施方式的流程图;

图3为本发明实施例提供的商品定位识别装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明所提供的商品定位识别方法的一种具体实施方式流程图如图1所示,该方法包括:

步骤s101:获取输入的待识别图像;

步骤s102:将所述待识别图像输入至预先训练的神经网络模型中,提取出所述待识别图像中商品对应的区域;所述预先训练的神经网络模型为faster-rcnn网络模型;

预先训练的神经网络模型为采用inception-v2作为基础的faster-rcnn网络模型,所述faster-rcnn网络模型的训练过程包括:将训练样本图像输入到所述faster-rcnn网络模型中,由rpn预测的边框与已知的标注边框产生边框smooth函数损失,由rpn预测的类别与已知的标注类别产生类别交叉熵损失,在全连接层与精修后的边框与类别产生第二次损失,使用随机梯度下降的方式优化损失,在优化过程中,第二步的损失所产生的梯度会被阻断在rpn层之后,不断rpn及rpn层之前的网络参数进行优化。

步骤s103:截取所述商品对应的区域作为子图,输入至预先训练的图像分类神经网络模型;所述预先训练的图像分类神经网络模型为vgg-net网络模型;

vgg-net网络模型的训练过程包括:对经过标注商品的训练样本图像进行预处理,输入至所述vgg-net网络模型,加入已知的类别标签,用交叉熵作为损失函数,用随机梯度下降的方式计算反向传播梯度,用梯度优化网络参数,直到损失趋近于0。

进一步地,本申请实施例中采用tensorflow中冻结模型的模型为pb文件的方式来联合所述vgg-net网络模型与所述faster-rcnn网络模型。

步骤s104:由所述图像分类神经网络模型计算出所述子图属于各个商品类别的概率,识别出所述待识别图像中商品的类别。

本发明所提供的商品定位识别方法,通过获取输入的待识别图像;将待识别图像输入至预先训练的神经网络模型中,提取出待识别图像中商品对应的区域;预先训练的神经网络模型为faster-rcnn网络模型;截取商品对应的区域作为子图,输入至预先训练的图像分类神经网络模型;预先训练的图像分类神经网络模型为vgg-net网络模型;由图像分类神经网络模型计算出子图属于各个商品类别的概率,识别出待识别图像中商品的类别。本申请通过将vgg-net分类网络与faster-rcnn网络相结合,可以减少显存占用,约十倍提升检测的速度,同时还能够提升识别的准确率。

目前这些算法都需要大量的精准标注的数据集来完成训练,而带有边框和类别的标注数据集需要耗费大量的人力成本。因此,在上述任一实施例的基础上,本申请所提供的商品定位识别方法中,训练样本图像的生成过程可以具体为:将人工进行商品mask区域标注的图像作为训练图像,输入至deeplab网络进行训练;采用训练好的deeplab网络对样本图像进行自动化标注,生成训练样本图像。该方法可以大量降低标注的成本,为后续训练模型提供大量样本。

本申请所提供的商品定位识别方法的另一种具体实施方式的流程图如图2所示,该方法包括:

步骤s201:对商品进行图像采集,并对采集的商品图像进行自动化标注;

对商品进行大量的全方位的图像采集,并随机挑选采集图像进行人工边界信息精准标注及deeplab语义分割训练。该网络设置区分两个类别,前景与背景,其中,前景为商品,背景为灰色摄影布。通过人工对已完成采集的少部分图像进行商品边框区域标注,用标注好的图像训练deeplab网络,再使用训练好的deeplab网络对所有实验室采集拍摄的图像(约数十万张)进行前背景分割,从而分割出每张采集图像中的商品所在具体位置,由精准的分割位置也能得到商品在图像中的矩形框,由此完成了数十万张图像的自动化标注,本申请实施例能够大量降低标注的成本。

步骤s202:对已标注的商品图像进行预处理后,输入到已构建的faster-rcnn网络模型进行训练;

预处理可以包括但不限于:归一化、统一宽高至224×224、随机翻转、随机亮度。

为了加快网络训练,先使用inception-v2作为基础的特征提取网络,再使用rpn提取出预设数量的建议框,本实施例选用64个建议框。将64个建议框的特征信息输入至全连接层,由全连接层完成对64个建议框的位置精修及前背景分类。本申请考虑到商品与结算台之间的大小比例关系,放弃使用300个建议框并不影响精度,同时提升了3倍以上的检测速度。

训练过程:每张图像输入到网络中,由rpn预测的64个边框及其类别与已知的标注边框及其类别分别产生边框smmoth函数损失和类别交叉熵损失,同样在全连接层与精修后的边框与类别产生第二次损失,使用随机梯度下降的方式优化损失,在优化过程中,第二步的损失所产生的梯度会被阻断在rpn层之后,不断对rpn及rpn层之前的网络参数进行优化。每张图像输入会优化整个faster-rcnn网络,但会阻断rpn层与全连接层之间的梯度传播,两步所产生的损失各自独立优化faster-rcnn的前半部分和后半部分网络,采用这样既联合又独立的近似联合的训练方式来加速训练。

训练至收敛,使得网络能够提取出结算台上的各个商品的边框位置。修改后的faster-rcnn仅64个候选框和两个类别,与通用的faster-rcnn(带有300个候选框,600个类别)比较提速数十倍,以inception-v2为基础特征提取层也极大的减少了显存占用。因为训练样本全部使用现场环境所拍摄的图像,faster-rcnn中的基础特征提取网络无需跨越实验室环境与现场环境之间的差异,所以在这一步选用google-net中的inception-v2为faster-rcnn基础特征提取网络,而放弃了vgg-net系列。在同一环境下google-net中的inception-v2网络比vgg-net系列更好训练,更加轻量,且准确度高。

步骤s203:联合训练得到的vgg-net网络模型以及faster-rcnn网络模型。

构建的vgg-net网络模型中,网络输出各类别概率,加入已知的类别标签,用交叉熵作为损失函数,用随机梯度下降的方式计算反向传播梯度,用梯度优化网络参数,直到损失趋近于0。分类网络的选取可以是vgg-net、google-net、resnet等。vgg-net系列使用大量的3*3的卷积核和直线连接的架构方式,这样提取出来的图像特征更加高维和抽象,同时也丢失了大部分细粒度特征。该网络在后面三层全连接层参数较多,占用内存远大于google-net和resnet,但是为了让网络模型能够从实验室环境泛化至现场环境,所以放弃轻量级的google-net系列和resnet系列。

对输入的一张要进行识别的图像,先经训练的faster-rcnn网络模型,提取出图像中存在的商品区域,由此完成对前景目标的定位。再分别截取出这些存在商品的区域作为子图输入至训练得到的vgg-net网络模型,并由该网络计算出子图属于各个商品类别的概率,从而识别出整张图像中所有有商品的位置及类别。

用tensorflow中冻结模型的模型为pb文件的方式来联合两个神经网络,联合后的模型大约占用2g显存,独立vgg16分类网络约占用0.5g,以inception-v2为底层网络的faster-rcnn目标检测约占用1.5g,在500个分类下达到0.13秒每帧的速度。若构建一个以vgg16为底层网络的faster-rcnn目标检测网络来同时完成位置取框和类别识别,则要耗费3g左右的显存,运行速度约0.8秒每帧,而且该网络在跨越实验室环境与现场环境之间的差异的表现上并不如联合的两步模型。

步骤s204:由该联合神经网络模型截取出这些现场环境图像中的前景区域,并且将这些前景区域子图自动化归类。

将不同的商品子图保存至不同文件加下作为现场环境下的样本。并将现场环境图像与已采集商品图像按比例合并,平衡合并后的数据集,用该数据集能够再次训练步骤s202中的图像分类网络,更好地拟合现场环境,提升其泛化能力。

下面对本发明实施例提供的商品定位识别装置进行介绍,下文描述的商品定位识别装置与上文描述的商品定位识别方法可相互对应参照。

图3为本发明实施例提供的商品定位识别装置的结构框图,参照图3商品定位识别装置可以包括:

图像获取模块100,用于获取输入的待识别图像;

区域提取模块200,用于将所述待识别图像输入至预先训练的神经网络模型中,提取出所述待识别图像中商品对应的区域;所述预先训练的神经网络模型为faster-rcnn网络模型型;

输入模块300,用于截取所述商品对应的区域作为子图,输入至预先训练的图像分类神经网络模型;所述预先训练的图像分类神经网络模型为vgg-net网络模型;

类别识别模块400,用于由所述图像分类神经网络模型计算出所述子图属于各个商品类别的概率,识别出所述待识别图像中商品的类别。

可选地,本申请所提供的商品定位识别装置中,所述vgg-net网络模型为:对经过标注商品的训练样本图像进行预处理,输入至所述vgg-net网络模型,加入已知的类别标签,用交叉熵作为损失函数,用随机梯度下降的方式计算反向传播梯度,用梯度优化网络参数,直到损失趋近于0。

可选地,本申请所提供的商品定位识别装置中,所述预先训练的神经网络模型为采用inception-v2作为基础的faster-rcnn网络模型,所述faster-rcnn网络模型为:将训练样本图像输入到所述faster-rcnn网络模型中,由rpn预测的边框与已知的标注边框产生边框smooth函数损失,由rpn预测的类别与已知的标注类别产生类别交叉熵损失,在全连接层与精修后的边框与类别产生第二次损失,使用随机梯度下降的方式优化损失,在优化过程中,第二步的损失所产生的梯度会被阻断在rpn层之后,不断对rpn及rpn层之前的网络参数进行优化。

本实施例的商品定位识别装置用于实现前述的商品定位识别方法,因此商品定位识别装置中的具体实施方式可见前文中的商品定位识别方法的实施例部分,例如,图像获取模块100,区域提取模块200,输入模块300,类别识别模块400,分别用于实现上述商品定位识别方法中步骤s101,s102,s103和s104,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。

本发明所提供的商品定位识别装置,通过获取输入的待识别图像;将待识别图像输入至预先训练的神经网络模型中,提取出待识别图像中商品对应的区域;预先训练的神经网络模型为faster-rcnn网络模型;截取商品对应的区域作为子图,输入至预先训练的图像分类神经网络模型;预先训练的图像分类神经网络模型为vgg-net网络模型;由图像分类神经网络模型计算出子图属于各个商品类别的概率,识别出待识别图像中商品的类别。本申请通过将vgg-net分类网络与faster-rcnn网络相结合,可以减少显存占用,约十倍提升检测的速度,同时还能够提升识别的准确率。

此外,本申请还提供了一种商品定位识别设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任一种所述商品定位识别方法的步骤。

此外,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种所述商品定位识别方法的步骤。

本实施例的商品定位识别设备、计算机可读存储介质用于实现前述的商品定位识别方法,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。

综上,本申请通过将vgg-net分类网络与faster-rcnn网络相结合,可以减少显存占用,约十倍提升检测的速度,同时还能够提升识别的准确率。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的商品定位识别方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1