基于深度学习的严重遮挡商品的识别检测计数方法与系统

文档序号:30218088发布日期:2022-05-31 19:16阅读:227来源:国知局
基于深度学习的严重遮挡商品的识别检测计数方法与系统

1.本公开属于图像处理技术领域,尤其涉及一种基于深度学习的严重遮挡商品的识别检测计数方法与系统。


背景技术:

2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
3.随着深度学习、5g、大数据、云服务、移动支付的发展,使得无人零售成为可能。无人零售的优势主要在于能够实现24小时的无人化经营,其不但能够节约人工成本和运营成本,还能极大的提升夜间的零售额。
4.近年来,基于深度学习的图像处理技术在无人零售中得到了广泛应用。这一技术不需要实体标签作为商品信息的辅助载体,而是通过大量的图片学习实现的自主的识别能力,有着自动化程度高,识别准确率高等优点;但是,发明人发现,虽然现有的通用深度学习算法比较成熟,但在面对零售场景中严重遮挡商品的检测效果并不理想,原因在于,为了空间利用的最大化,超市货架上的商品大多堆叠摆放,现有算法在生成的标注框时,有时会将堆叠的商品识别成一个,有时又会生成大量重叠的标注框,并不能达到预期效果。


技术实现要素:

5.本公开为了解决上述问题,提供了一种基于深度学习的严重遮挡商品的识别检测计数方法与系统,所述方案利用深度神经网络提取有效特征并进行不同尺度特征融合,同时采用新的特征,即依据商品的遮挡程度采用不同的检测框:当某一商品被同一种类商品遮挡超过一定阈值时,用一个框表示堆叠的一组商品;如果遮挡小于该阈值,则用一个单独的检测框进行预测,最终实现严重遮挡商品的识别检测与计数。
6.根据本公开实施例的第一个方面,提供了一种基于深度学习的严重遮挡商品的识别检测计数方法,包括:
7.获取待识别的图像;
8.将待识别的图像输入预先训练的识别检测模型中,输出带有商品数量的标注框;
9.其中,所述识别检测模型包括主干网络、加强特征提取网络以及解耦头网络,所述主干网络包括顺序连接的focus层、卷积块以及若干残差块,输出若干不同尺度的特征;所述加强特征提取网络将所述不同尺度的特征层进行特征融合;所述解耦头网络基于融合的特征进行标注框的属性预测。
10.进一步的,所述主干网络中的卷积块包括卷积层、标准化层及激活函数;所述若干残差块包括三个顺序连接的第一残差块和一个第二残差块,所述第一残差块包括卷积块和残差结构;所述第二残差块包括顺序连接的卷积块、sppb结构以及残差结构。
11.进一步的,所述sppb用于提取不同尺度的特征,并进行特征融合。
12.进一步的,所述输出若干不同尺度的特征,具体为:按照残差块的连接顺序,在后
三个残差块中分别输出不同尺度的特征,并输入到所述加强特征提取网络中进行融合。
13.进一步的,所述解耦头网络具体结构为:融合特征输入一个卷积块,输出两个分支结构,两个分支结构均包括两个卷积块,分别预测出标注框的各个属性。
14.进一步的,所述标注框的属性包括标注框类别、标注框前/背景类型、标注框位置以及标注框中所包含商品数量。
15.进一步的,所述方法还包括:将所述标注框添加到待识别的图像上,进行可视化展示。
16.根据本公开实施例的第二个方面,提供了一种基于深度学习的严重遮挡商品的识别检测计数系统,包括:
17.数据获取单元,其用于获取待识别的图像;
18.识别检测单元,其用于将待识别的图像输入预先训练的识别检测模型中,输出带有商品数量的标注框;
19.其中,所述识别检测模型包括主干网络、加强特征提取网络以及解耦头网络,所述主干网络包括顺序连接的focous层、卷积块以及若干残差块,输出若干不同尺度的特征;所述加强特征提取网络将所述不同尺度的特征层进行特征融合;所述解耦头网络基于融合的特征进行标注框的属性预测。
20.根据本公开实施例的第三方面,提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上所述的一种基于深度学习的严重遮挡商品的识别检测计数方法。
21.根据本公开实施例的第四方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的一种基于深度学习的严重遮挡商品的识别检测计数方法。
22.与现有技术相比,本公开的有益效果是:
23.(1)本公开提供了一种基于深度学习的严重遮挡商品的识别检测计数方法及系统,所述方案利用深度神经网络提取有效特征并进行不同尺度特征融合,同时采用新的特征,即依据商品的遮挡程度采用不同的检测框:当某一商品被同一种类商品遮挡超过一定阈值时,用一个框表示堆叠的一组商品;如果遮挡小于该阈值,则用一个单独的检测框进行预测,最终实现严重遮挡商品的识别检测与计数。
24.(2)本公开所述方案能够有效识别货架上严重遮挡的商品并对其数量进行统计,同时,单阶段模型的应用有效提高了商品识别的效率,所述单阶段模型利用单独的endtoend网络,区别于现有的两阶段模型先得到候选框,再对候选框中物体进行预测,进一步提高了识别检测精度及效率。
25.本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
26.构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
27.图1为本公开实施例一中所述的一种基于深度学习的严重遮挡商品的识别检测计
数方法流程图;
28.图2为本公开实施例一中所述的深度学习模型整体结构示意图;
29.图3(a)为本公开实施例一中所述的csplayer结构示意图;
30.图3(b)为本公开实施例一中所述的res_unit结构示意图;
31.图4为本公开实施例一中所述的碗类识别可视化结果示意图;
32.图5为本公开实施例一中所述的盆类识别可视化结果示意图。
具体实施方式
33.下面结合附图与实施例对本公开做进一步说明。
34.应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
35.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
36.在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
37.实施例一:
38.本实施例的目的是提供一种基于深度学习的严重遮挡商品的识别检测计数方法。
39.一种基于深度学习的严重遮挡商品的识别检测计数方法,包括:
40.获取待识别的图像;
41.将待识别的图像输入预先训练的识别检测模型中,输出带有商品数量的标注框;
42.其中,所述识别检测模型包括主干网络、加强特征提取网络以及解耦头网络,所述主干网络包括顺序连接的focus层、卷积块以及若干残差块,输出若干不同尺度的特征;所述加强特征提取网络将所述不同尺度的特征层进行特征融合;所述解耦头网络基于融合的特征进行标注框的属性预测。
43.进一步的,所述主干网络中的卷积块包括卷积层、标准化层及激活函数;所述若干残差块包括三个顺序连接的第一残差块和一个第二残差块,所述第一残差块包括卷积块和残差结构;所述第二残差块包括顺序连接的卷积块、sppb结构以及残差结构。
44.进一步的,所述sppb结构用于提取不同尺度的特征,并进行特征融合。
45.进一步的,所述输出若干不同尺度的特征,具体为:按照残差块的连接顺序,在后三个残差块中分别输出不同尺度的特征,并输入到所述加强特征提取网络中进行融合。
46.进一步的,所述解耦头网络具体结构为:融合特征输入一个卷积块,输出两个分支结构,两个分支结构均包括两个卷积块,分别预测出标注框的各个属性。
47.进一步的,所述标注框的属性包括标注框类别、标注框前/背景类型、标注框位置以及标注框中所包含商品数量。
48.进一步的,所述方法还包括:将所述标注框添加到待识别的图像上,进行可视化展示。
49.具体的,为了便于理解,以下结合附图从具体实施方面对本公开所述方案进行详
细说明:
50.本公开提供了一种基于深度学习的严重遮挡商品的识别检测计数方法,如图1所示,其具体包括三个过程:数据处理、网络构建以及模型的训练与测试;以下对上述三个过程进行详细说明:
51.(一)数据处理
52.本公开使用的是locount商品检测数据集,其包含了140个类别的商品,训练集有34022张图片涵盖了超过190万个商品,图片大小为1920x1080。
53.(1)数据集标签处理
54.数据集的标签不能直接用于训练,需对其进行预处理,将商品数据集标签转换成模型能够读取的coco格式。通过对原数据集的读取获得图片的宽高,商品标注框的左上角坐标和右下角坐标,商品的数量信息等。依据coco格式通过代码将信息添加到以下三个字段:categories、annotations、images,其分别用于存储类别信息、标注信息和图像信息。最终将处理好的数据以json格式输出,保存在相应路径下,生成最终的训练集与测试集。
55.(2)数据增强处理
56.在输入到主干网络之前将数据集中的图片进行数据增强处理,主要包括mosaic、mixup两种数据增强方法,其中,mosaic数据增强方法是将4张图片(即将训练集中4张随机的商品图片,通过mosaic数据增强方式拼接成1张图片)进行随机缩放、随机裁剪、随机排布的方式进行拼接,mixup数据增强方式是在mosaic方法的基础上对2张图片(即mosaic数据增强方法处理后的任意两张图片)以不同的方式添加灰条在图片两侧添加或在图片上下添加灰条将其压缩成3x640x640大小,通过一个融合系数将其合成一张大小为3x640x640大小的图片。
57.(二)网络结构
58.如图2所示,本公开所述方法的网络结构主要分为以下几个部分:主干网络、加强特征提取网络、解耦头网络。
59.(1)主干网络
60.通过数据增强后的图片首先使用一个类似于yolov5中的focus网络进行特征提取,即每隔一个像素点取一个值,得到4个独立特征层,将其在通道维度上进行拼接,最终得到12x320x320的特征层,然后通过卷积+标准化+激活函数进行通道数的调整,这里采用的激活函数为silu激活函数是一个平滑的有下界无上界的函数其公式为:
61.f(x)=x
·
sigmioid(x)
62.然后通过构建的resblock_body(残差块:包括上述的第一残差块和第二残差块)进行特征提取,共使用了4次此结构,其中,最后一次稍有不同,resblock_body的实现首先是通过一个3x3的卷积对图片进行压缩,对通道数实现扩张,然后通过csplayer(如图3所示)进行特征提取,其结构相当于一个大的残差结构包含两条支路,一条支路是堆叠的残差块(如图-3所示),另一条支路相当于一条大的残差边。在最后一个resblock_body中添加sppb结构使用大小为1x1、5x5、9x9、13x13不同池化核的最大池化进行特征提取,再将不同尺度的特征图进行concat操作。
63.(2)加强特征提取网络
64.利用获得的最后三个有效特征层,来进行加强网络构建。将深层的特征层进行上
采样,与浅层的特征层进行融合,上采样全部完成后再对得到的浅层的特征层进行下采样与深层的特征层进行concat操作这样就形成了fpn+pan的特征融合网络。
65.(3)解耦头网络
66.采用与yolox类似的解耦头,首先使用一个1x1的卷积进行降维,并在后面的两个分支里使用两个3x3的卷积然后得到cls、obj、reg、count分别用于判断目标框的类别、判断目标框是前景还是背景、对目标框的位置进行预测、对目标框中所包含商品数量进行预测。
67.如图2所示,为了进一步提高检测精度,在所述加强特征提取网络后设置有三个解耦头网络(yolohead);这三个yolohead分别对应三种不同尺度的特征层预测分别是20x20,40x40,80x80;分别对应了大件商品,中等尺寸商品,小商品的检测。其优势在于,商品图像中存在不同尺寸的目标,如果只预测高层的特征语义信息,得到的目标位置比较粗略,通过在不同特征层独立进行得到的目标位置更准确。
68.(三)模型的训练与测试
69.本公开在mmdetection平台下利用pytorch实现模型搭建,使用随机梯度下降法(sgd)进行训练共训练100个epoch,在训练的最后15个epoch,停用两种数据增强方法。使用smoothl1损失来训练count分支,使用bce损失来训练cls和obj分支其损失函数公式为:
70.l(x,y)=l={i
l

…ii

,in}
t
71.ii=-wi[yi·
logxi+(1-yi)
·
log(1-xi)]
[0072]
其中,w为权重值,x为输入值,y为输出的目标值。使用ciou损失来训练reg分支其损失函数公式为:
[0073][0074]
其中,v是衡量长宽比一致性的参数,其可以定义为:
[0075][0076]
其中,w
gt
,h
gt
,w
p
,h
p
分别表示真实框宽高和预测框宽高,ciou_loss相较于其他损失函数考虑更加全面,考虑到了重叠面积、中心点距离和长宽比。
[0077]
如图4和图5所示,利用训练得到的模型对测试集图片进行推理,最终获得可视化结果。
[0078]
实施例二:
[0079]
本实施例的目的是提供一种基于深度学习的严重遮挡商品的识别检测计数系统。
[0080]
一种基于深度学习的严重遮挡商品的识别检测计数系统,包括:
[0081]
数据获取单元,其用于获取待识别的图像;
[0082]
识别检测单元,其用于将待识别的图像输入预先训练的识别检测模型中,输出带有商品数量的标注框;
[0083]
其中,所述识别检测模型包括主干网络、加强特征提取网络以及解耦头网络,所述主干网络包括顺序连接的focous层、卷积块以及若干残差块,输出若干不同尺度的特征;所述加强特征提取网络将所述不同尺度的特征层进行特征融合;所述解耦头网络基于融合的特征进行标注框的属性预测。
[0084]
在更多实施例中,还提供:
[0085]
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
[0086]
应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0087]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
[0088]
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
[0089]
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0090]
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
[0091]
上述实施例提供的一种基于深度学习的严重遮挡商品的识别检测计数方法及系统可以实现,具有广阔的应用前景。
[0092]
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1