目标识别方法及系统、可读存储介质与流程

文档序号:30054872发布日期:2022-05-17 17:19阅读:73来源:国知局
目标识别方法及系统、可读存储介质与流程

1.本技术涉及人工智能技术领域。更具体地,涉及一种目标识别方法及系统、可读存储介质。


背景技术:

2.目前,对图像中目标(例如无人超市的监控图像中的商品等物体)的检测和识别大多基于二维图像,首先在二维图像中将目标物体标注后作为训练集训练深度神经网络,然后利用训练好的深度神经网络即可对采集的图像进行目标识别。但是,上述方法存在识别精度较低、网络模型的参数量大、识别速度较慢等问题,例如,对于外形相似但体积不同的目标(例如2l装和500ml装的相同品牌饮料),由于二维图像的图像特征(例如rgb值等)无法直接体现出目标的体积,上述方法也就无法精细化识别这些目标之间的差异,从而容易出现识别错误的情况。


技术实现要素:

3.本技术的目的在于提供一种目标识别方法及系统、可读存储介质,以解决现有技术存在的问题中的至少一个。
4.为达到上述目的,本技术采用下述技术方案:
5.本技术第一方面提供了一种目标识别方法,包括:
6.计算待识别图像的深度信息,并对所述待识别图像进行超像素分割,得到超像素图像;
7.根据所述超像素图像的图像数据和所述深度信息生成三维图像数据;
8.将所述三维图像数据输入深度神经网络进行目标识别,得到识别结果。
9.本技术第一方面提供的目标识别方法,将深度信息作为一个新的通道,利用深度神经网络通过对三维图像数据进行图像分割(即目标边缘提取,或者说像素点分类)实现目标识别,可提升识别精度,特别是可精确识别出外形相似但体积不同的目标,且由于采用了超像素分割,可在保证目标识别精度的情况下,降低网络模型的参数量,提升识别速度。
10.可选地,所述对所述待识别图像进行超像素分割包括:提取所述待识别图像的像素点的纹理特征,根据所述像素点的纹理特征对所述待识别图像进行超像素分割。
11.由此,可通过基于像素点纹理特征的超像素分割将待识别图像分割为由一系列位置相邻且纹理特征相似的像素点组成的小区域。这些小区域保留了进一步进行图像分割的有效信息,且不会破坏图像中物体的边缘信息。
12.可选地,所述进行目标识别包括:所述深度神经网络对输入的三维图像数据利用多个下采样层进行多次下采样后利用多个上采样层进行多次上采样;其中,所述多个上采样层中第一个上采样层的输入为对最后一个下采样层的输出进行至少一次卷积操作后得到的特征图,其他上采样层的输入为对应的下采样层所对应的特征图和上一上采样层输出的特征图拼接而成的特征图。
13.由此,可利用结构简单、能够适应很小的训练集的深度神经网络进行目标识别,其中,上采样层输入的输入为对应的下采样层所对应的特征图和上一上采样层输出的特征图拼接而成的特征图可结合深层次和浅层次的特征,细化图像,获取关于待识别图像不同维度上的特征,进而改善图像分割、目标识别的效果。
14.可选地,所述多次上采样中的每一次上采样包括对从输入上采样层的特征图中随机选择出的一部分通道进行插值上采样且对另一部分通道进行转置卷积上采样。
15.该可选方式采用插值和转置卷积随机拼合的上采样方式,可在保证图像分割、目标识别精度的情况下,进一步降低网络模型的参数量,提升识别速度。
16.可选地,所述多次上采样中的每一次上采样包括对从输入上采样层的特征图中随机选择出的一半通道进行插值上采样且对另一半通道进行转置卷积上采样。
17.由此,可保证降低网络模型的参数量,提升识别速度的有效性。
18.可选地,所述下采样层包括至少一个卷积层和一个池化层;所述多个上采样层中的第一个上采样层包括插值模块和转置卷积层,其他上采样层包括插值模块、转置卷积层和至少一个卷积层。
19.可选地,所述待识别图像由双目摄像头采集,所述计算待识别图像的深度信息包括:根据所述双目摄像头的采集参数计算采集的待识别图像中各坐标点的深度值,将所有坐标点的深度值进行归一化处理,得到待识别图像的深度信息。
20.由此,可在利用的图像采集装置较为简单的情况下,精确高效地计算出待识别图像的深度信息。
21.可选地,该方法还包括:
22.获取携带标注的训练样本,所述训练样本是标注出目标边缘的超像素图像;
23.根据训练样本构建训练集,利用所述训练集训练得到所述深度神经网络。
24.本发明第二方面提供了一种目标识别系统,包括:图像采集装置、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述图像采集装置用于采集待识别图像,所述处理器执行所述程序时实现:计算待识别图像的深度信息,并对待识别图像进行超像素分割,得到超像素图像;根据所述超像素图像的图像数据和所述深度信息生成三维图像数据;将所述三维图像数据输入深度神经网络进行目标识别,得到识别结果。
25.可选地,所述图像采集装置为双目摄像头。
26.本技术第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本技术第一方面提供的方法。
27.本技术的有益效果如下:
28.本技术可进行精确的目标识别,特别是可精确识别出外形相似但体积不同的目标,且可在保证目标识别精度的情况下,降低网络模型的参数量,提升识别速度。
附图说明
29.下面结合附图对本技术的具体实施方式作进一步详细的说明。
30.图1示出本技术的一个实施例提供的目标识别方法的流程图。
31.图2示出双目摄像头的几何参数示意图。
32.图3示出一种深度神经网络的网络结构示意图。
33.图4示出图3所示的深度神经网络的改进后的网络结构示意图。
34.图5示出inception模型的结构示意图。
35.图6示出本技术的另一个实施例提供的目标识别系统的示意图。
36.图7示出实现目标识别装置的计算机系统的结构示意图。
具体实施方式
37.为了更清楚地说明本技术,下面结合实施例和附图对本技术做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本技术的保护范围。
38.如图1所示,本技术一个实施例提供了一种目标识别方法,包括如下步骤:
39.步骤s100、计算待识别图像的深度信息,并对所述待识别图像进行超像素分割,得到超像素图像。
40.在一种可能的实现方式中,所述待识别图像由双目摄像头采集,所述计算待识别图像的深度信息包括:根据所述双目摄像头的采集参数计算采集的待识别图像中各坐标点的深度值,将所有坐标点的深度值进行归一化处理,得到待识别图像的深度信息。
41.由此,可在无需利用红外传感器等其他器件辅助的情况下,利用较为简单的双目摄像头采集待识别图像,即可精确高效地计算出待识别图像的深度信息,作为后续生成三维图像数据的三维信息,且该三维信息较为简单,运算数据量小。
42.在一个具体示例中,根据双目摄像头的采集参数计算采集的待识别图像中各坐标点的深度值的过程例如:
43.利用双目摄像头采集到待识别图像后,根据双目摄像头的采集参数(或者说相机内参)待识别图像中各坐标点的深度值,作为深度数据,并将深度数据与原始的待识别图像的坐标点相对应。其中,将所有坐标点的深度值进行归一化处理,将深度值作为一个新的通道(channel)。
44.深度值计算方式例如:
45.计算视差d:d=u
l-ur,其中,u
l
和ur分别如图2所示的p点在左、右视图上的坐标;
46.计算深度值z:z=(f-b)/d,其中,如图2所示,f为双目摄像头的焦距,b为双目摄像头的双目间基线长度。
47.在一种可能的实现方式中,对所述待识别图像进行超像素分割包括:提取所述待识别图像的像素点的纹理特征,根据所述像素点的纹理特征对所述待识别图像进行超像素分割。
48.由此,可通过基于像素点纹理特征的超像素分割将待识别图像分割为由一系列位置相邻且纹理特征相似的像素点组成的小区域。这些小区域保留了进一步进行图像分割的有效信息,且不会破坏图像中物体的边缘信息。
49.其中,纹理是一种反映图像中同质现象的视觉特征,它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理具有三大标志:某种局部序列性不断重复、非随机排列、纹理区域内大致为均匀的统一体。纹理不同于灰度、颜色等图像特征,它通过像素及其周围空间邻域的灰度分布来表现,即:局部纹理信息。局部纹理信息不同程度的重复性,即全局纹理信息。
50.纹理特征可以分为四种类型:
51.(1)统计型纹理特征:
52.基于像元及其邻域内的灰度属性,研究纹理区域中的统计特征,或者像元及其邻域内灰度的一阶、二阶或者高阶统计特征。统计型纹理特征中以glcm(灰度共生矩阵)为主,它是建立在估计图像的二阶组合条件概率密度基础上的一种方法。glcm主要描述在theta方向上,相隔d个像元距离的一对像元分别具有灰度值i和j的出现的概率。
53.(2)模型型纹理特征:
54.假设纹理是以某种参数控制的分布模型方式形成的,从纹理图像的实现来估计计算模型参数,以参数为特征或采用某种策略进行图像分割,因此,模型参数的估计是这种方法的核心问题。模型型纹理特征提取方法以随机场方法和分形方法为主。
55.随机场模型方法:试图以概率模型来描述纹理的随机过程,它们对随机数据或随机特征进行统计运算,进而估计纹理模型的参数,然后对一系列的模型参数进行聚类,形成和纹理类型数一致的模型参数。由估计的模型参数来对灰度图像进行逐点的最大后验概率估计,确定像素及其邻域情况下该像素点最可能归属的概率。随机场模型实际上描述了图像中像素对邻域像素的统计依赖关系。
56.分形模型方法:分数维作为分形的重要特征和度量,把图像的空间信息和灰度信息简单而又有机的结合起来,因而在图像处理中备受关注的。分数维在图像处理中的应用时以两点为基础:(a)自然界中不同种类的形态物质一般具有不同的分形维;(b)由于研究人员的假设,自然界中的分形与图像的灰度表示之间存在着一定的对应关系。研究表明,人类视觉系统对于粗糙度和凹凸性的感受与分形维数之间有着非常密切的联系。因此,可以用图像区域的分形维数来描述图像区域的纹理特征。分形维描述纹理的核心问题是如何准确地估计分形维。
57.(3)信号处理型纹理特征:
58.建立在时域、频域分析与多尺度分析基础之上,对纹理图像中某个区域内实行某种变换之后,再提取保持相对平稳的特征值,以此特征值作为特征表示区域内的一致性以及区域间的相异性。信号处理类的纹理特征主要是利用某种线性变换、滤波器或者滤波器组将纹理转换到变换域,然后应用某种能量准则提取纹理特征。因此,基于信号处理的方法也称之为滤波方法。大多数信号处理方法的提出,都基于这样一个假设:频域的能量分布能够鉴别纹理。
59.(4)结构型纹理特征:
60.基于“纹理基元”分析纹理特征,着力找到纹理基元,认为纹理由许多纹理基元构成,不同类型的纹理基元、不同的方向及数目,决定了纹理的表现形式。
61.另外,本实施例中的超像素分割也可基于像素点的颜色、亮度等特征实现。
62.在一个具体示例中,对待识别图像进行超像素分割,得到超像素图像的过程例如:
63.将双目摄像头采集的原始待识别图像(二维图像,左视图或右视图)根据待识别图像的纹理特征,采用超像素算法分割为超像素,例如,提取待识别图像的纹理特征,根据纹理特征变化的边缘将待识别图像进行超像素分割,超像素分割得到的每一个单元即为一个超像素。对于每个超像素,记录该超像素的坐标位置(包含超像素的中心坐标及超像素包含的原始像素点的坐标)。
64.在进行超像素分割时,可对超像素分割得到的边缘进行标注(沿着目标的边缘进行标注),将在目标边界内的超像素标记为相应的类别,即某超像素如果处于原图像中的目标边界内,则此超像素被标记为相应的目标类别,否则标记为背景。这样,可利用超像素分割时的标记辅助后续的目标识别。
65.需要说明的是,步骤s100中,“计算待识别图像的深度信息”与“对待识别图像进行超像素分割”的执行顺序不受限制,即,可先执行“计算待识别图像的深度信息”而后执行“对待识别图像进行超像素分割”,也可先执行“对待识别图像进行超像素分割”而后执行“计算待识别图像的深度信息”,也可两者并行执行。
66.经过步骤s100,则可以将待识别图像(例如rgb图像)表示为含有深度信息及二维图像特征(例如rgb值)的三维图像数据(例如超像素矩阵图),二维图像特征及深度信息均作为超像素的通道(channel),这样,就可以将原始的较大尺寸的待识别图像的图像信息转变为高维小尺寸的图像信息,在不牺牲图像特征的前提下降低尺寸,以降低深度神经网络的网络模型的参数量。
67.步骤s200、如上所述,根据所述超像素图像的图像数据和所述深度信息生成三维图像数据,由此,实现了图像的二维信息(例如rgb值等)与三维信息(深度信息)的拼接。
68.步骤s300、将所述三维图像数据输入深度神经网络进行目标识别,得到识别结果。
69.在一种可能的实现方式中,所述进行目标识别包括:所述深度神经网络对输入的三维图像数据利用多个下采样层进行多次下采样后利用多个上采样层进行多次上采样;其中,所述多个上采样层中第一个上采样层的输入为对最后一个下采样层的输出进行至少一次卷积操作后得到的特征图,其他上采样层的输入为对应的下采样层所对应的特征图和上一上采样层输出的特征图拼接而成的特征图。
70.由此,可利用结构简单、能够适应很小的训练集的深度神经网络进行目标识别,其中,上采样层输入的输入为对应的下采样层所对应的特征图和上一上采样层输出的特征图拼接而成的特征图可结合深层次和浅层次的特征,细化图像,获取关于待识别图像不同维度上的特征,进而改善图像分割、目标识别的效果。
71.在一个具体示例中,此可选方式采用的深度神经网络是一个u-net网络,关于其具体网络结构的说明如下。
72.u-net网络,顾名思义,其网络结构呈u型,如图3所示,其实质是改进型的全卷积神经网络。u-net网络包括用于下采样的编码器网络301和用于上采样的解码器网络302,输入图像通过编码器网络301进行多次卷积缩小,得到多个特征图,再由解码器网络302进行多次反卷积扩大,在此过程中,还会与编码器网络301对应的多个特征图对应拼接,以结合深层次和浅层次的特征,细化图像,以便于获取关于输入图像不同维度上的特征,进而改善图像分割、目标识别的效果。其中,如果待拼接的两个特征图大小不同,则在复制(copy)编码器网络301对应的特征图后,需要进行剪裁(crop)再传输至解码器网络302以进行拼接。
73.如图3所示,本示例中:
74.按照由浅至深的顺序,编码器网络301包括三个下采样层,解码器网络302包括三个上采样层,需要说明的是,下采样层的数量和上采样层的数量不限于三个,但下采样层的数量和上采样层的数量应相同。
75.在编码器网络301与解码器网络302之间,按照由浅至深(图3中左侧上至下)的顺
序建立了三个特征传播层3031、3032、3033。
76.需要说明的是,u-net网络还可包括设置解码器网络302之后的分类层(图中未示出),可通过设置分类器来计算三维图像数据对应特征图(featuremap)中像素点属于不同类别的概率,以此实现对三维图像数据对应特征图中像素点的类别预测,从而进行像素点分类,即图像分割,以实现目标识别。
77.对于编码器网络301而言,可通过若干三个下采样层进行三维图像数据的特征提取,并经由三个特征传播层3031、3032、3033,将进行特征提取得到的特征图传输至解码器网络302。
78.具体地,本示例中,下采样层包括两个卷积层和一个池化层,池化层为最大池化层。将三维图像数据输入至编码器网络301中最浅一层下采样层(图3中左侧最上方),通过最浅一层下采样层对输入的三维图像数据进行卷积处理(如图3所示为两次卷积),得到最浅一层下采样层对应的特征图,并通过下采样处理(最大池化下采样处理)后输入至次浅一层下采样层。
79.按照由浅至深(图3中左侧上至下)的顺序,对编码器网络301中的另外两个下采样层进行遍历,获得遍历到另外两个下采样层对应的特征图。
80.在编码器网络301与解码器网络302之间,分别通过特征传播层3031、3032、3033进行上述特征图的特征传播。
81.最深一层下采样层的输出经过卷积处理(图3中最下方的横向空心箭头示出)后,将特征图直接传输至解码器网络302中的最深一层上采样层(图3中右侧最下方的向上实心箭头示出)。
82.在编码器网络301中,横向空心箭头表示由卷积层进行的卷积处理,向下实心箭头表示由最大池化层进行的最大池化下采样处理。
83.其中,随着编码器网络层次加深,对三维图像数据的特征提取中,逐渐由局部描述抽象为全局描述,进而更加准确地描述三维图像数据,从而有利于保证图像分割的精度。
84.对于解码器网络302而言,不仅通过若干上采样进行三维图像数据的特征提取,而且还针对三维图像数据进行特征融合。
85.具体地,本示例中,第一个上采样层(最深一层上采样层)包括转置卷积层(转置卷积也称反卷积,或上卷积—up-convolution),其他上采样层包括转置卷积层和两个卷积层。最深一层上采样层对最深一层下采样层的输出经过卷积处理后得到的特征图进行转置卷积上采样处理,得到第一待融合特征图。
86.将所述第一待融合特征图输入至次深一层上采样层,与通过传输层3033传输来的最深一层下采样层对应的特征图进行融合后,进行卷积处理(如图3所示为两次卷积),得到第二待融合特征图。
87.按照由深至浅的顺序(图3中右侧下至上),对另外两个上采样层进行遍历,获得遍历到上采样层对应的特征图。
88.待完成所述遍历,由最浅一层上采样层对应的特征图得到三维图像数据对应的特征图。
89.在解码器网络302中,横向空心箭头表示由卷积层进行的卷积处理,向上实心箭头表示由转置卷积层进行的转置卷积上采样处理。
90.通过上述过程,通过编码器网络和解码器网络的相互结合,不仅有效地降低了图像分割的计算量,有利于提升分割效率,而且充分地保障了图像分割的精度。
91.在一种可能的实现方式中,所述多次上采样中的每一次上采样包括对从输入上采样层的特征图中随机选择出的一部分通道进行插值上采样且对另一部分通道进行转置卷积上采样。
92.本实现方式采用插值和转置卷积随机拼合的上采样方式,可在保证图像分割、目标识别精度的情况下,进一步降低网络模型的参数量,提升识别速度。
93.在一种可能的实现方式中,所述多次上采样中的每一次上采样包括对从输入上采样层的特征图中随机选择出的一半通道进行插值上采样且对另一半通道进行转置卷积上采样。
94.由此,可保证降低网络模型的参数量,提升识别速度的有效性。
95.在一种可能的实现方式中,所述下采样层包括至少一个卷积层和一个池化层;所述多个上采样层中的第一个上采样层包括插值模块和转置卷积层,其他上采样层包括插值模块、转置卷积层和至少一个卷积层。
96.在一个具体示例中,上述采用插值和转置卷积随机拼合的上采样方式的深度神经网络可视为对前述介绍的u-net网络的改进,可理解为利用采用插值和转置卷积随机拼合的上采样处理替代u-net网络中的转置卷积上采样处理。
97.在一个具体示例中,上述改进后的深度神经网络的网络结构如图4所示,其包括用于下采样的编码器网络401和用于上采样的解码器网络402,输入图像通过编码器网络401进行多次卷积缩小,得到多个特征图,再由解码器网络402进行多次基于插值和转置卷积随机拼合的扩大,在此过程中,还会与编码器网络401对应的多个特征图对应拼接,以结合深层次和浅层次的特征,细化图像,以便于获取关于输入图像不同维度上的特征,进而改善图像分割、目标识别的效果,另外,还可有效降低网络模型的参数量,提升识别速度。
98.如图4所示,本示例中:
99.按照由浅至深的顺序,编码器网络401包括三个下采样层,解码器网络402包括三个上采样层。
100.在编码器网络401与解码器网络402之间,按照由浅至深的顺序建立了三个特征传播层4031、4032、4033。
101.需要说明的是,上述改进后的深度神经网络还可包括设置解码器网络402之后的分类层(图中未示出),可通过设置分类器来计算三维图像数据对应特征图(featuremap)中像素点属于不同类别的概率,以此实现对三维图像数据对应特征图中像素点的类别预测,从而进行像素点分类,即图像分割,以实现目标识别。
102.对于编码器网络401而言,可通过若干三个下采样层进行三维图像数据的特征提取,并经由三个特征传播层4031、4032、4033,将进行特征提取得到的特征图传输至解码器网络402。
103.具体地,本示例中,下采样层包括两个卷积层和一个池化层,池化层为最大池化层。将三维图像数据输入至编码器网络401中最浅一层下采样层(图4中左侧最上方),通过最浅一层下采样层对输入的三维图像数据进行卷积处理(如图4所示为两次卷积),得到最浅一层下采样层对应的特征图,并通过下采样处理(最大池化下采样处理)后输入至次浅一
层下采样层。
104.按照由浅至深(图4中左侧上至下)的顺序,对编码器网络401中的另外两个下采样层进行遍历,获得遍历到另外两个下采样层对应的特征图。
105.在编码器网络401与解码器网络402之间,分别通过特征传播层4031、4032、4033进行上述特征图的特征传播。
106.最深一层下采样层的输出经过卷积处理(图4中最下方的横向空心箭头示出)后,将特征图直接传输至解码器网络402中的最深一层上采样层(图4中右侧最下方的向上空心箭头和向上实心箭头示出)。
107.在编码器网络401中,横向空心箭头表示由卷积层进行的卷积处理,向下实心箭头表示由最大池化层进行的最大池化下采样处理。
108.对于解码器网络402而言,不仅通过若干上采样进行三维图像数据的特征提取,而且还针对三维图像数据进行特征融合。
109.具体地,本示例中,第一个上采样层(最深一层上采样层)包括转置卷积层和插值模块,其他上采样层包括转置卷积层、插值模块和两个卷积层。最深一层上采样层从最深一层下采样层的输出经过卷积处理后得到的特征图中随机选择出的一半通道进行插值上采样处理,并对另一半通道进行转置卷积上采样处理,得到第一待融合特征图。
110.将所述第一待融合特征图输入至次深一层上采样层,与通过传输层4033传输来的最深一层下采样层对应的特征图进行融合后,进行卷积处理(如图3所示为两次卷积),得到第二待融合特征图。
111.按照由深至浅的顺序(图3中右侧下至上),对另外两个上采样层进行遍历(其中,每一次上采样分别进行一次通道随机选取),获得遍历到上采样层对应的特征图。
112.待完成所述遍历,由最浅一层上采样层对应的特征图得到三维图像数据对应的特征图。
113.在解码器网络402中,横向空心箭头表示由卷积层进行的卷积处理,向上实心箭头表示由转置卷积层进行的转置卷积上采样处理,向上空心箭头表示由插值模块进行的插值上采样处理。
114.通过上述过程,通过编码器网络和解码器网络的相互结合,不仅有效地降低了图像分割的计算量,有利于提升分割效率,而且充分地保障了图像分割的精度,且还可有效降低了网络模型的参数量,提升了图像分割、目标识别速度。
115.在图3及图4所示分别的网络结构中,卷积层可以如图5所示的inception模型为基本单元。
116.在一种可能的实现方式中,步骤s300还包括:根据所述识别结果得到对于所述待识别图像的识别结果。
117.由此,通过根据对超像素图像的识别结果得到对于原图像的识别结果,可得到更加直观精细的识别结果,便于后续的分析验证。
118.在一个具体示例中,可将上述步骤s100-s300,即,将超像素分割、计算深度信息和深度神经网络串联形成一个整体算法服务,将双目摄像头的相机内参和采集的待识别图像作为算法输入,根据分割结果将超像素对应的原始图像输出,以输出原始的待识别图像的目标识别结果。
119.在一些实施例中,本实施例提供的目标识别方法在执行步骤s300之前,还包括对深度神经网络的训练步骤,该训练步骤包括:
120.获取携带标注的训练样本,所述训练样本是标注出目标边缘的超像素图像;
121.根据训练样本构建训练集,利用所述训练集训练得到所述深度神经网络。
122.通过上述过程,训练后的深度神经网络便具有了对输入图像对应特征图进行图像分割(或者说像素点分类)以实现目标识别的能力。那么,获取采集的待识别图像后,经过步骤s100和s200的处理将得到的三维图像数据输入至深度神经网络后,便能够由深度神经网络对三维图像数据中的像素点进行分类,实现图像分割,从而实现目标识别。
123.在一个具体示例中,以本实施例应用于无人超市场景,用于实现对无人超市的监控图像中的商品进行目标识别为例,本示例以五种包装的饮料为例进行效果试验,包括500ml装的第一饮料、500ml装的第二饮料,330ml装的第二饮料、500ml装的第三饮料和500ml装的第四饮料,标注的标签分别为0-5类,每个类别各采集200个目标(即每个样本图像中有若干目标,各个类别的饮料在所有待识别图像中总计200个)作为训练样本,所有样本图像以7:2:1的比例划分训练集、调优集和测试集,标注各个目标的边缘轮廓,单张样本图像分辨率为2592*1944。
124.训练过程例如:选择交叉熵损失函数(cross-entropyloss)作为深度神经网络的损失函数,输入上述标注目标轮廓及种类的样本图像进行训练。训练过程采取栋梁梯度下降法(sgd+momentum)进行调优,初始学习率设置为0.1
×
(batch size/256),采用余弦递减(cosine decay)逐渐降低学习率。
125.最终,使用交并比iou衡量网络模型的分割效果,在测试集上,各类目标的iou分别为[0.93,0.94,0.91,0.89,0.89]。
[0126]
综上,本实施例提供的目标识别方法,将深度信息作为一个新的通道,利用深度神经网络通过对三维图像数据进行图像分割(即目标边缘提取,或者说像素分类操作)实现目标识别,可提升识别精度,特别是可精确识别出外形相似但体积不同的目标,且由于采用了超像素分割及插值和转置卷积随机拼合的上采样方式,可在保证目标识别精度的情况下,降低网络模型的参数量,提升识别速度。
[0127]
如图6所示,本技术的另一个实施例提供了一种目标识别系统600,包括用于采集待识别图像的图像采集装置610和目标识别装置620,其中,目标识别装置620包括:
[0128]
计算模块621,用于计算待识别图像的深度信息,并对待识别图像进行超像素分割,得到超像素图像;
[0129]
生成模块622,用于根据所述超像素图像的图像数据和所述深度信息生成三维图像数据;
[0130]
识别模块623,用于将所述三维图像数据输入深度神经网络进行目标识别,得到识别结果。
[0131]
其中,目标识别装置620是为用户提供后台服务的电子设备,例如,个人计算机、服务器等,此后台服务包括目标识别服务。
[0132]
当然,根据实际营运的需要,目标识别装置620可以是一台服务器,也可以是由多台服务器构成的服务器集群,甚至是由多台服务器构成的云计算中心,以便于更好地面向海量用户提供后台服务,在此并未构成具体限定。
[0133]
进一步地,目标识别装置620部署了用于进行目标识别的深度神经网络。
[0134]
目标识别装置620与图像采集装置610之间建立无线或者有线的网络连接,以通过网络连接实现目标识别系统600之间的数据传输,网络包括的连接类型例如有线、无线通信链路或者光纤电缆等等。例如,此数据传输包括待识别图像等。通过图像采集装置610与目标识别装置620的交互,图像采集装置610将采集到的待识别图像发送至目标识别装置620。
[0135]
在一些实施例中,图像采集装置610为双目摄像头。
[0136]
需要说明的是,本实施例提供的目标识别系统600中的目标识别装置620的原理及工作流程与前述实施例提供的目标识别方法相似,相关之处可以参照上述说明,在此不再赘述。
[0137]
如图7所示,适于用来实现上述实施例提供的目标识别系统600中的目标识别装置620的计算机系统,包括中央处理模块(cpu),其可以根据存储在只读存储器(rom)中的程序或者从存储部分加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在ram中,还存储有计算机系统操作所需的各种程序和数据。cpu、rom以及ram通过总线被此相连。输入/输入(i/o)接口也连接至总线。
[0138]
以下部件连接至i/o接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(lcd)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至i/o接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
[0139]
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
[0140]
附图中的流程图和示意图,图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0141]
描述于本实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括计算模块、生成模块和识别模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。例如,识别模块还可以被描述为“目标识别模块”等。
[0142]
作为另一方面,本实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质,也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质
存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:计算待识别图像的深度信息,并对待识别图像进行超像素分割,得到超像素图像;根据所述超像素图像的图像数据和所述深度信息生成三维图像数据;将所述三维图像数据输入深度神经网络进行目标识别,得到识别结果。
[0143]
需要说明的是,在本技术的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0144]
显然,本技术的上述实施例仅仅是为清楚地说明本技术所作的举例,而并非是对本技术的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本技术的技术方案所引伸出的显而易见的变化或变动仍处于本技术的保护范围之列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1