一种垃圾物品上的文字信息提取方法与流程

文档序号:18622212发布日期:2019-09-06 22:35阅读:263来源:国知局
一种垃圾物品上的文字信息提取方法与流程

本申请涉及图像识别技术领域,例如涉及一种垃圾物品上的文字信息提取方法。



背景技术:

目前,随着工业化和城市化的迅速发展,各类消费品呈现爆炸性增长,导致城市生活垃圾也随之急剧增多,我国众多大中城市已出现严重的垃圾围城问题。巨量的城市垃圾堆积会对城市周边自然生态环境和居民健康造成极大危害。为了破解“垃圾围城”困局,需要通过垃圾分类来实现垃圾资源化、减量化、无害化处理。但考虑到我国国民分类投放意识不强造成生活垃圾主要为混合投放,且这一现状短时间内无法改变。为了实现垃圾资源最大化利用,迫切需要研制小型化、经济型、检测精度高、速度快的基于智能视觉检测的垃圾物品精分拣系统。高精度视觉分类是垃圾物品精分拣系统研制的关键环节。最近几年国外少数几个课题组提出了几种基于视觉的垃圾物品分类方法,但这些算法都是依据物品的全局图像信息,最高识别准确率也只到达了81%。

在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:这些基于视觉的垃圾物品分类方法的识别准确率较低,很难达到高纯度垃圾回收的检测要求。



技术实现要素:

为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。

本公开实施例提供了一种垃圾物品上的文字信息提取方法,其特征在于,包括:

获得待检测图像的融合特征图;

利用训练好的文本检测分支神经网络识别所述融合特征图,获得所述待检测图像的文本区域;

在所述融合特征图中获得所述文本区域中的文本融合特征图;

利用训练好的文本识别分支神经网络识别所述文本融合特征图,获得文本识别结果。

优选地,所述获得待检测图像的融合特征图,包括:

通过预设卷积网络获得所述待检测图像的高层特征和低层特征;

融合所述高层特征和所述低层特征,获得所述融合特征图。

优选地,所述融合特征图的尺寸为所述待检测图像的尺寸的1/4。

优选地,所述利用训练好的文本检测分支神经网络识别所述融合特征图,获得所述待检测图像的文本区域,包括:

对所述融合特征图进行卷积核为1*1的卷积操作,获得单通道的文本分数特征图和多通道的文本位置特征图;

根据所述单通道的文本分数特征图和多通道的文本位置特征图获得所述文本区域。

优选地,所述在所述融合特征图中获得所述文本区域中的文本融合特征图,包括:

通过所述文本区域的坐标信息计算出仿射变换参数;

利用所述仿射变换参数对所述文本区域位置的融合特征图进行仿射变换操作;

获得可供所述文本识别分支神经网络识别的文本融合特征图。

优选地,所述利用训练好的文本识别分支神经网络识别所述文本融合特征图,获得文本识别结果,包括:

将所述文本融合特征图输入到类vgg卷积层和池化层中以提取出高级特征;

将所述高级特征重新排列为时间序列的形式并送入双向rnn网络中进行编码;

对两个方向上的每个时间点的隐藏层状态求和后输入到一层全连接层中,获得每个时间点上的状态在每个字母上的状态得分;

利用ctc解码器将所述状态得分转换为标签序列,获得所述文本识别结果。

优选地,所述文本检测分支神经网络或所述文本识别分支神经网络的训练集中包括位置标注和内容标注。

优选地,训练所述文本识别分支神经网络的损失函数包括文本检测损失和文本识别损失。

本公开实施例提供的一种垃圾物品上的文字信息提取方法,可以实现以下技术效果:

物品外包装上的文字信息(如品牌、常用广告语、产品使用说明等)也可为垃圾物品类别的准确预测提供非常有价值的线索,利用基于像素分割的文本检测与任意长度文本识别方法相结合的方法提取外包装上的文字信息,可提高识别垃圾物品的准确率,进而提高对垃圾物品分类的准确率。

以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。

附图说明

一个或一个以上实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:

图1是本公开实施例提供的一种垃圾物品上的文字信息提取方法流程示意图;

图2是本公开实施例提供的一种垃圾物品上的文字信息提取方法流程示意图;

图3是本公开实施例提供的一种垃圾物品上的文字信息提取方法流程示意图;

图4是本公开实施例提供的一种垃圾物品上的文字信息提取方法流程示意图;

图5是本公开实施例提供的一种垃圾物品上的文字信息提取方法流程示意图;

图6是本公开实施例提供的神经网络的结构示意图;

图7是本公开实施例提供的用于识别文本的装置的方框示意图;

图8是本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或一个以上实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。

本公开实施例提供了一种垃圾物品上的文字信息提取方法。

如图1所示,在一些实施例中,一种垃圾物品上的文字信息提取方法包括:

s101、获得待检测图像的融合特征图;

s102、利用训练好的文本检测分支神经网络识别融合特征图,获得待检测图像的文本区域;

s103、在融合特征图中获得文本区域中的文本融合特征图;

s104、利用训练好的文本识别分支神经网络识别文本融合特征图,获得文本识别结果。

物品外包装上的文字信息(如品牌、常用广告语、产品使用说明等)也可为垃圾物品类别的准确预测提供非常有价值的线索,利用基于像素分割的文本检测与任意长度文本识别方法相结合的方法提取外包装上的文字信息,可提高识别垃圾物品的准确率,进而提高对垃圾物品分类的准确率。

如图2所示,在一些实施例中,s101中获得待检测图像的融合特征图,包括:

s201、通过预设卷积网络获得待检测图像的高层特征和低层特征;

s202、融合高层特征和低层特征,获得融合特征图。

在一些实施例中,融合特征图的尺寸为待检测图像的尺寸的1/4。

在一些实施例中,预设卷积网络包括5个卷积部分。可选地,每个卷积部分包括卷积层和池化层。

在一些实施例中,预设卷积网络为基于resnet(residualneuralnetwork,残差神经网络)-34的神经网络。

其整体架构如图6所示,配置如表1所示,包括5个部分,分别为conv1,conv2_x,conv3_x,conv4_x,conv5_x,用于逐级提取图像的特征,每个部分包含数量不等的卷积层和一个池化层,对于输入的图像,经过resnet-34的每个部分处理后,其输出特征图的分辨率缩小2倍,最后将经过conv2_x,conv3_x,conv4_x,conv5_x后输出的特征图进行上采样等操作后进行融合,得到的融合特征图大小为原始输入图像大小的1/4。

resnet-34的网络配置如表1所示。

表1resnet-34网络配置表

如图3所示,在一些实施例中,s102中利用训练好的文本检测分支神经网络识别融合特征图,获得待检测图像的文本区域,包括:

s301、对融合特征图进行卷积核为1*1的卷积操作,获得单通道的文本分数特征图和多通道的文本位置特征图;

s302、根据单通道的文本分数特征图和多通道的文本位置特征图获得文本区域。

如图4所示,在一些实施例中,s103中在融合特征图中获得文本区域中的文本融合特征图,包括:

s401、通过文本区域的坐标信息计算出仿射变换参数。

仿射变换参数的计算如下式所示:

tx=l*cosθ-t*sinθ-x

ty=t*cosθ+l*sinθ-y

wt=s*(l+r)

其中m是仿射变换矩阵,ht,wt为特征图经过仿射变换后的高度和宽度,(x,y)为融合特征图中任意点的坐标,(t,b,l,r)为这个点到文本区域的上下左右边的距离,θ为文本区域的旋转角度。

s402、利用仿射变换参数对文本区域位置的融合特征图进行仿射变换操作。

仿射变换操作可通过如下方式进行:

并且对于

其中是在通道c上坐标为(i,j)的点的像素值,是在通道c上坐标为(n,m)的点的像素值。hs,ws为输入文本区域特征图的高度和宽度,φx,φy为通用采样核k()的参数。

s403、获得可供文本识别分支神经网络识别的文本融合特征图。

如图5所示,在一些实施例中,s104中利用训练好的文本识别分支神经网络识别文本融合特征图,获得文本识别结果,包括:

s501、将文本融合特征图输入到类vgg(visualgeometrygroupnetwork,视觉几何组网络)卷积层和池化层中以提取出高级特征。

例如,高级特征为l∈rc×h×w

s502、将高级特征重新排列为时间序列的形式并送入双向rnn网络中进行编码。

例如,时间序列形式为l1,...lw∈rc×h。此处双向rnn网络一个双向lstm(longshort-termmemory,长短期记忆网络)模块,每个方向上有256个输出通道。

s503、对两个方向上的每个时间点的隐藏层状态求和后输入到一层全连接层中,获得每个时间点上的状态在每个字母上的状态得分。

例如,每个时间点的隐藏层状态为h1,...,hw∈rd

s504、利用ctc(connectionisttemporalclassification,联结主义时间分类)解码器将状态得分转换为标签序列,获得文本识别结果。

在一些实施例中,文本检测分支神经网络或文本识别分支神经网络的训练集中包括位置标注和内容标注。

在一些实施例中,位置标注为以文本区域的四个顶点中的任意一个顶点的坐标为起点进行标注的。

在一些实施例中,位置标注为按照设定顺序排列的。

在一些实施例中,设定顺序包括顺时针顺序和逆时针顺序。

在一些实施例中,训练文本识别分支神经网络的损失函数包括文本检测损失和文本识别损失。可选地,损失函数为iou(intersectionoverunion,交并比)损失。

在一些实施例中,文本检测分支神经网络或文本识别分支神经网络的训练集与测试集的比例为9:1。

在一些实施例中,上述训练集和上述测试集的总量为4000。

本公开提供了一种用于识别文本的装置。

如图7所示,在一些实施例中,用于识别文本的装置包括:

融合特征图获得模块71,被配置为获得待检测图像的融合特征图;

文本区域获得模块72,被配置为利用训练好的文本检测分支神经网络识别融合特征图,获得待检测图像的文本区域;

文本融合特征图获得模块73,被配置为在融合特征图中筛选出文本区域中的文本融合特征图;

文本识别模块74,被配置为利用训练好的文本识别分支神经网络识别文本融合特征图,获得文本识别结果。

在一些实施例中,融合特征图获得模块包括:

第一特征提取单元,被配置为通过预设卷积网络获得待检测图像的高层特征和低层特征;

特征融合单元,被配置为融合高层特征和低层特征,获得融合特征图。

在一些实施例中,融合特征图的尺寸为待检测图像的尺寸的1/4。

在一些实施例中,预设卷积网络包括5个卷积部分。

在一些实施例中,每个卷积部分包括卷积层和池化层。

在一些实施例中,文本区域获得模块包括:

第二特征提取单元,被配置为对融合特征图进行卷积核为1*1的卷积操作,获得单通道的文本分数特征图和多通道的文本位置特征图;

文本区域获得单元,被配置为根据单通道的文本分数特征图和多通道的文本位置特征图获得文本区域。

在一些实施例中,文本融合特征图获得模块包括:

参数计算单元,被配置为通过文本区域的坐标信息计算出仿射变换参数;

变换单元,被配置为利用仿射变换参数对文本区域位置的融合特征图进行仿射变换操作;

获得单元,被配置为获得可供文本识别分支神经网络识别的文本融合特征图。

在一些实施例中,文本识别模块包括:

第三特征提取单元,被配置为将文本融合特征图输入到类vgg卷积层和池化层中以提取出高级特征;

编码单元,被配置为将高级特征重新排列为时间序列的形式并送入双向rnn网络中进行编码;

评分单元,被配置为对两个方向上的每个时间点的隐藏层状态求和后输入到一层全连接层中,获得每个时间点上的状态在每个字母上的状态得分;

识别单元,被配置为利用ctc解码器将状态得分转换为标签序列,获得文本识别结果。

在一些实施例中,文本检测分支神经网络或文本识别分支神经网络的训练集中包括位置标注和内容标注。

在一些实施例中,位置标注为以文本区域的四个顶点中的任意一个顶点的坐标为起点进行标注的。

在一些实施例中,位置标注为按照设定顺序排列的。

在一些实施例中,设定顺序包括顺时针顺序和逆时针顺序。

在一些实施例中,训练文本识别分支神经网络的损失函数包括文本检测损失和文本识别损失。

本公开提供一种用于识别文本的系统。

在一些实施例中,用于识别文本的系统包括前述的用于识别文本的装置。

本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述用于识别文本的方法。

本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于识别文本的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。

本公开实施例提供了一种电子设备,其结构如图8所示,该电子设备包括:

至少一个处理器(processor)80,图8中以一个处理器80为例;和存储器(memory)81,还可以包括通信接口(communicationinterface)82和总线83。其中,处理器80、通信接口82、存储器81可以通过总线83完成相互间的通信。通信接口82可以用于信息传输。处理器80可以调用存储器81中的逻辑指令,以执行上述实施例的用于识别文本的方法。

此外,上述的存储器81中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

存储器81作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器80通过运行存储在存储器81中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的方法。

存储器81可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器81可以包括高速随机存取存储器,还可以包括非易失性存储器。

本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或一个以上指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:u盘、移动硬盘、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。

以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。本公开实施例的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。当用于本申请中时,虽然术语“第一”、“第二”等可能会在本申请中使用以描述各元件,但这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区别开。比如,在不改变描述的含义的情况下,第一元件可以叫做第二元件,并且同样地,第二元件可以叫做第一元件,只要所有出现的“第一元件”一致重命名并且所有出现的“第二元件”一致重命名即可。第一元件和第二元件都是元件,但可以不是相同的元件。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或一个以上用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1