图像识别方法、相关装置和设备与流程

文档序号：18476044发布日期：2019-08-20 21:05阅读：125来源：国知局

本发明涉及计算机领域，尤其涉及图像是被方法、相关装置和设备。
背景技术：
：：光学字符识别(opticalcharacterrecognition，ocr)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。其中，误识率或者识别准确率是衡量ocr性能好坏的一项重要指标。目前，ocr数学字符识别的应用领域很广泛，它在很多场合可替代键盘完成高速的文字录入人文。例如用ocr进行印刷体文稿的识别录入，这是很多办公部门经常使用方法之一；还有可对图形、图像和文本等混排的复杂版面进行自动切分的印刷体识别；还有通过对手写体数字的识别实现邮件自动分拣系统；以及实现手写体表格数据自动录入，其可广泛应用于政府、税务、保险、商、医疗、金融、厂矿等各行业的申报表、调查表等表格数据的输入和处理，等等。现有技术中，对于图像中的字符进行识别，特别是对数学公式进行识别时，往往先对图像进行二值化处理，然后进行字符分隔，切分提取出单个数学字符，并提取数学字符的特征，然后根据字符间的位置关系使用随机上下文无法文法规则进行数学表达式的推导生成数学公式。然后上述现有技术对于存在粘连的字符，分隔算法不能很好的处理，导致识别准确率低。技术实现要素：本发明实施例所要解决的技术问题在于，提供一种图像识别方法、一种图像识别装置、一种图像识别设备、以及一种计算机可读存储介质，解决现有技术对于存在粘连的字符，分隔算法不能很好的处理，导致识别准确率低的技术问题。为了解决上述技术问题，本发明实施例的其中一个方面公开了一种图像识别方法，包括：对图像进行二值化处理，得到二值图；所述图像包括多个字符；对所述二值图进行骨架提取，提取出所述多个字符的骨架信息；从所述骨架信息中提取笔触信息；所述笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息；通过基于深度学习网络的时序识别引擎分析所述笔触信息，识别出所述多个字符以及字符间位置关系信息。结合上述一种图像识别方法，所述对所述二值图进行骨架提取，包括：对所述二值图进行迭代腐蚀处理，直到相对上一次腐蚀后的二值图没有新的像素点被腐蚀；其中每次迭代腐蚀包括依次遍历所述二值图中的像素点，对符合指定条件的像素点进行腐蚀。结合上述一种图像识别方法，所述符合指定条件的像素点包括满足以下任一条件的目标像素点：目标像素点周围8邻的像素点中二值为1的像素点的个数大于等于第一阈值，小于等于第二阈值；所述第一阈值小于所述第二阈值；以顺时针方向查看目标像素点周围8邻的像素点，相邻两个像素点的二值序列为01的次数等于第三阈值；距离相对最近的4个相邻像素点中，存在至少一个像素点的二值为0；所述距离包括与目标像素点相邻的像素点的中心到所述目标像素点的中心的距离。结合上述一种图像识别方法，所述将所述笔触信息经过基于深度学习网络的时序识别引擎，识别所述多个字符以及字符间位置关系信息，包括：将所述笔触信息由卷积神经网络(convolutionalneuralnetwork，cnn)进行特征提取；将提取的特征输入到长短期记忆网络(longshort-termmemory，lstm)中进行字符识别，识别所述多个字符以及字符间位置关系信息。结合上述一种图像识别方法，所述长短期记忆网络lstm为双向lstm。结合上述一种图像识别方法，所述对图像进行二值化处理包括：采用最大稳定极值区域(maximallystableextremalregions，mser)算法对图像进行二值化处理。结合上述一种图像识别方法，所述多个字符包括数学表达式；所述识别出所述多个字符以及字符间位置关系信息之后，还包括：根据识别出的所述多个字符输出拉泰赫(latex)表达式。结合上述一种图像识别方法，所述从所述骨架信息中提取笔触信息包括：针对所述骨架信息按照连通域进行遍历，提取笔触特征点；其中在笔画分叉的情况下，优先提取与上一笔触特征点的方向角较小的笔触特征点。本发明实施例另一个方面公开了一种图像识别装置，包括：处理单元，用于对图像进行二值化处理，得到二值图；该图像包括多个字符；提取单元，用于对该二值图进行骨架提取，提取出该多个字符的骨架信息；提取信息单元，用于从该骨架信息中提取笔触信息；该笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息；识别单元用于通过基于深度学习网络的时序识别引擎分析所述笔触信息，识别出所述多个字符以及字符间位置关系信息。结合上述一种图像识别装置，所述提取单元具体用于对所述二值图进行迭代腐蚀处理，直到相对上一次腐蚀后的二值图没有新的像素点被腐蚀；其中每次迭代腐蚀包括依次遍历所述二值图中的像素点，对符合指定条件的像素点进行腐蚀。结合上述一种图像识别装置，所述符合指定条件的像素点包括满足以下任一条件的目标像素点：目标像素点周围8邻的像素点中二值为1的像素点的个数大于等于第一阈值，小于等于第二阈值；所述第一阈值小于所述第二阈值；以顺时针方向查看目标像素点周围8邻的像素点，相邻两个像素点的二值序列为01的次数等于第三阈值；距离最近的相邻像素点中，存在至少一个像素点的二值为0；所述距离包括与目标像素点相邻的像素点的中心到所述目标像素点的中心的距离。结合上述一种图像识别装置，所述识别单元包括：特征提取单元，用于将该笔触信息由卷积神经网络cnn进行特征提取；字符识别单元，用于将提取的特征输入到长短期记忆网络lstm中进行字符识别，识别该多个字符以及字符间位置关系信息。结合上述一种图像识别装置，所述多个字符包括数学表达式；所述识别单元输出识别出的所述多个字符包括：根据识别出的所述多个字符输出latex表达式。结合上述一种图像识别装置，所述提取信息单元具体用于，针对所述骨架信息按照连通域进行遍历，提取笔触特征点；其中在笔画分叉的情况下，优先提取与上一笔触特征点的方向角较小的笔触特征点。本发明实施例另一个方面公开了一种图像识别设备，包括处理器和存储器，所述处理器、和存储器相互连接，其中，所述存储器用于存储应用程序代码，所述处理器被配置用于调用所述程序代码，执行上述一种图像识别方法。本发明实施例另一个方面公开了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述一种图像识别方法。实施本发明实施例，通过对二值图进行骨架提取，提取出多个字符的骨架信息，然后从骨架信息中提取笔触信息，将笔触信息经过基于深度学习网络的时序识别引擎，识别多个字符以及字符间位置关系信息，无需人工设计特征，并且不需要做字符分隔，解决了现有技术对于存在粘连的字符，分隔算法不能很好的处理，导致识别准确率低的技术问题；特别的本发明实施例通过基于时序的深度学习识别模型进行数字字符的识别，将通过cnn提取的特征输入双向lstm网络中即可输出latex表达式，不需要对图像的字符进行分割，也不需要分析字符间的空间位置关系，这些信息都由深度学习识别模型学习获得的，即实现了端到端的识别，因此本发明实施例可以适应多种复杂场景，识别准确率得到了很大的提高。附图说明为了说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1是本发明实施例提供的图形识别方法的流程示意图；图2是本发明实施例提供的输入图像的示意图；图3是本发明实施例提供的二值图的示意图；图4是本发明实施例提供的图像骨架提取的示意图；图5是本发明实施例提供的像素点的结构示意图；图6是本发明提供的另一实施例的像素点的结构示意图；图7是本发明提供的另一实施例的像素点的实例结构示意图；图8是本发明提供的另一实施例的图像骨架提取的示意图；图9a是本发明实施例提供的笔触信息的示意图；图9b是本发明提供的另一实施例的笔触信息的示意图；图10是本发明实施例提供的时序识别引擎的原理示意图；图11是本发明实施例提供的lstm网络的结构示意图；图12是本发明提供的另一实施例的时序识别引擎的原理示意图；图13是本发明实施例提供的双向lstm网络的结构示意图；图14是本发明实施例提供的图像识别装置的结构示意图；图15是本发明实施例提供的识别单元的结构示意图；图16是本发明实施例提供的图像识别设备的结构示意图。具体实施方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。具体实现中，本发明实施例中描述的终端或设备包括但不限于诸如台式计算机、膝上型计算机、平板计算机、智能终端如智能手机、智能手表、智能眼镜等便携式移动终端。为了更好的理解本发明实施例提供的一种图像识别方法、图像识别装置和图像识别设备，下面先对本发明实施例的图像识别场景进行描述。本发明实施例的图像识别是在图像识别装置或图像识别设备获取到需要识别的图像后，该图像包括多个字符，例如是数学公式，对该图像进行识别并输出图像中的字符的过程。输出的字符便于相关人员进行信息录入、或便于邮政系统进行信函分拣、或便于后续搜索与之匹配的相关信息等等。下面结合附图对本发明实施例提供的一种图像识别方法、图像识别装置和图像识别设备进行详细说明。如图1示出的本发明实施例提供的图形识别方法的流程示意图，可以包括以下步骤：步骤s100：对图像进行二值化处理，得到二值图；具体地，本发明实施例中的图像可以包括多个字符；对图像的二值化(imagebinarization)就是将图像上的像素点的灰度值设置为0或255，从而得到二值图，也就是将整个图像呈现出明显的黑白效果的过程。本发明实施例可以将二值后灰度值为0的像素点的二值表示为0，将灰度值为255的像素点的二值表示为1。在本发明其中一个实施例中，二值化算法可以采用性能最好的仿射不变区域最大稳定极值区域(maximallystableextremalregions，mser)算法来提取出连通区域并过滤掉过小、过大以及长宽比异常的区域，输出二值图。具体参考图2示出的本发明实施例提供的输入图像的示意图，图2中的图像包括多个字符，该多个字符组成了一个数学表达式；通过步骤s100对该图像进行二值化处理后，得到如图3示出的本发明实施例提供的二值图的示意图，输出了一个呈现明显的黑白效果的图像。步骤s102：对该二值图进行骨架提取，提取出该多个字符的骨架信息；具体地，如图4示出的本发明实施例提供的图像骨架提取的示意图，图像骨架提取就是提取目标在图像上的中心像素轮廓，也就是说是以目标中心为准，对目标进行细化。骨架提取算法可以分为迭代和非迭代两大类，在迭代算法中，又分为并行迭代和顺序迭代两种，等等。在本发明其中一个实施例中，可以对该二值图进行迭代腐蚀处理，直到相对上一次腐蚀后的二值图没有新的像素点被腐蚀；其中每次迭代腐蚀包括依次遍历该二值图中的像素点，对符合指定条件的像素点进行腐蚀。需要说明的是，本发明实施例中的腐蚀可以是指在形态学中除去图像的某些部分，具体可以指删除对象边界某些像素，那么对二值图进行腐蚀可以是指将二值图中二值为1的像素点删除，也就是说使得该二值为1的像素点变成二值为0的像素点。具体地，本发明实施例可以根据自身的骨骼化需求来设置该指定条件，例如本发明中的符合指定条件的像素点可以包括满足以下任一条件的目标像素点：条件a、目标像素点周围8邻的像素点中二值为1的像素点的个数大于等于第一阈值，小于等于第二阈值；该第一阈值小于该第二阈值；具体地，可以参考下面公式1：第一阈值≤b(p1)≤第二阈值公式1其中，可以参考图5示出的本发明实施例提供的像素点的结构示意图，p1为我们要判断是否腐蚀(或删去)的目标像素点，p1周围8邻的像素点标记为p2、p3、p4、p5、p6、p7、p8、p9；本发明实施例以像素点的二值为0或1为例，那么b(p1)是指该中心像素点p1(即目标像素点)周围8邻的像素点中二值为1的像素点的个数，即相当于b(p1)＝p2+p3+p4+p5+p6+p7+p8+p9。在其中一个实施例中，该第一阈值可以为2，第二阈值可以为6。条件b、以顺时针方向查看目标像素点周围8邻的像素点，相邻两个像素点的二值序列为01的次数等于第三阈值；具体地，可以参考下面公式2：a(p1)＝第三阈值公式2其中，可以参考图6示出的本发明提供的另一实施例的像素点的结构示意图，顺时针方向即从p3到p4到p5到p6，以此类推以从p2回到p3的方向；a(p1)即为以顺时针方向查看目标像素点周围8邻的像素点，相邻两个像素点的二值序列为01的次数。在其中一个实施例中，该第三阈值可以为1，那么以图7为例，图7示出的本发明提供的另一实施例的像素点的实例结构示意图，从左侧的实例可以看出相邻两个像素点的二值序列为01的次数为2，从p2到p3是序列01，和从p6到p7是序列01，那么不符合该条件b；而从右侧的实例可以看出相邻两个像素点的二值序列为01的次数为1，只有从p9到p2是序列01，那么符合该条件b，则腐蚀该p1点。条件c、距离相对最近的4个相邻像素点中，存在至少一个像素点的二值为0；该距离包括与目标像素点相邻的像素点的中心到该目标像素点的中心的距离。具体地，可以参考下面公式3：p2*p4*p6*p8＝0公式3其中，可以参考上述图5示出的本发明实施例提供的像素点的结构示意图，以p1为目标像素点，距离p1相对最近的相邻像素点是分别是p2、p4、p6和p8，也就是说，p2、p4、p6和p8的中心分别到p1的中心的距离，都要小于p3、p5、p7和p9的中心分别到p1的中心的距离；特别的理想情况下，p2、p4、p6和p8的中心分别到p1的中心的距离是相等的，且都为距离最近的相邻像素点，即本发明实施例条件c还可以为距离最近的相邻像素点中，存在至少一个像素点的二值为0。举例，若p2的二值为0，那么符合该条件c，则腐蚀该p1点。若p2、p4、p6和p8的二值都不为0，则不符合该条件c。进一步地，可以在本次迭代为奇数次迭代时，判断p2*p4*p6＝0，或p4*p6*p8＝0是否成立，当成立，则符合该条件c，腐蚀该p1点；在本次迭代为偶数次迭代时，判断p2*p4*p8＝0，或p2*p6*p8＝0是否成立，当成立，则符合该条件c，腐蚀该p1点。以图3示出的二值图为例，经过步骤s102进行骨架提取，提取出该多个字符的骨架信息，得到的效果图，可以参考图8示出的本发明提供的另一实施例的图像骨架提取的示意图，通过多次迭代的膨胀、腐蚀实现了字符图像的骨骼化，使得图像中的目标变得越来越细。步骤s104：从该骨架信息中提取笔触信息；具体地，本发明实施例通过笔触提取算法，从该骨架信息中提取出笔触信息，如图9a示出的本发明实施例提供的笔触信息的示意图，本发明实施例中的笔触信息可以包括笔触特征点个数以及相邻笔触特征点之间的位置信息；如图9a中，每个点即为笔触特征点，相邻的笔触特征点之间存在位置关系，比如图9a中从笔触特征点a到相邻的笔触特征点b存在位置关系，可以通过矢量信息来表示从笔触特征点a到相邻的笔触特征点b的方向角。在其中一个实施例中，从骨架信息中提取笔触信息可以包括针对该骨架信息按照连通域进行遍历，提取笔触特征点；其中在笔画分叉的情况下，优先提取与上一笔触特征点的方向角较小的笔触特征点。本发明实施例中的连通域可以是指笔触特征点相连的区域；本发明实施例中的笔画分叉可以是指从某个笔触特征点开始延某个方向进行笔触特征点的遍历时，当下一个相连的笔触特征点存在多个时，则出现笔画分叉；本发明实施例中的方向角是指当前笔触特征点与上一个相连的笔触特征点之间存在的方向角，具体可以是从遍历的上一个相连的笔触特征点的方向与遍历当前笔触特征点的方向的夹角。具体地，如图9b示出的本发明提供的另一实施例的笔触信息的示意图，图9b中笔触信息为图9a中的x的笔触信息的放大显示图，从笔触特征点c开始，按照连通域遍历下一个笔触特征点d，当笔触特征点e开始存在分叉，分叉有笔触特征点f、笔触特征点g和笔触特征点h，那么优先遍历方向角为0度的笔触特征点f，其次遍历方向角为90度的笔触特征点g，最后遍历方向角为270度的笔触特征点h。步骤s106：通过基于深度学习网络的时序识别引擎分析所述笔触信息，识别出该多个字符以及字符间位置关系信息。其中，本发明实施例的时序识别引擎可以采用基于长短期记忆网络(longshort-termmemory，lstm)的深度学习网络。具体地，输入步骤s104得到的笔触信息后，网络可以由卷积神经网络(convolutionalneuralnetwork，cnn)来提取特征，再将提取的特征输入到lstm网络中完成该多个字符以及字符间位置关系信息的识别，并最终可以输出识别出的该多个字符。可以参考如图10示出的本发明实施例提供的时序识别引擎的原理示意图，输入的笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息，经过cnn网络10提取特征，经过两次3*3的通道数为64的卷积层，然后进行池化层处理，再经过两次3*3的通道数为128的卷积层，然后进行池化层处理，两次3*3的通道数为256的卷积层，然后进行池化层处理，最后两次3*3的通道数为512的卷积层，然后进行池化层处理输出提取的特征。本发明实施例不限于图10中不限于3*3的卷积，还可以为5*5等等，提取的特征可以分为多个时序单元的笔触信息，然后依次输入lstm网络来完成该多个字符以及字符间位置关系信息的识别，最终输出识别出的该多个字符。具体的lstm网络的结构可以参考如图11示出的本发明实施例提供的lstm网络的结构示意图，以图2中的图像为例，那么从cnn网络可以提取出11个时序单元的笔触信息，将各个时序单元的笔触信息按时序通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态中，最终即可输出识别出的该多个字符。实施本发明实施例，通过对二值图进行骨架提取，提取出多个字符的骨架信息，然后从骨架信息中提取笔触信息，将笔触信息经过基于深度学习网络的时序识别引擎，识别多个字符以及字符间位置关系信息，无需人工设计特征，并且不需要做字符分隔，解决了现有技术对于存在粘连的字符，分隔算法不能很好的处理，导致识别准确率低的技术问题。再进一步地，如图12示出的本发明提供的另一实施例的时序识别引擎的原理示意图，本发明实施例的步骤s106中的lstm可以为双向lstm，具体可以参考图13示出的本发明实施例提供的双向lstm网络的结构示意图，那么同样以图2中的图像为例，从cnn网络可以提取出11个时序单元的笔触信息，将各个时序单元的笔触信息按时序通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态中，最终即可输出识别出的该多个字符。在其中一个实施例中，本发明实施例中的多个字符可以包括数学表达式，那么输出识别出的该多个字符可以包括：根据识别出的该多个字符输出latex表达式。本发明实施例通过基于时序的深度学习识别模型进行数字字符的识别，将通过cnn提取的特征输入双向lstm网络中即可输出latex表达式，不需要对图像的字符进行分割，也不需要分析字符间的空间位置关系，这些信息都由深度学习识别模型学习获得的，即实现了端到端的识别，因此本发明实施例可以适应多种复杂场景，识别准确率得到了很大的提高。为了便于更好地实施本发明实施例的上述方案，本发明还对应提供了一种图像识别装置，下面结合附图来进行详细说明：如图14示出的本发明实施例提供的图像识别装置的结构示意图，图像识别装置14可以包括：处理单元140、提取单元142、提取信息单元144和识别单元146，其中，处理单元140用于对图像进行二值化处理，得到二值图；该图像包括多个字符；提取单元142用于对该二值图进行骨架提取，提取出该多个字符的骨架信息；提取信息单元144用于从该骨架信息中提取笔触信息；该笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息；识别单元146用于通过基于深度学习网络的时序识别引擎分析所述笔触信息，识别出所述多个字符以及字符间位置关系信息，输出识别出的所述多个字符。其中，提取单元142具体用于对该二值图进行迭代腐蚀处理，直到相对上一次腐蚀后的二值图没有新的像素点被腐蚀；其中每次迭代腐蚀包括依次遍历该二值图中的像素点，对符合指定条件的像素点进行腐蚀。本发明实施例符合指定条件的像素点可以包括满足以下任一条件的目标像素点：条件a、目标像素点周围8邻的像素点中二值为1的像素点的个数大于等于第一阈值，小于等于第二阈值；该第一阈值小于该第二阈值；条件b、以顺时针方向查看目标像素点周围8邻的像素点，相邻两个像素点的二值序列为01的次数等于第三阈值；条件c、距离相对最近的4个相邻像素点中，存在至少一个像素点的二值为0；该距离包括与目标像素点相邻的像素点的中心到该目标像素点的中心的距离。在本发明其中一个实施例中，提取信息单元1404可以具体用于针对该骨架信息按照连通域进行遍历，提取笔触特征点；其中在笔画分叉的情况下，优先提取与上一笔触特征点的方向角较小的笔触特征点。具体地，本发明实施例提取单元142可以通过笔触提取算法，从该骨架信息中提取出笔触信息，如图9a示出的本发明实施例提供的笔触信息的示意图，本发明实施例中的笔触信息可以包括笔触特征点个数以及相邻笔触特征点之间的位置信息；如图9a中，每个点即为笔触特征点，相邻的笔触特征点之间存在位置关系，比如图9a中从笔触特征点a到相邻的笔触特征点b存在位置关系，可以通过矢量信息来表示从笔触特征点a到相邻的笔触特征点b的方向角。在其中一个实施例中，提取单元142从骨架信息中提取笔触信息可以包括针对该骨架信息按照连通域进行遍历，提取笔触特征点；其中在笔画分叉的情况下，优先提取与上一笔触特征点的方向角较小的笔触特征点。具体地，如图9b示出的本发明提供的另一实施例的笔触信息的示意图，图9b中笔触信息为图9a中的x的笔触信息的放大显示图，从笔触特征点c开始，按照连通域遍历下一个笔触特征点d，当笔触特征点e开始存在分叉，分叉有笔触特征点f、笔触特征点g和笔触特征点h，那么优先遍历方向角为0度的笔触特征点f，其次遍历方向角为90度的笔触特征点g，最后遍历方向角为270度的笔触特征点h。在本发明其中一个实施例中，如图15示出的本发明实施例提供的识别单元的结构示意图，识别单元146可以包括特征提取单元1460和字符识别单元1462，其中，特征提取单元1460用于将该笔触信息由卷积神经网络cnn进行特征提取；字符识别单元1462用于将提取的特征输入到长短期记忆网络lstm中进行字符识别，识别该多个字符以及字符间位置关系信息。在本发明其中一个实施例中，长短期记忆网络lstm可以为双向lstm。在本发明其中一个实施例中，该多个字符可以包括数学表达式；本发明实施例的时序识别引擎可以采用基于长短期记忆网络(longshort-termmemory，lstm)的深度学习网络。具体地，提取信息单元144得到的笔触信息后，网络可以由卷积神经网络(convolutionalneuralnetwork，cnn)来提取特征，再将提取的特征输入到lstm网络中完成该多个字符以及字符间位置关系信息的识别，最终输出识别出的该多个字符。图10示出的本发明实施例提供的时序识别引擎的原理示意图可以参考如图10示出的本发明实施例提供的时序识别引擎的原理示意图，输入的笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息，经过cnn网络10提取特征，本发明实施例不限于图10中不限于3*3的卷积，还可以为5*5等等，特征提取单元1460提取的特征可以分为多个时序单元的笔触信息，然后依次输入lstm网络来完成该多个字符以及字符间位置关系信息的识别，最终输出识别出的该多个字符。具体的lstm网络的结构可以参考如图11示出的本发明实施例提供的lstm网络的结构示意图，以图2中的图像为例，那么从cnn网络可以提取出11个时序单元的笔触信息，字符识别单元1462将各个时序单元的笔触信息按时序通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态中，最终即可输出识别出的该多个字符。实施本发明实施例，通过对二值图进行骨架提取，提取出多个字符的骨架信息，然后从骨架信息中提取笔触信息，将笔触信息经过基于深度学习网络的时序识别引擎，识别多个字符以及字符间位置关系信息，无需人工设计特征，并且不需要做字符分隔，解决了现有技术对于存在粘连的字符，分隔算法不能很好的处理，导致识别准确率低的技术问题。再进一步地，如图12示出的本发明提供的另一实施例的时序识别引擎的原理示意图，本发明实施例的lstm可以为双向lstm，具体可以参考图13示出的本发明实施例提供的双向lstm网络的结构示意图，那么同样以图2中的图像为例，从cnn网络可以提取出11个时序单元的笔触信息，字符识别单元1462将各个时序单元的笔触信息按时序通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态中，最终即可输出识别出的该多个字符。在其中一个实施例中，本发明实施例中的多个字符可以包括数学表达式，那么识别单元146输出识别出的该多个字符可以包括：根据识别出的该多个字符输出latex表达式。本发明实施例通过基于时序的深度学习识别模型进行数字字符的识别，将通过cnn提取的特征输入双向lstm网络中即可输出latex表达式，不需要对图像的字符进行分割，也不需要分析字符间的空间位置关系，这些信息都由深度学习识别模型学习获得的，即实现了端到端的识别，因此本发明实施例可以适应多种复杂场景，识别准确率得到了很大的提高。为了便于更好地实施本发明实施例的上述方案，本发明还对应提供了一种图像识别设备，下面结合附图来进行详细说明：如图16示出的本发明实施例提供的图像识别设备的结构示意图，图像识别设备16可以包括处理器161、输入单元162、识别单元163、存储器164和通信单元165，处理器161、输入单元162、识别单元163、存储器164和通信单元165可以通过总线166相互连接。存储器164可以是高速ram存储器，也可以是非易失性的存储器(non-volatilememory)，例如至少一个磁盘存储器，存储器704包括本发明实施例中的flash。存储器164可选的还可以是至少一个位于远离前述处理器161的存储系统。存储器164用于存储应用程序代码，可以包括操作系统、网络通信模块、用户接口模块以及图像识别程序，通信单元165用于与外部单元进行信息交互；处理器161被配置用于调用该程序代码，执行以下步骤：对输入的图像进行二值化处理，得到二值图；该图像包括多个字符；对该二值图进行骨架提取，提取出该多个字符的骨架信息；从该骨架信息中提取笔触信息；该笔触信息包括笔触特征点个数以及相邻笔触特征点之间的位置信息；将该笔触信息经过基于深度学习网络的时序识别引擎，识别该多个字符以及字符间位置关系信息，输出识别出的该多个字符。在其中的一个实施例中，处理器161对该二值图进行骨架提取，可以包括：对该二值图进行迭代腐蚀处理，直到相对上一次腐蚀后的二值图没有新的像素点被腐蚀；其中每次迭代腐蚀包括依次遍历该二值图中的像素点，对符合指定条件的像素点进行腐蚀。在其中的一个实施例中，符合指定条件的像素点包括满足以下任一条件的目标像素点：目标像素点周围8邻的像素点中二值为1的像素点的个数大于等于第一阈值，小于等于第二阈值；该第一阈值小于该第二阈值；以顺时针方向查看目标像素点周围8邻的像素点，相邻两个像素点的二值序列为01的次数等于第三阈值；距离相对最近的4个相邻像素点中，存在至少一个像素点的二值为0；该距离包括与目标像素点相邻的像素点的中心到该目标像素点的中心的距离。在其中的一个实施例中，处理器161将该笔触信息经过基于深度学习网络的时序识别引擎，识别该多个字符以及字符间位置关系信息，可以包括：将该笔触信息由卷积神经网络cnn进行特征提取；将提取的特征输入到长短期记忆网络lstm中进行字符识别，识别该多个字符以及字符间位置关系信息。在其中的一个实施例中，长短期记忆网络lstm为双向lstm。在其中的一个实施例中，多个字符可以包括数学表达式；处理器161输出识别出的该多个字符，可以包括：根据识别出的该多个字符输出latex表达式。在其中的一个实施例中，处理器161从该骨架信息中提取笔触信息可以包括：针对该骨架信息按照连通域进行遍历，提取笔触特征点；其中在笔画分叉的情况下，优先提取与上一笔触特征点的方向角较小的笔触特征点。实施本发明实施例，通过对二值图进行骨架提取，提取出多个字符的骨架信息，然后从骨架信息中提取笔触信息，将笔触信息经过基于深度学习网络的时序识别引擎，识别多个字符以及字符间位置关系信息，无需人工设计特征，并且不需要做字符分隔，解决了现有技术对于存在粘连的字符，分隔算法不能很好的处理，导致识别准确率低的技术问题；特别的本发明实施例通过基于时序的深度学习识别模型进行数字字符的识别，将通过cnn提取的特征输入双向lstm网络中即可输出latex表达式，不需要对图像的字符进行分割，也不需要分析字符间的空间位置关系，这些信息都由深度学习识别模型学习获得的，即实现了端到端的识别，因此本发明实施例可以适应多种复杂场景，识别准确率得到了很大的提高。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李辉
技术所有人：腾讯科技（深圳）有限公司;腾讯云计算（北京）有限责任公司
我是此专利的发明人

上一篇：一种短切纱外涂抗静电剂自动添加装置的制作方法
上一篇：一种兽药瓶上料灌装一体化装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。