使用耗尽中心线的高速OCR解码的制作方法

文档序号:16211397发布日期:2018-12-08 07:47阅读:163来源:国知局
使用耗尽中心线的高速OCR解码的制作方法

本发明涉及使用图像处理技术的光学字符识别,并且更特别地涉及用于模板匹配和符号解释的方法。

背景技术

一般来说,光学字符识别(ocr)尝试使用图像处理技术来解码符号。通常,这样的方法是耗时的,因为它包括四处移动轮廓模板,并对每个位置执行计算。需要能够进行有效光学字符识别的高速方法。

为了提高光学字符识别,已经做了几次尝试。例如,chatterjee的美国专利no.5,317,652公开了一种实施同时处理和矢量相关的字符识别系统。具体来说,缓冲器中的字符图像与表示为由点组成的离散字符骨架的字符模板相关联。尽管参考文献公开了中心线模板周围点的比较,但它没有提到基于印刷字符内部或外部的点数目来分配模板得分。walch的美国专利no.7,724,958公开了一种用于将字符和书写样本转换为数学图形之后使用光学字符识别来辨识手写样本中的特征的生物手写辨识系统。参考文献提到使用ocr来比较所存储的和当前图像的中心线。然而,为了给字符匹配评分,模板被叠加在实际图像上,并且然后分析实际图像的像素。该方法不使用一组有限点的分析来对字符匹配评分。bach等人的美国专利no.6,628,808公开了一种使用拓扑分析来验证被扫描图像的方法。为了在给定的候选位置对字符匹配评分,将模板叠加在实际图像上,并分析落在模板上的中心线像素下面的实际图像上的像素。类似于美国专利no.7,724,958,该方法依赖于像素分析,并且没有提到利用一组有限点进行的中心线分析,并且因此可能是相当耗时的。

因此,存在对具有可与条码扫描时间相当的ocr解码时间的快速且有效模板匹配方法的需要。



技术实现要素:

因此,本发明包括用于模板匹配和符号解释的方法。

在一个示例性实施例中,一种用于字符解释的方法包括:迭代地选择用来投在字符上的中心线模板;确定中心线模板的每个构成部分关于字符的主追踪路径的位置;评估投射模板的得分;选择具有最高得分的中心线模板;以及使用所选模板来解释字符。

在另一示例性实施例中,一种用于模板匹配的方法包括:迭代地选择用来投射在候选字符的中心线上的点的模板组;进行模板匹配分析,和向每个模板分配得分;以及选择具有最高分配得分的模板组。

在还有的另一示例性实施例中,本发明包括一种用于符号识别的方法。该方法包括选择点阵列,并且将其投射在符号的图像上;基于阵列点关于符号印刷的位置的初级分析来确定阵列的级别(rank);重复该过程以便向一组点阵列的每个点阵列分配级别;选择一个或多个具有顶级级别的点阵列来对阵列点至符号印刷边界的接近度进行次级分析;以及使用次级分析的结果来为符号识别选择点阵列。

在下面的详细描述以及其附图内进一步解释前面提到的说明性总结、以及本发明的其他示例性目标和/或优点、和完成本发明的方式。

附图说明

图1a示意性地描绘用于ocr解码的典型模板的示例性实施例。

图1b示意性地描绘耗尽中心线模板的示例性实施例。

图1c示意性地描绘画在相同轴线上的图1a和1b中的模板的组合。

图2示意性地描绘根据一个实施例的用于字符解释的方法。

图3示意性地描绘根据一个实施例的用于模板匹配的方法。

图4示意性地描绘根据一个实施例的用于符号识别的方法。

具体实施方式

本发明包括用于使用图像处理技术的光学字符识别(ocr)的方法。

在现有技术中描述的ocr解码常常包括模板匹配算法,在该模板匹配算法中每个字符的轮廓都在候选字符周围移动,直到获得最佳拟合为止。该拟合然后可以就该字符有多少在轮廓内部来评分。具有最佳得分的模板被视为文本字符的解码。图1a示出可用于ocr解码(即ocrb字体字符“2”)的典型模板。该尺度是2微米增量,例如y轴上的“100”是离(0,0)2mm。该模板包括近似200个点,这导致高处理负担。尽管一些模板算法可以使用更少的点和/或矢量,但是处理效率的提高不显著。

相反,本发明在仍然使用模板方法的同时,以字符中心线为重点,从而明显地减少了所需的点数。另外,如果使用了耗尽中心线,则点数可以低至约20。图1b示出耗尽中心线模板的示例性实施例。该模板是ocrb字体字符“b”。可以将类似的中心线模板用于其他字体。与传统的轮廓模板方法相比,结果产生的点数的大幅度减少可能会导致显著改进的处理时间。

在包括字符得分的模板轮廓方法中,模板外的印刷材料可能导致更低的得分。尽管本发明的中心线方法还可以具有该特征,但是中线模板的一部分“刚刚勉强”在字符中并且在该部分中仍能很好得分是可能的,而实际上,该模板并不是最优匹配。

图1c示出将图1a和1b中的模板画在相同轴线上以使得字符“b”的中心线被叠加在“2”的模板轮廓上的图像(注意在ocrb组中,所有数字都比所有字母字符高约10%)。假设“2”在模板边界内完美地印刷,则可以看到存在“b”中心线可以产生正面结果的几个地方,尽管模板中心线在字符边缘附近。例如,“b”中心线的整个顶部落在印刷的“2”内,然而它离“2”的中心很远。类似地,同样的问题也适用于形成“b”左下角垂直线的点。为了降低这些类型的重叠的重要性,在保持好的部分(诸如形成“b”的底部直线的点)的同时,几种解决方案是可能的。

例如,为了进一步在花费仅少量处理能力的同时改进匹配,该方法可以向描述中心线多么靠近字符边界的中心线得分添加参数。例如,“b”的顶部非常靠近字符边界,而由模板的点形成的底部直线离两个字符边界大致等距。

另外,对于具有相当好的得分的字符中心线模板来说,可以执行次级计算。例如,“b”具有与“2”一样的适度得分,并且可能也将具有与“8”和“e”一样的适度得分。因此,在完成初级中心线模板处理(其可能是非常快的)之后,可以将前几个匹配候选提交用于边界接近度的次级检查。这样的方法可以产生可与利用轮廓模板匹配获取的结果相当的结果,而仅需要对少量候选字符执行计算。

另外,该方法可以包括围绕几个候选字符生成直径为近似笔画宽度的圆。该结果可能类似于对缩减的点计数中心线执行完整的模板轮廓测试的结果。该方法可以包括跟踪中心线的局部斜率以及生成垂直于中心线中的每个点的向量以及测量在该点处字符边界有多远。斜率法可能甚至比圆圈法更快。另外或备选地,可以利用确定未知字符内的测试点的质量的其他方法。

除了ocrb字体之外,本文中描述的方法也可以适用于其他字体。本发明可以与ean/upc符号下面的人可读数字以及与ocr读取应用(诸如护照和牌照读取)一起使用。

图2示出根据一个实施例的用于字符解释的方法100。在102处,从显示一个或多个字符的图像选择字符。在104处,从预定数目的中心线模板迭代地选择用来投在所选字符上的中心线模板。在106处,确定中心线模板的每个构成部分关于字符的主追踪路径的位置。在108处,分析所确定的构成部分的位置以评估投射模板的得分。在110处,比较预定数目的中心线模板的中心线模板的得分以选择具有最高得分的中心线模板。以及在112处,使用所选的最高得分的中心线模板来解释所选字符。

在一个实施例中,在108处对得分进行评估可以包括计算中心线模板构成部分至主追踪路径的中心的接近度。另外或备选地,在108处对得分进行评估可以包括计算中心线模板构成部分至字符的一个或多个边界的接近度。另外或备选地,在108处对得分进行评估可以包括关于从一个或多个点向外发出的系列射线确定至字符的一个或多个边界的距离。

图3示出根据一个实施例的用于模板匹配的方法200。在202处,从模板组的预定集合迭代地选出用来投射在候选字符的中心线上的点的模板组。在204处,进行模板匹配分析。在206处,基于模板匹配分析向每个模板组分配得分。以及在208处,选择具有最高分配得分的模板组。

在一个实施例中,在204处进行模板匹配分析可以包括对与候选字符的印刷重叠的一些点进行计数,和/或计算重叠点至印刷边界的接近度。

在一个实施例中,投射点的模板组可以包括投射其点间距约为候选字符高度的六分之一的模板组。依据实施例还可以使用其他点密度。投射点的模板组可以包括遍及字符投射具有均匀点间距的模板组(如在图1b中示出的),或具有非均匀点间距的模板组。例如,具有非均匀点间距的模板组可以具有位于该模板组的一条或多条曲线上的更多点,以及位于该模板组的一条或多条直线上的更少点。在一个实施例中,模板组可以包括约20个点。

在一个实施例中,该方法200可以进一步包括选择具有最高分配得分的一个或多个模板组以分析一个或多个模板组点至候选字符的印刷边界的接近度。

图4示出根据一个实施例的用于符号识别的方法300。在302处,从一组点阵列选出点阵列。在304处,将所选的点阵列投射在符号的图像上。在306处,基于一个或多个阵列点关于符号印刷的位置的初级分析来确定阵列的级别。在308处,重复302-306以便向该组点阵列的每个点阵列分配级别。在310处,在该组点阵列中选择一个或多个具有顶级级别的点阵列以进行阵列点至符号印刷边界的接近度的次级分析。以及在312处,使用次级分析的结果来为符号识别选择点阵列。

在一个实施例中,在306处确定级别可以包括确定与符号的印刷重叠的阵列点的数目。另外,该方法300可以进一步包括基于一个或多个阵列点至符号印刷边界的接近度来确定级别。

在一个实施例中,在310处进行次级分析可以包括围绕一个或多个点投射直径为符号的近似笔画宽度的圆。另外或备选地,在310处进行次级分析可以包括生成垂直于点阵列的一个或多个点的矢量以及测量这样的点至符号印刷边界的接近度。

在一个实施例中,该方法300可以进一步包括将具有顶级级别的点阵列应用于等宽字体字符识别。例如,该方法可以进一步包括将具有顶级级别的点阵列应用于ocrb字体字符识别。

设备和方法部件意在仅示出与理解本公开内容的实施例相关的那些具体细节,以便不会使具有受益于本文中的描述的本领域普通技术人员将会容易认识到的细节的公开内容模糊。在各个实施例中,在本文中公开的示例性实施例中出现的要素的顺序可以改变。可以同时或者以不同于元件在示例性实施例中出现的顺序的次序来执行两个或更多方法步骤。

在说明书和/或附图中,已经公开了本发明的典型实施例。本发明不限于这样的示例性实施例。术语“和/或”的使用包括相关联列出的项中的一个或多个的任何和所有组合。这些附图是示意性的表示并且所以未必按照比例来绘制。除非另外指出,已经以一般且描述性意义并且不出于限制的目的而使用了具体术语。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1