二进制化文字图像的方法

文档序号:6370419阅读:440来源:国知局
专利名称:二进制化文字图像的方法
技术领域
本发明涉及光学字符识别(OCR),即把图像数据中的文本字符图像转化成字符代码数据,更具体地说,涉及作为OCR过程的一部分,把图像数据中的灰度文本和背景像素二进制化。
背景技术
OCR可以被定义成把文本图像数据转化为文字处理软件可读的字符代码形式(如ASCII码)的过程。在原始的文本图像数据中,文本字符与其它类型的图像数据(如图片或者线条)一样,是由各个象素组成的。在转化成为字符编码形式之后,不再有文本字符的原始图像。这样,为了把图像转化成为特定字符编码,OCR过程要求每个字符的图像质量都要相当高。很多OCR过程把字符定义成互相连接的点或者象素的独立的集合。如果文本图像质量较低,比如单个字符模糊,或者弄脏了相邻的字符,OCR过程可能无法把字符区分出来对应到它们各自的编码,文本将无法被文字处理软件辨识。
多种原因都可能造成文字图像的质量比较低。例如,由复印机、传真机、打印机和数码相机生成的文本图像,经常由于高背景噪声、低空间分辨率、或者照明变化而导致质量低。这样的图像通常是单色的,或者是灰度图像,其中为每个个体像素分配一个灰度或者亮度等级,范围从全黑到全白。
一种常见的灰度格式是八比特灰度图像。在这种格式中,赋值为0的像素是全黑的,赋值为255的像素是全白的。中等灰色的像素则被赋予0和255中间的某个值,比如110。
OCR初步处理过程通常需要把灰度文本图像二进制化,这样,图像中的每个像素或者被当作文本字符的一部分,或者被当作页面背景的一部分。例如,如果一个特定的像素要形成文本字符的一部分,则给它赋低亮度值零(0)来代表黑色。不是个体文本字符的一部分,而是背景页面一部分的其他像素,则赋予高亮度值壹(1)。
当二进制化一幅低质量灰度文本图像时,OCR的二进制化过程可能会产生错误像素。错误像素就是或者,比如作为文本符号前景的图像,应当取低亮度,如值零(0),但是却在图像中被当作背景的一部分而取了高亮度,如值壹(1);或者相反。
OCR初步二进制化过程通常通过设定阈值值来决定什么灰度像素值应当被当作文本,以及什么应当被当作背景。例如,取值低于阈值的灰度像素都被赋予二进制值零(0),取值高于阈值的灰度像素都被赋予二进制值壹(1)。
上述技术的一个问题在于,经常由于低信躁比(SNR)或者文本和背景像素之间的低对比度而导致低质量的灰度图像。因此,在应当被二进制化为背景的灰度像素值和应当被二进制化为文本前景的灰度像素值之间,可能只有一个非常小的差别。例如,一页文本的8比特灰度图像可能包括一些值为50的像素,它们很可能应当被二进制化为背景;以及值为45的相邻像素,它们应当被二进制化为文本前景。五个点的差别表示灰色的深浅仅仅发生了很小的改变。此外,当生成原始的灰度图像时,文本页面的照明不同,可能导致同一文本页面的另一个区域包括值为45而应当被二进制化为背景的像素,它的相邻像素值为40,应当被二进制化为文本前景。换言之,同样的灰度值可能在页面的一个区域代表背景,而在同样页面的另一个区域代表文本前景。
因此,已经开发出这样的技术,它能适应性地计算设定的阈值,使其根据页面上被二进制化的区域而发生改变。可以任意规定这些区域,比如通过在页面上应用栅格图案;或者,也可以根据迭代二进制分析来求出页面上文本行或者文本块的位置,从而确定区域。在迭代二进制分析过程中,使用了采用改进阈值的第二二进制化过程,来清除实际文本字符边缘附近的错误像素。这样,在最终的OCR处理步骤中,二进制化的文本字符输出更有可能被准确地识别。
通常,如果被分析的文本区域与页面上单个文本字符所在区域的范围很一致,迭代二进制化过程会产生更好的OCR结果。再次二进制化个体字符使得OCR机器更有可能正确地识别字符。现有的识别文本块或者任意确定栅格的技术框起字符组或者个体字符片断。因此,需要改进的迭代二进制化方法,更准确地框起可能包括被错误二进制化的像素的个体字符区域。

发明内容
在本发明的方法中,作为光学字符识别(OCR)系统的一部分,在灰度图像上进行第一二进制化步骤,来生成第一二进制图像输出。然后,在第一二进制图像输出上进行布局分析步骤,来识别第一二进制图像输出上框起个体文本字符的边界,以生成二进制字符区域。接下去,在灰度文本图像的二进制字符区域上进行第二二进制化步骤,来生成第二二进制图像输出。然后,第二二进制图像输出被输入到OCR机器中,来完成文字识别过程。


通过下面对照附图的详细说明,本发明的其它方面会更加清晰。附图中,图1是一个一般化的流程图,说明本发明的一个实施例;图2示是根据本发明的一个实施例的布局分析步骤的结果,并示出了由框起个体文本字符的矩形框所确定的二进制化字符区域;图3A是可能出现在文本字符边缘的被错误二进制化的像素的例子,这种错误二进制化的像素可能是由于非理想条件而引起的,例如在生成灰度文本图像时原始文件不均匀的照明;
图3B示出了附图3A中被正确辨识的字符,包括根据本发明的一个实施例,由框住的体文本字符的矩形框所确定的二进制字符区域;图4是一个栅格,说明了根据本发明的一个实施例,待估计并二进制化的目标像素周围被编号的相邻像素。
具体实施例方式
参照附图,其中,相同参考字符表示相同或者相应的元素。图1是一个一般化的流程图,说明了本发明的一个实施例。灰度文本图像105在一第一二进制化步骤(S1)中被二进制化,以生成一第一二进制文本图像110。接着,在第一二进制文本图像110上进行布局分析步骤(S2)。在图2中,给出了布局分析步骤(S2)的结果的例子,它包括二进制字符区域205,该区域是由框起从第一二进制图像110中辨识出来的个体文本字符210的矩形框所确定的。再次参见图1,二进制字符区域205的坐标被提供给一第二二进制化步骤(S3),从而用来辨别原始灰度图像105的什么区域要被二进制化。第二二进制化步骤(S3)在原始灰度文本图像105上进行。然而,在第二二进制化步骤(S3)中,只有二进制字符区域205被二进制化。接着,第二二进制化步骤生成第二二进制文本图像115,输入到OCR机器120中,来完成文字识别过程。
在本发明的一个实施例中,灰度文本图像105可能从各种类型的设备中获得,比如数字复印机、传真机、打印机,或者数码相机。如本领域的技术人员所知,第一二进制化步骤(S1)通常利用一个或多个标准阈值技术,来二进制化整个灰度文本图像105。第一二进制化步骤(S1)的输出是第一二进制图像110,它可能包括一些错误。
如图3A所示,原始文件在生成灰度文本图像105时不均匀的照明等非理想化的条件,可能导致一些被错误二进制化的像素305出现在第一二进制图像110中。由于低信噪比(SNR),以及用来在灰度文本图像105中区分背景像素和文本像素的阈值技术,错误二进制化的像素305经常出现在个体文本字符210的边缘附近。不幸的是,正是在个体文本字符210的边缘附近,错误二进制化的像素305造成了OCR机器120在试图准确识别文本字符210过程中的绝大部分问题。例如,在图3A中,在字母“c”和“e”之间的错误二进制化的像素可能导致OCR机器120错误地把这两个字母当作一个字母“w”。类似地,图3A中字母“c”里面的两个错误二进制化的像素305可能导致OCR机器120错误地把字母“c”当成字母“o”。
本发明的布局分析步骤(S2)有助于更正出现在文本字符210边缘的被错误二进制化的像素305。它通过辨识由框住单个文本字符210的矩形框所确定的二进制字符区域205来完成这项任务。如本领域的技术人员所知,可以通过标准文本配准和分段技术,比如垂直和水平直方图整形法,来辨识区域205。通常,布局分析步骤(S2)涉及几个操作,包括判断倾斜、将图片与文本分离,以及将辨认出的文本划分成栏、行、词和字。文本的划分通过一个通常称为分段的过程来完成,这个过程在G.Nagy的thefrontiers of OCR,Proceedings of the IEEE,80(7)1093-1100,1992年7月中进行了描述。
布局分析步骤(S2)也可包括使用后处理技术,例如消除噪声,以在识别特定的二进制字符区域205之前,提高第一二进制图像110的质量。
在第二二进制化步骤(S3)中,在布局分析步骤(S2)中辨别出来的二进制字符区域205的位置被传送到原始灰度图像105。之后,第二二进制化步骤(S3)仅需要对原始灰度图像105中的字符区域205进行再次二进制化,而并不需要再次二进制化整个灰度图像105。因此,由于需要二进制化的像素少了,第二二进制化步骤(S3)的二进制化速度通常要比第一二进制化步骤(S1)的速度快。
第二二进制化步骤(S3)能够比第一二进制化步骤(S1)更加准确地辨识出像素是文本还是背景像素,因为可以计算局部化的阈值,来补偿灰度图像105中局部化的信噪比和局部化的亮度差别。例如,可以计算出或者预置两个局部化的阈值t1和t2,其中t1小于t2。例如,如果一个二进制字符区域205(通常称为一块瓦片)的大小是宽为三列、高为四行,那么就形成了一个12像素的阵列AP。根据这个像素阵列AP,考虑一种情况,其中每个像素的灰度值如下最上一行从左至右200,150,150;第二行从左至右200,150,150;第三行从左至右200,150,150;最下面一行从左至右220,220,220。
根据像素阵列AP,像素阵列AP的所有像素的灰度值的平均值计算如下Mean=Σi=112xi/12]]>=(200+150+150+200+150+150+200+150+150+220+220+220)/12]]>=180]]>其中,xi是像素的灰度值。
同时,瓦片内所有像素的灰度值的方差可以如下计算Var=Σi=112(xi-mean)212]]>=(200-180)2+.........+(220-180)212]]>=31]]>这样,我们可以设t1=Mean-Var*B;其中B是一个参数,其值通过实验确定,且已经发现的一个B的适当取值为0.2。因此,取最接近的整数值,那么t1=Mean-Var*0.2=174t2=Mean=180然后,这两个阈值t1和t2就可以用于一个或多个二进制字符区域205。
如果字符区域205之内的像素灰度值大于t2,该像素可被赋二进制值壹(1),来表示它是一个背景像素。如果字符区域205之内的像素灰度值小于t1,该像素可被赋二进制值零(0),来表示它是一个前景像素。否则,如果像素的灰度值在t1和t2之间,那么该像素被认为是低信噪比像素,可能代表背景或者文本像素,这时会使用一个特别的像素识别算法。
图4是根据本发明方法的一个栅格,说明了围绕着有待估计并二进制化的目标像素405的有编号的相邻像素410。可被用在本发明中的像素识别算法的一个例子(与上面描述的12像素阵列AP相似)是一种求出在四个方向上围绕着目标像素405的相邻像素410的灰度值的算法。计算像素410在四个方向i(i=0,1,2,3)中的每一个上面的灰度值的均值。然后,从四个灰度值均值之中确定最大灰度值均值iMax,以及最小灰度值均值iMin。如果目标像素405的灰度值更接近iMax而不是iMin,那么目标像素405会被赋值壹(1),代表背景像素。反之,如果目标像素405的灰度值更接近iMin而不是iMax,那么目标像素405会被赋值零(0),代表文本像素。
根据特殊系统的需要,在本发明的范围内也可以使用其它类型的特殊像素识别算法。例如,可以求出位于围绕着目标像素405并以之为中心的矩形的边缘上的相邻像素的灰度值,来确定目标像素应当作为背景还是前景文本。
如图3B所示,本发明的方法被用来从第一二进制化步骤(S1)中有效地清除被错误二进制化的像素305,以对文本字符210进行更加精确的再现。再次参照图3A,在两个字母“c”和“e”之间被错误二进制化的像素305可能导致布局分析步骤(S2)认为两个字母被包围在一个矩形二进制文本区域205中。然而,在第二二进制化步骤(S3)中执行的特殊像素识别算法可以正确地识别出在两个字母“c”和“e”之间的错误二进制化像素是背景的一部分,并重新为其赋值壹(1)。当第二二进制图像115被提交给OCR机器120时,OCR机器能够正确地把这两个字母分到两个独立的二进制区域205中,如附图3B所示,并且接下去识别两个独立字母“c”和“e”。
本发明的方法提出了通过使用局部化的第二二进制化步骤(S3)来二进制化文本图像,可能仅需要对灰度图像105中特定的二进制字符区域205进行再次二进制化。第二二进制化步骤(S3)可以更加准确地辨识出像素是文本还是背景像素,因为可以计算局部化的阈值值,来补偿在灰度图像105中的局部化的信噪比和局部化的亮度差别。因此,得到的第二二进制图像115比只通过一次二进制化步骤而产生的二进制图像包含更少的错误二进制化像素305。更少的错误二进制化像素305意味着最终的OCR过程会更加准确地识别原始文本中的字符和单词。应当理解的是,上述说明旨在举例说明,而不是加以限制。尽管已经参考附图通过优选实施例对本发明进行了充分地阐述,但是应当注意,对本领域的技术人员来说,显而易见可以有无数的改变和修正。这些改变和修正应当被认为是包括在所附权利要求所限定的本发明的范围之内的。
权利要求
1.在光学字符识别(OCR)系统中,一种二进制化灰度文本图像的方法包括以下步骤在灰度图像上进行第一二进制化步骤,以生成第一二进制图像输出;在所述第一二进制图像输出上进行布局分析步骤,以辨别所述第一二进制图像输出中框住个体文本字符的边界,来生成二进制字符区域;在所述灰度图像的所述二进制字符区域上进行第二二进制化步骤,来生成第二二进制图像输出;把所述第二二进制图像输出输入到OCR机器中。
2.根据权利要求1的方法,其中所述的在所述第一二进制图像输出上进行布局分析的步骤,在所述图像输出上辨识框住所述个体文本字符的矩形框,来生成所述二进制字符区域。
3.根据权利要求1的方法,其中所述的在所述第一二进制图像输出上进行布局分析的步骤还包括,使用后处理技术,例如噪声消除,来提高所述第一二进制图像的质量。
4.根据权利要求1的方法,其中所述的进行第二二进制化的步骤,仅仅对所述第一二进制图像输出上所述的框起所述个体文本字符的二进制字符区域进行再次二进制化,而不对所述灰度图像的其它区域进行再次二进制化。
5.根据权利要求1的方法,其中所述的进行第二二进制化的步骤,比所述的进行第一二进制化步骤的步骤需要更少的执行时间。
6.根据权利要求1的方法,其中在所述灰度图像上的所述二进制字符区域上进行第二二进制化步骤以生成第二二进制图像输出的步骤,还包括计算局部化阈值的步骤,其中局部化阈值用来补偿所述灰度图像中局部化的信噪比和局部化的亮度差别。
7.根据权利要求6的方法,其中所述的计算局部化阈值的步骤计算出两个局部化阈值,其中局部化阈值用来补偿所述灰度图像中局部化的信噪比和局部化的亮度差别。
8.根据权利要求6的方法,其中所述的计算局部化阈值的步骤包括使用特定的像素识别算法,其中局部化的阈值用来补偿所述灰度图像中局部化的信噪比和局部化的亮度差别。
9.根据权利要求8的方法,其中所述的特定像素识别算法在多个方向上求出围绕着目标像素的相邻像素的灰度值。
10.根据权利要求8的方法,其中所述的特定像素识别算法在四个方向上求出围绕着目标像素的相邻像素的灰度值。
全文摘要
作为光学字符识别(OCR)系统的一部分的一种二进制化灰度文本图像(105)的方法。在灰度图像(105)上进行第一二进制化步骤(S1),来生成第一二进制图像输出(110)。然后,在第一二进制图像输出(110)上进行布局分析步骤(S2),以在第一二进制图像输出(110)上辨别框住个体文本字符(210)的边界,来生成二进制字符区域(205)。在灰度文本图像(105)的二进制字符区域(205)上,进行第二二进制化步骤(S3),来生成第二二进制图像输出(115)。然后,第二二进制图像输出(115)被输入到OCR机器(120)中,完成字符识别过程。
文档编号G06F17/22GK1567357SQ0314631
公开日2005年1月19日 申请日期2003年7月8日 优先权日2003年7月8日
发明者罗希平, 李俊, 镇立新 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1