用于二值化扫描文档图像的方法

文档序号：6438175阅读：595来源：国知局

专利名称：用于二值化扫描文档图像的方法
技术领域：
本公开涉及用于二值化扫描文档图像的方法和装置，并且具体地，涉及用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法和装置。
背景技术：
随着计算机技术和因特网的发展，电子文档因为它相比基于纸的文档的优势而变得越来越流行，比如易于储存、易于查找和检索、快速传输、以及环境友好。在过去，基于纸的文档已经占主要地位很长时间并且在这些年来已经生成了大量基于纸的文档。可以使用扫描仪将基于纸的文档转换成电子文档。对于包含文字的文档，还期望能将扫描的文档图像转换成文字用以文字查找和其他目的。已经开发出了自动文档分析系统以将扫描文档图像转换为可查找的电子文档。这样的系统通常包括三个主要的组件，也就是二值化组件、分割组件、和光学字符识别(OCR) 组件。第一组件，二值化组件，将前景(文字、图片、线条画等)与背景分离。二值化组件将彩色或者灰度图像转换为其中每个像素具有O或者I的值的二值图像。二值化是重要的步骤，因为接下来的分割和识别组件依赖高质量的二值化图像。良好的二值化结果不仅可以减少计算负荷和简化接下来的分析，并且可以提高自动文档分析系统的整体性能。在传统的方法中，一般全局地或者局部地执行二值化。全局二值化方法使用一个计算出来的阈值用于整个扫描图像来将多比特像素值转换成二值像素值。在该阈值以上的像素值被转换成I(或者O)而在该阈值以下的像素值被转换成O(或者I)。局部二值化方法使用从局部区域计算出的适合的统计值作为阈值用于局部区域的二值化。全局二值化方法的例子可以在以下文献中找到N. Otsu, “AThreshold Selection Method from Gray-Level Histograms，，，IEEETransactions on Systems, Man, and Cybernetics, Vol. 9, No. 1,1979, pp. 62-66 (在下文中称为 “Otsu”)；A. Rosenfield, R. C. Smith,Thresholdingusing Relaxation，，，IEEE Transactions on Pattern Analysis and MachineInte11igence, Vol.3, No. 5,1981, pp. 598-606 ;以及 V. A. Shapiro, P. K. Veleva, V. S. Sgurev,“An Adaptive Method for Image Thresholding，，, Proceedings of the Ilth IAPR International Conference on PatternRecognition,1992, pp. 696-699。局部二值化方法的例子可以在以下文献中找到W. Niblack, “An introduction to Image Processing”，Prentice-HalI, Englewood Cliffs,1986, pp. 115-116 ；J. Sauvola, M. Pietikainen, “Adaptive document image binarization”，Pattern Recognition, Vol. 33，2000，pp. 225-236 (在下文中称为 “Sauvola 等人”)；以及 I. Kim, D. Jung, R. Park, Document image binarization based on topographic analysis using awater flow model, Pattern Recognition Vol. 35，2002，pp. 265-277。

发明内容
因此，本发明提供了充分避免由于相关技术的限制和缺陷所引起的一个或多个问题的二值化方法。本发明的目的是根据包含半色调文字和非半色调文字二者的扫描灰度图像来产生高质量的二值图像。本发明的其它特征和优势将在接下来的说明书中阐述并且通过说明书将部分地明白，或者可以通过本发明的实践学到。本发明的目的和优势将通过在书写的说明书和权利要求书以及附图中具体指出的结构来实现和获得。为获得这些和/或其它目的，如具体和广泛描述地，本发明提供一种在数据处理装置中实现的用于二值化通过扫描基于纸的文档而生成的灰度文档图像的方法，该方法包括以下步骤a.识别灰度文档图像中的文字字符；b.基于对步骤a中识别出的每个文字字符的拓扑分析，将该文字字符分类为半色调文字字符或者非半色调文字字符；以及c.使用仅从步骤b中分类出的半色调文字字符所获得的像素值特征来二值化半色调文字字符。该方法还可以包括在步骤b之后并且在步骤c之前的步骤d，将灰度文档图像划分为仅包含半色调文字字符的半色调文字区域和包含非半色调文字字符的非半色调文字区域，其中步骤c包括对于每个半色调文字区域使用仅根据在该半色调文字区域中的像素计算出的像素值统计来二值化该半色调文字区域，以生成每个半色调文字区域的二值图。该方法还可以包括以下步骤在步骤d之后的步骤e，对于每个非半色调文字区域使用仅根据在该非半色调文字区域中的像素计算出的像素值统计来二值化该非半色调文字区域，以生成每个非半色调文字区域的二值图；以及步骤f，组合在步骤c和e中生成的半色调文字区域的二值图和非半色调文字区域的二值图以生成灰度文档图像的二值图。在另一方面，本发明提供一种计算机程序和包括计算机可用非瞬态介质(例如存储器或者存储装置)的计算机程序产品，该计算机可用非瞬态介质中嵌入有用于控制数据处理装置的计算机程序)，该计算机程序被配置为使得数据处理装置来执行上述方法。在另一方面，本发明提供一种扫描仪，包括用于扫描硬拷贝文档以生成灰度文档图像的扫描部分；以及用于处理灰度文档图像以生成灰度文档图像的二值图的数据处理装置，其中的处理包括上面的方法步骤。可以理解前面的一般性描述和接下来的具体描述都是示例性和说明性的，并且意在提供如权利要求所保护的对于本发明的进一步解释。

图1(a)是图示了当纸件文档中相应的文字被打印为黑色文字时文字的扫描图像的放大的示图；图1(b)是图示了当纸件文档中相应的文字被打印为半色调(halftone)灰色时文字的扫描图像的放大的示图；图1(c)示意性地图示了包含深(黑色)文字和浅(灰色)文字的一页文档的2(a)和图2(b)示意性地图示了根据本发明的第一实施例用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法；图3示意性地图示了根据本发明的第二实施例用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法；
图4(a)-图4(d)是示出了对于非半色调和半色调文字字符的欧拉数的扫描文档中的文字字符的图像；图5(a)和图5(b)示出了使用根据本发明第一实施例的方法的二值化结果的部分；图6(a)和图6(b)示出了使用传统的全局阈值化方法的二值化结果的部分；图7示意性地图示了包括数据处理装置的扫描仪，在该数据处理装置中可以实现根据本发明的实施例的二值化方法
具体实施例方式本发明的实施例提供了用于二值化通过扫描基于纸的文档所获得的文档图像的改进的方法。在本公开中，术语“基于纸的文档”、“打印的文档”和“硬拷贝文档”可交换使用。这些文档不需要仅在纸上打印；它们可以打印在其他物理介质比如幻灯片 (transparency)上。随着对高质量文字和图片的期望，打印的文档通常以高分辨率进行扫描，比如，经常以600 dpi (点数每英寸)或者更高的分辨率。在打印的文档中，灰色或者浅色文字或者图像经常使用半色调(halftone)方法来打印。比如，打印的灰色区域将包含多个墨水或者墨粉的黑点，点的尺寸和/或者密度取决于灰色区域的灰度值。类似地，浅色区域通过打印颜色饱和的点来打印。在本公开中，通过半色调方法打印的文字被称为半色调文字。当包含半色调文字的打印文档以高分辨率扫描时，具体地，当扫描的像素尺寸比半色调点充分小时，半色调点在扫描图像中通常是可见的。图1(b)是图示了当纸质文档中对应的文字打印为半色调灰色时文字的扫描图像的放大示图。在此图示中，半色调点清晰可见。此外，在半色调文字中的扫描像素有很多灰色像素值。位于半色调点内的像素趋向于具有更深的灰色像素值，而位于相邻半色调点之间区域的像素趋向于具有更浅的灰色或者白色像素值。不同的灰色像素值来自于用于扫描文档的扫描仪的有限的灵敏度或者精确性。作为对照，图1(a)是图示了当纸质文档中对应的文字打印为黑色文字时文字的扫描图像的放大示图。其中没有可见的半色调点。此外，文字区域内的像素值是黑色值或者接近黑色值。黑色文字和灰色文字经常共同存在于文档的同一页中。图1(c)示意性地图示了包含黑色文字(由粗实线11示意性地表示)和灰色文字二者的文档页的图像。在本公开中，当提到像素值时，“黑色值”指的是代表黑色像素的数值而“白色值” 指的是代表白色像素的数值。在很多系统中，白色像素具有有像素值255而黑色像素有像素值O。“灰色值”是在黑色值和白色值之间的值。尽管在这些图示中使用黑色和灰色的文字，在彩色图像中存在同样的效果，其中文字可以被打印为颜色饱满的文字(和黑色文字类似)或者浅彩色文字(和浅灰色文字类似，使用半色调方法)。下面的描述使用黑色作为例子，但是这里描述的方法也适用于彩色文字。当打印的文档包含黑色文字和半色调文字二者时，传统的二值化方法经常导致对于半色调文字不满意的结果。如前面提到的，传统的二值化方法通常全局地或者局部地执行二值化。无论传统的全局二值化方法还是传统的局部二值化方法都不能产生对于含有半色调文字的扫描图像的满意结果。通常，半色调文字仅构成整个文档图像的一小部分。如前面解释的，由于半色调模式的存在，半色调文字的像素值趋向于为灰色值而非半色调文字的像素值趋向于非常接近黑色值。作为结果，当使用全局阈值方法时，比如在Otsu参考文献中描述的Otsu阈值，计算出的全局阈值趋向于非常接近深色文字的黑色像素值。当使用这样的阈值执行二值化时，在二值化结果中半色调文字经常全部或者部分缺少，因为它们的像素值不满足阈值。即使当使用局部阈值方法时，如果在局部窗口中的文字的主要部分是深色文字，一些半色调文字仍可能缺少。当半色调文字处于更浅色灰度级时(即接近背景值)，情况变得更糟。对于半色调文字的较差的二值化结果对于自动化文档分析系统接下来的组件有很严重的不利影响，尤其是OCR组件。图2(a)示意性图示了根据本发明实施例的用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法。该方法基于文字字符的拓扑特征的分析将半色调文字与非半色调文字分离，并且然后使用它们各自的阈值分别二值化半色调文字和非半色调文字。首先，扫描文档图像被初始地二值化(步骤S21)。该步骤可以使用任意适当的局部或者全局原文的二值化方法，包括传统的方法。通常，局部二值化包括将图像划分为多个小的不重叠的块、计算每个块的阈值、并且使用阈值对块进行二值化。在一个实施例中，使用在Sauvola等人中描述的方法执行初始二值化。通过步骤S21生成初始二值图像。然后提取初始二值图像中的连通的图像部分(步骤S22)。在二值图像中，连通的图像部分是相同像素值(例如黑色)的像素的连通的组。用于提取连通的图像部分的方法是一般公知的；在该步骤中可以采用任意适合的算法。在该步骤中提取的每个连通的图像部分潜在地是文字字符。步骤S21和S22共同地可以被称为识别扫描文档图像中的文字字符的步骤。然后，每个连通的图像部分(文字字符)基于它的拓扑特征的分析被分类为半色调文字字符或者非半色调文字字符(步骤S23和S24)。因为该半色调处理，对于半色调文字的连通的图像部分比对于非半色调文字的连通的图片组分包含更多的孔。孔是被连通的图像部分的黑色像素围绕的白色像素的区域。在优选的实施例中，使用该特征来分类每个连通的图像部分(字符)。在具体的实施例中，使用欧拉数(Euler number)作为用于分类半色调文字字符和非半色调文字字符的标准。欧拉数(整数)是图像拓扑的测量标准。定义为E = C-H,其中E是欧拉数，C是图像中连通的图像部分的数量以及H是孔的数量。文字字符 (例如英文字母和阿拉伯数字)通常是1、0或者-I。例如，如图4(a)-4(c)所示，字符“C” 具有欧拉数1，因为它具有一个连通的图像部分并且没有孔；字符“A”具有欧拉数0，因为它具有一个连通的图像部分和一个孔；并且数字“8”具有欧拉数-1，因为它有一个连通的图像部分和两个孔。因为半色调文字通常包含很多孔，半色调文字字符(包括数字)的欧拉数通常远小于-I。比如，图4中的半色调字母“N”具有欧拉数-43。同样地，欧拉数对于半色调文字检测是很好的测量标准。在步骤S23中，计算对于每个检测到的文字字符(即连通的图像部分)的欧拉数。可以使用任意适合的算法来计算欧拉数。在步骤S24中，基于其欧拉数将每个连通的图像部分分类为半色调文字字符或者非半色调文字字符。在一个实现中，如果连通的图像部分具有低于预定义值的欧拉数，如_2，则连通的图像部分被分类为半色调文字字符。否则，它就被分类为非半色调文字字符。更一般地，步骤S23是分析文字字符的拓扑特征的步骤，并且步骤S24是基于拓扑特征分类文字字符的步骤。共同地，步骤S23和S24构成基于拓扑分析将文字字符分类为半色调文字字符或者非半色调文字字符的步骤。更具体地，步骤S23和S24可以通过如图2 (b)所示的判断循环来实现。连通的图像部分(即文字字符)每次处理一个。对于下一个连通的图像部分(步骤S231中的“是”)，计算它的欧拉数(步骤S232)。接下来，确定欧拉数是否小于-2 (步骤S241)。如果它是 (步骤S241中的“是”)，文字字符被分类为半色调文字字符(步骤S242)。如果它不是(步骤S241中的“否”)，文字字符被分类为非半色调文字字符(步骤S243)。该处理然后确定是否有下一个待处理的连通的图像部分(步骤S231)。如果是(步骤S231中的“是”)，重复步骤S232、S241、S242和S243。如果不再有待处理的连通的图像部分(步骤S231中的 “否”)，处理继续到下一步骤(即到步骤S25)。应指出图2(b)仅是示例性的实现。在可替换的实现中(图中未示出)，提取连通的图像部分的步骤(步骤S22)可以被放在循环内，也就是提取一个连通的图像部分后，计算它的欧拉数并且将它分类为半色调或者非半色调文字字符，并且然后提取下一个连通的图像部分并且重复处理。本领域的技术人员会认识到存在其他适合的实现。在将文档图像中检测到的文字字符分类为半色调和非半色调文字后，文档图像被划分为仅包含半色调文字字符的半色调文字区域和包含非半色调文字字符的非半色调文字区域(步骤S25)。非半色调文字区域还可能包含其他文档元素比如图形、图片等，如果它们在扫描的文档图像中存在。可能会有单个或者多个半色调文字区域以及单个或者多个非半色调文字区域。在图1(c)中，通过细虚线示意性指示不同的文字区域，该细虚线定义了非半色调文字区域13和半色调文字区域14。在优选的实施例中，通过将二值形态学生成应用到非半色调文字和/或者半色调文字完成划分步骤S25。形态学是一组广泛的基于形状处理图像的图像处理操作。形态学运算将结构元素应用到输入图像，产生相同尺寸的输出图像。在形态学运算中，在输出图像中的每个像素的值基于在输入图像中的相应像素和它的邻居的比较。通过选择邻居(结构元素)的尺寸和形状，人们可以构成对输入图像中特定形状敏感的形态学运算。最基本的形态学运算是扩张(dilation)和侵蚀(erosion)。在优选的实现中，将二值形态学运算应用到半色调文字以生成半色调文字区域，并且将相同的二值形态学运算应用到非半色调文字以生成非半色调文字区域。可替换地，将二值形态学运算应用到半色调文字以生成半色调文字区域，而图像的其余区域被认为是非半色调文字区域。在优选的实施例中，根据半色调文字字符和非半色调文字字符的宽度和高度分别估计在扩张操作中使用的结构元素参数。它们可以被选为文字字符的平均宽度和平均高度预定义的倍数。然后，对于每个半色调文字区域和每个非半色调文字区域，对于最初的扫描文档图像执行局部阈值化或者全局阈值化方法以对图像进行二值化来生成对于区域的最终的二值化结果(二值图)(步骤S26)。换句话说，使用从仅在该区域中的像素所获得的像素值特征来二值化每个区域。具体地，在每个半色调文字区域，使用仅在该区域中的半色调文字的像素值特征来计算用于二值化半色调文字的阈值。在优选的实现中，使用在Otsu参考文献中描述的传统方法来执行对于每个半色调文字区域的阈值化。因为图像已经被划分为半色调文字区域和非半色调文字区域，甚至应用于半色调文字区域的传统阈值化方法也会产生对于半色调文字满意的二值化结果。这是因为半色调区域文字区域仅包含半色调文字并且通过传统阈值化方法计算出的阈值不会被非半色调文字所影响。在优选的实现中，使用在Otsu参考文献中描述的传统阈值化方法来二值化每个非半色调文字区域。当然，也可以使用其他阈值化方法来二值化半色调文字区域和非半色调文字区域。在对区域进行二值化之后，多个区域的二值图被组合以生成整个扫描文档图像的二值图(步骤S27)。图3示意性图示了根据本发明的第二实施例用于二值化包含用半色调模式打印的灰色或者浅色文字的扫描文档图像的方法。在第二实施例中，步骤S31到S34和图2(a) 和2(b)中所示出的第一实施例中的步骤S21到S24相同。在通过分类步骤S34识别出大多数半色调文字字符后，对半色调文字的像素值统计，比如平均像素值、最小像素值和最大像素值进行估计(步骤S35)。需要指出的是，出于这个目的，不需要识别出所有的半色调文字的字符；丢失少数半色调字符不会导致估计的像素值估计的重大改变。接下来，使用半色调文字的像素值统计对扫描文档图像进行二值化以生成第一二值图像(步骤S36)。在优选的实施例中，具有落在最小和最大像素值之间的像素值的像素被分配一个二进制值(例如黑色)，而具有落在范围之外的像素值的像素被分配其他二进制值(例如白色)。得到的第一二值图像包含初始扫描文档的半色调文字的二值化图像。第一二值图像还包含与在初始扫描文档中的作为非半色调文字的某些灰色像素、特别是黑色文字字符的边缘处的像素相对应的其他图像。接下来，再次对扫描文档图像进行二值化以生成第二二值图像(步骤S37)。在该步骤中可以使用任意适当的二值化方法，比如传统的局部或者全局二值化方法。优选地，在该二值化步骤之前，修改初始扫描文档图像以将在S36中获得的半色调文字字符的像素值设置为背景值(例如白色)。作为结果，在S36中得到的半色调文字字符将不会出现在第二二值图像中。其原因是为了最小化在步骤S37中半色调文字对非半色调文字的阈值的计算的影响。接下来，第一和第二二值图像被组合(通过按位与(AND)运算)以生成最终的二值图像。因为第一二值图像包含二值化的半色调文字而第二二值图像包含二值化的非半色调文字，最终的二值图像可以是对于半色调文字和非半色调文字二者都满意的二值化结果O可以看到在上面描述的两种二值化方法中(第一和第二实施例)，将文字字符分类为半色调文字字符和非半色调文字字符，接着使用仅从半色调文字获得的像素值特征对半色调文字进行二值化。与传统方法(比如基于全局直方图的阈值化方法)相比，根据本发明实施例的二值化方法对包含半色调文字和非半色调文字二者的扫描文档图像产生更好地二值化结果。发明人测试了第一实施例在包含半色调文字和非半色调文字的文档图像上的具体实现。在图5(a)和5(b)中示出与图1(a)和I (b)中的采样图像相对应的二值化结果的部分。对于初始的二值化(步骤S21)，在测试中使用在Sauvola等人中描述的传统方法。具体地，扫描文档图像被划分为64x64的像素块，并且通过下面的公式计算每个块的阈值T = m * (1+k * (s/R-1))；这里T是对块计算出的阈值，m是块的平均像素值，s是块的像素值的标准偏差，常数k是O. 2，以及常数R是128。在步骤S23中使用欧拉数作为拓扑特征，并且在步骤S24 中将欧拉数小于-2的连通的图像部分分类为半色调文字。在步骤S25中，向半色调文字应用扩张运算以生成半色调文字区域，并且向非半色调文字应用扩张运算以生成非半色调文字区域。对于半色调文字，在扩张运算中使用的结构元素的宽度和高度都是半色调文字的平均高度和平均宽度的四倍。对于非半色调文字，结构元素的宽和高都是非半色调文字的平均高度和平均宽度的两倍。在最后的二值化步骤S26，使用Otsu方法分别对半色调文字区域和非半色调区域进行二值化。为了比较，发明人应用传统的Otsu的方法来对相同的测试文档进行二值化。在图6(a)和6(b)中示出了与图1(a)和I (b)中的采样图像相对应的二值化结果的部分。通过视觉比较，可以看出对于黑色文字的二值化结果(对于半色调文字，使用两种技术的图 5(a)和6(a))的结果是相当的，使用上面描述的方法的结果(图5(b))明显好于使用传统全局阈值方法的结果(图6(b))。可以看出在图6(b)中，文字字符的连通性没有被适当地保留并且在二值化的文字字符中有很多孔。在图5(b)中，文字字符的连通性被保存的明显更好，并且在二值化的文字字符中有非常少的孔或者没有孔。发明人还将两个二值化结果输入到Adobe Acrobat 9Pro的OCR文字识别功能中。当将全局阈值方法的二值化结果供给OCR功能时，仅正确识别出少于57%的半色调文字字符。当使用上面描述的方法的二值化结果供给OCR功能时，正确识别出99%的半色调文字字符。这证明良好的二值化结果可以提高包括OCR组件的自动文档分析系统的性能。发明人还测试了对于包含半色调文字和非半色调文字二者的文档图像的第二实施例的实现。二值化结果示出了该实现优于上面描述的传统的Otsu的方法，但是不如第一实施例的实现令人满意。因此，发明人目前认为第一实施例是实现本发明的最佳模式。上面描述的方法可以在如图7中所示出的包括处理器、存储器(例如RAM)和用于存储程序的存储装置(例如ROM)的数据处理装置中实现。数据处理装置可以是独立的计算机，或者可以是还包括用于扫描硬拷贝文档的扫描部分的扫描仪(包括多功能打印机-扫描仪-复印机设备)的一部分(见图7)。数据处理装置通过执行存储在存储器中的计算机程序的处理器来实现方法。数据处理装置将扫描的灰度图像作为输入并且生成二值图像作为输出。在一方面，本发明是通过数据处理装置实现的方法。在另一方面，本发明是嵌入到计算机可用非瞬态介质中的计算机程序产品，该计算机可用非瞬态介质中嵌入有用于控制数据处理装置的计算机可读程序代码。在另一方面，本发明嵌入到比如计算机或者扫描仪这样的数据处理装置中。具体地，本发明可以嵌入在扫描仪中，该扫描仪包括用于扫描硬拷贝文档以生成灰度扫描图像的扫描部分，以及用于二值化扫描文档图像以生成二值文档图像的数据处理装置。本领域技术人员将明白，可以对本发明的二值化方法和装置进行多种修改和变形而不脱离本发明的精神或范围。因而，本发明的旨在覆盖落入所附权利要求及其等效方案的范围内的修改和变形。
权利要求
1.一种在数据处理装置中实现的用于二值化通过扫描基于纸的文档而生成的灰度文档图像的方法，所述方法包括以下步骤a.识别所述灰度文档图像中的文字字符；b.基于对步骤a中识别出的每个文字字符的拓扑分析，将所述文字字符分类为半色调文字字符或者非半色调文字字符；以及c.使用仅从步骤b中分类出的半色调文字字符所获得的像素值特征来二值化半色调文字字符。
2.根据权利要求I所述的方法，还包括在步骤b之后并且在步骤c之前的步骤d，将所述灰度文档图像划分为仅包含半色调文字字符的半色调文字区域和包含非半色调文字字符的非半色调文字区域，其中步骤c包括对于每个半色调文字区域使用仅根据在该半色调文字区域中的像素计算出的像素值统计来二值化该半色调文字区域，以生成每个半色调文字区域的二值图。
3.根据权利要求I或2所述的方法，还包括在步骤d之后的步骤e，对于每个非半色调文字区域使用仅根据在该非半色调文字区域中的像素计算出的像素值统计来二值化该非半色调文字区域，以生成每个非半色调文字区域的二值图。
4.根据权利要求3所述的方法，还包括步骤f，组合在步骤c和e中生成的所述半色调文字区域的二值图和所述非半色调文字区域的二值图以生成所述灰度文档图像的二值图。
5.根据权利要求I到4中任意一项所述的方法，其中步骤a包括以下步骤执行所述灰度文档图像的初始二值化以生成初始二值图像；以及提取所述初始二值图像中的连通的图像部分作为文字字符。
6.根据权利要求5所述的方法，其中步骤b包括以下步骤对于每个文字字符计算欧拉数；以及如果所述文字字符的欧拉数低于预定值则将该文字字符分类为半色调文字字符，并且如果所述文字字符的欧拉数等于或者大于所述预定值则将该文字字符分类为非半色调文字字符。
7.根据权利要求2所述的方法，其中步骤d包括向所有非半色调文字字符或者所有半色调文字字符或者向二者应用二值形态学运算的步骤。
8.根据权利要求2所述的方法，其中步骤c包括向每个半色调文字区域应用局部阈值化方法的步骤。
9.根据权利要求3所述的方法，其中步骤e包括向每个非半色调文字区域应用局部阈值化方法或者全局阈值化方法的步骤。
10.根据权利要求I到7中任意一项所述的方法，其中步骤C包括以下步骤Cl.根据在步骤b中分类出的所述半色调文字字符的至少一些来计算像素值统计，所述像素值统计包括平均像素值、最小像素值和最大像素值；以及c2.使用在步骤Cl中计算出的所述像素值统计来二值化所述文档图像以生成第一二值图像；其中所述方法还包括以下步骤二值化所述文档图像以生成第二二值图像；以及使用按位与运算组合所述第一和第二二值图像。
11.一种扫描仪，包括用于扫描硬拷贝文档以生成灰度文档图像的扫描部分；以及用于处理所述灰度文档图像以生成所述灰度文档图像的二值图的数据处理装置，其中所述灰度文档图像的处理包括以下步骤a.识别所述灰度文档图像中的文字字符，b.基于对步骤a中识别出的每个文字字符的拓扑分析，将所述文字字符分类为半色调文字字符或者非半色调文字字符，以及c.使用仅从步骤b中分类出的半色调文字字符所获得的像素值特征来二值化半色调文字字符。
12.根据权利要求11所述的扫描仪，其中所述处理还包括在步骤b之后并且在步骤c 之前的步骤d，将所述灰度文档图像划分为仅包含半色调文字字符的半色调文字区域和包含非半色调文字字符的非半色调文字区域，其中步骤c包括对于每个半色调文字区域使用仅根据在该半色调文字区域中的像素计算出的像素值统计来二值化该半色调文字区域，以生成每个半色调文字区域的二值图，在步骤d之后的步骤e，对于每个非半色调文字区域使用仅根据在该非半色调文字区域中的像素计算出的像素值统计来二值化该非半色调文字区域，以生成每个非半色调文字区域的二值图，以及步骤f，组合在步骤(^Pe中生成的所述半色调文字区域的二值图和所述非半色调文字区域的二值图以生成二值图。
13.根据权利要求11或12所述的扫描仪，其中步骤a包括以下步骤执行所述灰度文档图像的初始二值化以生成初始二值图像；以及提取所述初始二值图像中的连通的图像部分作为文字字符。
14.根据权利要求13所述的扫描仪，其中步骤b包括以下步骤对于每个文字字符计算欧拉数；以及如果所述文字字符的欧拉数低于预定值则将该文字字符分类为半色调文字字符，并且如果所述文字字符的欧拉数等于或者大于所述预定值则将该文字字符分类为非半色调文字字符。
15.根据权利要求11到14中任意一项所述的扫描仪，其中步骤d包括向所有非半色调文字字符或者所有半色调文字字符或者向二者应用二值形态学运算的步骤。
16.根据权利要求11所述的扫描仪，其中步骤c包括向每个半色调文字区域应用局部阈值化方法的步骤。
17.根据权利要求11所述的扫描仪，其中步骤e包括向每个非半色调文字区域应用局部阈值化方法或者全局阈值化方法的步骤。
全文摘要
提供了一种用于二值化扫描文档图像的方法。该文档图像被初始地二值化并且从初始的二值图像提取连通的图像部分作为文字字符。基于其拓扑特征的分析将每个文字字符分类为半色调文字字符或者非半色调文字字符。拓扑特征可以是文字字符的欧拉数；欧拉数小于-2的文字字符被分类为半色调文字。然后将灰度文档图像化分为仅包含半色调文字字符的半色调文字区域和非半色调文字区域。每个区域使用它自己的像素值统计进行二值化。这消除了黑色文字对用于二值化半色调文字的阈值的影响。区域的二值图被组合以生成最终的二值图。
文档编号G06K9/46GK102592126SQ20111035932
公开日2012年7月18日申请日期2011年11月14日优先权日2010年11月15日
发明者俞颂阳, 明伟申请人:柯尼卡美能达美国研究所有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：俞颂阳;明伟
技术所有人：柯尼卡美能达美国研究所有限公司
我是此专利的发明人

上一篇：基于实践检验的执行计划优化的装置及方法
上一篇：机箱的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。