文档图像二值化方法

文档序号：7624921阅读：238来源：国知局

专利名称：文档图像二值化方法
技术领域：
本发明涉及图像处理领域，具体来说提供了一种把从扫描仪、传真机或者数码相机得到的数字图像转化为二值图像的技术。本发明的应用领域为文档图像处理、文档管理以及文档识别。
背景技术：
当代社会中，文档是首要的信息载体。因此本发明针对图像，特别是由文本、表格、线条以及图片构成的文档图像的二值化进行了改进。由于文档图像的信息本质上是二值信息，理想条件下，可以将其用单一的前景和背景来表示，比如用白色表示背景，黑色表示有用信息，即前景。然而，实际应用中，由于打印过程、不均匀的反光、文档本身内容的多样化以及各种丰富的艺术效果，通常图像中的前景和背景都是变化的。文档图像二值化的目的就是从无用信息中将有用信息分离出来，并将结果表示为一幅二值图像。
图像二值化在很多应用中是必要的步骤，比如美国专利5,452,107提出了一种根据原始图像局部区域的密度，包括目标像素和周围像素的平均值，来确定二值化阈值的方法。该方法的缺陷是局部只能提供有限的信息。

发明内容
本发明的目的在于提供一种能够解决现有技术中存在的上述问题的文档图像二值化方法。
为了实现上述目的，本发明提供一种对文档图像进行二值化处理的图像处理方法，包含如下步骤a)在全局阈值化处理中，确定用于图像进行二值化的全局阈值，根据所述全局阈值将所述文档图像的像素分为三类黑，白和待定像素；b)为每个待定像素确定一个自适应的二值化阈值，根据所述自适应二值化阈值，将待定像素二值化。
本发明的文档图像二值化方法结合了全局和局部信息，同时有效地利用了图像的局部信息和历史信息，因此，能够提供更高质量的二值化文档图像。

通过下面结合附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中图1概述了本发明所提出的图像二值化方法的流程图。
图2示出了图1中本发明方法的预处理模块的详细流程图。
图3示出了图1中本发明方法的全局阈值化模块的详细流程图。
图4示出了全局阈值化后的一个文档图像直方图的例子，并相应地标出了用全局阈值化方法得到的三个全局阈值T1、T2和T3。
图5示出了图1中本发明方法的局部阈值化模块的详细流程图。
图6示出了图1中本发明方法的后处理模块的详细流程图。
图7表示应用本发明方法对图像进行二值化的过程的例子。
具体实施例方式
以下，参照附图来详细说明本发明的实施例。
如果图像中的背景和有用信息(或称为前景)的像素值或色彩值在全图中是一致的，那么采用单一阈值就可以得到高质量的二值化图像。这种方法称为全局阈值化。
但是，目前使用的大多数文档图像含有丰富的图表和艺术效果，单一阈值往往会引入噪声或者无法保留有用的信息。对不同的像素或者不同区域的像素采用不同的阈值进行二值化的方法，通常称为局部阈值化。
图1概述了本发明所提出的图像二值化方法的流程图。本发明的图像二值化方法是结合全局和局部信息进行的。
参考图1，在本发明的文档图像二值化方法中，其输入为一个纸质或电子文档10，经过预处理模块11、全局阈值化模块12、局部阈值化模块13以及后处理模块14后被转化为电子二值化图像。
输入文档10如果是纸质文档的话，需要采用光学扫描设备如扫描仪、传真机或者数码照相机将其转换为计算机能够处理的数字图像。数字图像的格式可以为BMP、JPEG、TIF等。
预处理模块11对图像进行下文将要说明的一系列的处理，其处理结果为后续的阈值化模块所用。
此后全局阈值化模块12确定两个阈值，将图像像素分为白、黑和待定像素。待定像素指在全局阈值阶段无法根据直方图信息确定其分类的像素集，这些像素可能是艺术效果、图表、照片、表格甚至是文字信息。由于全局阈值化可以处理大多数图像像素，因此可以显著提高二值化的速度。另外一个好处在于由于全局阈值化阶段不区分前景和背景，因此能够保持文档中的反色信息，即文本符号的颜色与背景颜色比深的情况。
在本发明中，局部阈值化模块13根据图像局部特征和历史阈值信息为每一个待定像素确定一个二值化阈值。这里的局部特征包括图像局部区域的均值和方差。而历史阈值信息则来自于已经二值化的邻近像素。本发明中，历史阈值信息的使用非常重要，它可以显著提高输出二值化文档图像的质量。
最后，后处理模块14对经过全局阈值化模块12以及局部阈值化13二值化后的图像进行处理，以便去除该图像上的噪声。一般来讲，这样的噪声有三类文本笔划的粘连、文本笔划的断开以及孤立噪声点。本发明的后处理方法能够在不引入新的噪声的情况下去除图像中的大多数噪声。
经过上述处理，输入文档10的有效信息被表示为一个二值化文档图像15。此图像可被用于很多领域，如进一步的图像分析、文本字的颜色检测、文档图像压缩、文档的版面分析以及光学字符识别等。
下面通过图2-6对图1中的每个模块进行详细介绍。
图2详细表示了预处理模块11的流程。预处理模块11的功能是对图像进行平滑以去除噪声，同时为后续的全局阈值化模块12提供必要的数据。如果输入是纸质文档，首先通过模块101对其进行数字化产生数字图像。如果是彩色图像，通过模块102将其转化为灰度图像或者对每个通道分别进行处理。根据图像的内容和质量，可采用直方图均衡化模块对灰度进行处理。随后的低通滤波器104可选择如高斯滤波器的线性滤波器，或者如均值滤波器的非线性滤波器。
此后图像被划分为图像块，如果图像块内像素最大值和最小值的差小于预先设定的阈值，则认为该图像块是均匀的，对确定全局阈值无法提供有意义的信息，因此在图像蒙版估计模块105中该均匀的图像块被屏蔽掉不予考虑。对于有效信息只占图像很小部分的情况，该蒙版也能发挥很好的作用。最后，根据图像蒙版计算图像的直方图分布，这将作为全局阈值化模块12的输入。出于速度的考虑，也可对图像进行降采样，并将得到的阈值应用于原始图像。
图3详细表示了全局阈值化算法的流程图。该模块对从预处理模块11得到的直方图进行分析，首先模块111在像素灰度最大值和最小值之间选取一个最优阈值T1，随后模块112和113分别在最小值和T1之间以及T1和最大值之间选取阈值T2和T3。在本发明的一个可能实施例中，基于线性判别准则的Otsu算法(这是一个非常常用的算法，出处N.Otsu，“A thresholdselection method from grey-level histograms，”IEEE Trans.Syst.，Man，Cybern.，vol.SMC-1，pp.62-66，Jan.1979.)被用于确定T1、T2和T3，即，根据Otsu算法在直方图上算出来T1、T2和T3，这三个阈值满足T2≤T1≤T3。在模块114中，图像中的像素灰度值如果小于T2，则被判别为黑色像素，表示为1，如果大于T3，则被判别为白色像素，表示为0。剩下的像素则被判别为待定。值得一提的是，因为随着印刷技术的提高，出现了大量含有丰富背景，而有效的文字信息由单一的亮色表示的文档。因此为了能够保持反色信息，模块114不对前景和背景进行区分。
图4给出了全局阈值化的一个例子，其中，横坐标为像素灰度值，纵坐标为每个像素灰度值在全图出现的次数，即直方图，T1，T2和T3是根据上述方法确定的三个全局阈值，其中T2和T3被用于全局阈值化。
仅仅通过对直方图的分析无法确定落入T2和T3区间的像素(即待定像素)是否包含有用信息，因此需要借助更多的信息进行分析。
图5给出了局部自适应阈值化模块的流程图，用于确定落入T2和T3区间的像素(即待定像素)是否包含有用信息。该模块逐一检查图像中的像素，如果当前像素是黑或者白，则检查下一个像素；如果当前像素的值介于黑和白之间，即属于待定类的像素，则为该像素确定一个阈值，并根据该阈值，对该待定像素进行二值化。
如果当前像素是所在行的第一个待定像素，则模块121采用当前像素的局部特征指局部均值和局部方差，采用的方法为Sauvola算法(参见出处J.Sauvola，M.Pietkinen，“Adaptive document image binarization”，PatternRecognition，Vol.33，pp.225-236，2000.)。
如果当前像素不是所在行的第一个待定像素，则在局部特征的基础上增加历史阈值信息，即，上一个待定像素确定的阈值。模块122对局部信息和历史阈值信息采用特定的方式来为当前像素确定阈值，具体的系数可以根据应用领域以及文档的特点确定。例如，对OCR应用来说，可以将字提取率作为标准来对系数进行优化。选定阈值后，如果像素灰度值小于阈值，则该待定像素被二值化为黑，否则二值化为白。
在本发明的一个可能的实施例中，局部信息和历史阈值信息通过如下公式被组合在一起T＝m*(1-k1*(k2*VAR+k3*Thistory)/R)其中，T是待定像素的阈值，m是以待定像素为中心的一个邻域的均值，VAR是所述邻域的反差，Thistory是历史阈值信息，k1、k2、k3和R均是线性系数。
文档图像通常都由字符、线、表格、照片和图表等构成，这些不同的成分通常各有特点。但是从二值化图像上来看，最重要的信息是字符、线、表格的结构以及内部的字符。如上所述，二值化图像中的噪声可以分为三类笔划之间的粘连、笔划的断裂以及孤立噪声点/块。后处理的目的是将粘连的比划分开，连接断裂的笔划并去除孤立噪声点，并且在处理过程中不引入新的噪声。
图6详细给出了后处理模块的流程图，其基本思路是用迭代的方式对图像进行分析，是否继续取决于每次迭代的结果。首先，后处理的输入是经过全局和局部阈值化的二值化图像，在每次迭代中，检查每个像素邻域内与其颜色相同的像素数目，如果数目少于一定阈值T4，则将中心像素反色，否则保持其颜色。该方法的成功与否取决于邻域的阈值和大小。本发明中的后处理选取一个相对较大的邻域，同时邻域阈值根据前次迭代的结果进行适度增大。如果某次迭代中，颜色被反色的像素数目少于一定阈值T5，说明图像的噪声已经在一定范围内，因此迭代停止。这种方式有效减少了引入的噪声。
经过图2-6所述的处理，将一个输入文档转化为一个二值图像。
图7给出了一个二值化的具体例子。其中，A是原始图像，B是全局阈值化后的结果，而C是局部阈值化后的结果。
本发明不限于上述的具体实施例。对于本领域普通技术人员来说，在不超出所附权利要求书限定的保护范围内，显然可以进行各种各样的组合、改变和变型。
例如，本发明的针对预处理模块的一种可能的变型为，可以去除或者改变图2的模块103、104和105。如果前景和背景的像素分布比较均匀的话，无需进行低通滤波。
本发明的针对全局阈值化模块的一种可能的变型为，可以改变图3的模块111、112和113中的全局阈值化方法，例如基于信息熵或矩的方法，并且用于确定T1，T2和T3的方法也无须相同。
本发明的针对局部阈值化模块的一种可能的变型为，可以改变图5的有关当前行的第一个待定像素的阈值的确定方法。而且，图5中的历史阈值信息可以选取来自与当前像素位于同一列的前一个待定像素的阈值。此外，用于组合局部特征和历史阈值信息的线性系数可根据具体的应用进行调整。
权利要求
1.一种对文档图像进行二值化处理的图像处理方法，包含如下步骤a)在全局阈值化处理中，确定用于对图像进行二值化的全局阈值，根据所述全局阈值将所述文档图像的像素分为三类黑，白和待定像素；b)为每个待定像素确定一个自适应的二值化阈值，根据所述自适应二值化阈值，将待定像素二值化。
2.根据权利要求1的图像处理方法，步骤a)进一步包括如下步骤通过直方图分析，在像素最小值和最大值之间确定第一全局阈值(T1)；通过直方图分析，在像素最小值和第一全局阈值(T1)之间确定第二全局阈值(T2)；通过直方图分析，在第二全局阈值(T2)和像素最大值之间确定第三全局阈值(T3)；根据第二全局阈值(T2)和第三全局阈值(T3)，将图像像素分为3类像素值小于第二全局阈值(T2)的为黑像素，像素值大于第三全局阈值(T3)的为白像素，像素值介于第二全局阈值(T2)和第三全局阈值(T3)之间的为待定像素。
3.根据权利要求1的图像处理方法，其特征在于步骤b)进一步包括如下步骤采用局部特征为每行或每列的第一个待定像素确定所述自适应阈值；采用特定的方式结合局部特征和历史阈值信息，为后续的每个待定像素确定所述自适应阈值；选定所述自适应阈值后，如果待定像素灰度值小于所述自适应阈值，则该待定像素被二值化为黑，否则二值化为白。
4.根据权利要求3的图像处理方法，其特征在于所述局部特征包括图像局部区域的均值和方差；所述历史阈值信息是当前行或列上的前一个待定像素的阈值。
5.根据权利要求1的图像处理方法，其中，在进行二值化处理之前，还包括步骤对图像进行预处理以为全局阈值化处理提供数据。
6.根据权利要求5的图像处理方法，其中所述预处理步骤进一步包括如下步骤对文档图像进行低通滤波以去除高频噪声；根据图像块内的像素值变化幅度确定图像蒙版；如果需要，可根据图像蒙版对图像进行降采样；根据图像蒙版计算原始图像或者降采样图像直方图。
7.根据权利要求6的图像处理方法，其特征在于使用高斯滤波器或者均值滤波器对文档图像进行低通滤波。
8.根据权利要求1的图像处理方法，其特征在于可进一步包含如下步骤d)在二值化的图像上进行去除噪声的后处理。
9.根据权利要求8的图像处理方法，其特征在于步骤d)可进一步包含如下步骤计算当前像素邻域内与当前像素颜色相同的像素数目；如果得到的像素数目小于第四阈值(T4)，则将当前像素反色；如果当前迭代中被反色的像素小于第五阈值(T5)或者迭代已经达到最大次数，则迭代停止，否则重新计算第四阈值(T4)和第五阈值(T5)，并继续迭代。
全文摘要
本发明提供一种对文档图像进行二值化处理的图像处理方法，包含如下步骤a)在全局阈值化处理中，确定用于图像进行二值化的全局阈值，根据所述全局阈值将所述文档图像的像素分为三类黑，白和待定像素；b)为每个待定像素确定一个自适应的二值化阈值，根据所述自适应二值化阈值，将待定像素二值化。
文档编号H04N1/40GK1941838SQ200510107630
公开日2007年4月4日申请日期2005年9月29日优先权日2005年9月29日
发明者郝瑛, 欧文武, 王刚申请人:株式会社理光

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝瑛;欧文武;王刚
技术所有人：株式会社理光
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。