复杂背景下图像处理的二值化方法

文档序号：6482674阅读：295来源：国知局

专利名称：复杂背景下图像处理的二值化方法
技术领域：
本发明涉及的是一种图像处理技术领域的方法，具体涉及一种复杂背景下图像处理的二值化方法。
背景技术：
人们在日常生活中会接触到大量的图像资料，如彩色图片，封面，海报等。这些图像资料包含了非常丰富的文字信息。因此，基于图像的文字识别也得到了广泛的应用。通知，在文字识别之前要进行二值化操作。这个操作可以将彩色的图像变成黑白的图像。很多重要的技术，如OCR(文字识别)，与二值化操作密切相关。二值化效果的好坏直接影响到OCR的识别率。一副图片上有大量的信息，可分为文字信息和非文字信息。非文字信息经过OCR处理之后，会输出很多乱码。如果一副图片上有大量非文字信息存在，OCR识别率会大大下降。与此同时，图像上的文字有可能是不同字体，不同颜色,不同大小，不同语言。甚至背景颜色和前景颜色也千差万别。目前绝大多数的二值化算法不能解决上述复杂的实际情况，在大量图像处理中，会出现反色的情况(背景为黑色，文字为白色)，这同样也是 OCR识别率大大下降的重要因素。
二值化方法大致可以分为全局阈值和局部阈值法。全局阈值是对整副图像用单一的阈值进行二值化。这是最简单，也是最早的方法。
经对现有技术文献的检索发现，中国专利申请号200510080050.6，名称一种图像二值化的方法。该技术称通过计算机系统对数字化的图像进行二值化方法时，处理灰度直方图为正常的双峰图像一般效果比较好，但当双峰出现明显的偏移，如图像的亮度过高时，往往导致二值化域值选择不能准确而导致二值化后的图像过浅或过深，从而影响到后面对图像的继续处理，如进行文字识别。由于全局阈值方法的只能应用于前景背景灰度值差距比较大的情况，有着太多的局限性。局部阈值法则结合每个像素点的实际情况，动态的计算阈值，效果也更为精细，准确。如Niblack方法，非常适合处理文字信息，但也此同时，会在背景上引入大量的噪声，Sauvola方法，虽然降低了噪声，却不能处理反色的情况。 Kasar方法，虽然能过滤大量非文字信息，但不能适用于各种文字。

发明内容
本发明的目的在于现有技术的不足，提出了一种复杂背景下图像处理的二值化方法。该方法不但在处理的过程中能滤除掉大量的非文字信息，而且能自适应的把各种文字信息都变为黑色，背景变为白色，大大提高了OCR的识别率。
本发明是通过以下的技术方案来实现的
本发明包括以下步骤
① 对输入图像进行多尺度的canny算子的边缘检测，标记连通分支，针对每个独立的连通分支作外接矩形框。
② 对每个矩形框进行分类器的过滤，去除无文字特性区域，筛选出可能包含文字的矩形框。
③ 对每个筛选出的矩形框提取前景颜色和背景颜色，基于这两种颜色对每个矩形框作单独的二值化处理，综合得到最后的二值化结果。
在上述步骤①中，首先把输入图片变成灰度图片。对该灰度图像进行高斯平滑滤波后，用carmy算子检测边缘。然后根据八连通分支的定义，标记出连通在一起的边缘，这样的一个边缘称为一个连通分支。对每个连通分支做作一个外接矩形框。矩形框在筛选文字和提取背景前景颜色的时候,起到非常重要的作用。
进一步，上述步骤①中采用多尺度的高斯平滑滤波，当高斯滤波器在平滑图像的时候，高斯核o会大大影响到图像的平滑程度。在不同o下检测出来的边缘也大大不同。采用单一尺度的滤波，可能一些细小的文字边缘的信息就不能被检测出来，这样一个文字可能残缺不全，为以后的二值化带来更大的难度。因此，为了尽可能得获取全部文字的边缘，必须综合各个尺度下边缘检测的结果。在本发明中，高斯核o从0.2取到0.8，步长是0.2，边缘信息E二EnE21... |En，其中E,代表在第i个o下检测出的边缘。
在上述步骤②中，通过分类器的设计，筛选步骤①中提取出来的矩形框，找到真正包含文字信息的矩形外框。包括下面的步骤
(a) 去除长宽比例大于10或小于0. 1的矩形框。
(b) 去除面积超过整副图像一半以及像素点小于16的矩形框。
(c) 去除填充因子过小的矩形框。(d) 对每个矩形框进行层数的标记，记为Bn， (ii=l,2,3)。 Bl代表该矩形框内部完全没有包含其它的矩形框，完全包含的定义指它内部闭合含有别的矩形框，相交不属于这个范畴。B2代表该矩形框内部只包含B1矩形框。B3代表该类矩形框内部含有多层的矩形框，是除B1， B2两类之外的框。
(e) 去除标有B3的框，去除B2内部中的B1框。剩下的框即为含有文字特性的框。
在上述步骤②中的第(a)步的作用是为了去除图像中长条形的区域，数据表达是长宽比太大或太小。第(b)步是去除一些孤立的，类似噪声点的区域，数学表达为面积太小。第(c)步，填充因子的定义是矩形框内部的边缘像素点与矩形框面积的比值。如果填充因子小于O. 1，说明边缘分布没有文字特性，为非文字框。第(d)步源于对各种文字进行分析的结果。不管是哪个国家的文字，都被限定在了B2和B1之内，不可能出现B3的情况。滤除这些框，可以保证最大限度的去除非文字区域，而保留文字区域。
在上述步骤②中的步骤(c)中，针对步骤(b)中留下来的矩形框，提取
前景背景颜色。前景色<formula>formula see original document page 6</formula>，E代表检测出的边缘，N为边缘点
^ (仏
的总数，I指灰度值。背景色BEB指的是每个矩形框外二十四个特定点的中值。基于这两个颜色，利用如下判决公式<formula>formula see original document page 6</formula>
对每个矩形框进行二值化操作，最后把所有矩形框处理的结果整合起来，得到最终的二值化图片。
进一步，多尺度的canny边缘检测保证了文字边缘有连续性的特征，前景色的计算公式提取的是矩形框内边缘点灰度的均值，能较准确代表文字的颜色信
息。二十四个特定点的中值取的是矩形框外侧四个角以及四条边中央的二十四个特定点灰度的中值，能较真实得反应出局部背景色的信息，而且解决了互相重叠的矩形框的背景前景色干扰的问题，适应于倾斜排列的文字。
本发明的原理是通过多尺度边缘检测把图片的边缘信息尽可能得提取出来，而这些边缘信息很大部分不是文字边缘信息。经过基于层次设计分类器的过滤，去除掉了无文字特性矩形框。通过对余下的矩形框单独提取前景背景色，基于二值化规则自适应得把图像背景变为白色，文字变为黑色。这个二值化方法是局部阈值法，它在图像内部筛选出的矩形框上独立操作，这就保证了复杂背景下各种情况的文字信息的有效提取，矩形框之外的区域不必关心，作为背景。
本发明有益的效果在于对一副背景相对复杂的图像资料，能自动得把上面的文字信息获取并以黑色显示，背景则以白色显示。从而使OCR识别率大大增加，误识率大大降低。

图1是本发明所述方法的流程图；图2是输入图片；
图3是图片多尺度的边缘检测后，连通分支标边并提取外接矩形框；
图4是多层次矩形框筛选后的结果；
图5是最终二值化处理结果；
图6是矩形框外二十四个特定点的位置说明；
图7是该二值化算法和其它二值化算法比较的结果；
图8是本发明的实验结果。
具体实施例方式
下面结合附图和实施方式对本发明作进一步详细的描述。
(1) 如图1所示，这种新的针对复杂图像文字信息的二值化方法，包含以下步骤多尺度的ca皿y算子的边缘检测；标记连通分支，作外接矩形框；筛选有文字信息的矩形框；对矩形框分别提取前景颜色和背景颜色;最后对每个框通过上文提到的公式进行二值化处理。
(2) 多尺度的canny算子的边缘检测
如图2，对输入彩色图像进行灰度化处理之后，进行多尺度的canny边缘检测。其中输入图像可以为任何彩色图像，但需要包含一定的文字信息。实验过程中主要采用图书封面。这副图像包含了中英文字符信息，以及圆形外框，横线等非文字信息。在边缘检测中，高斯核0从0.2取到0.8，步长是0.2。为了尽可能得发现文字边缘，实验中把所有检测出的边缘并起来。结果如图3所示，输入图片不管英文，中文，边框，横线的边缘都被提取出来。(3) 标记连通分支，作外接矩形框
根据8连通法则，对步骤1中的所有连通的边缘，作一个外接矩形框。如图3所示，一个文字可能只包含一个矩形框，也可能由多个矩形框组成。其中，英文字符内部可能包含一个或两个矩形框，而中文字符内部就有可能包含多个矩形框。非文字的图形当然也有自己的外接矩形框，但是它们跟文字外框相比，有
不一样的特性，因此经过下一步的外框筛选，可以去除掉大多数非文字信息。
(4) 筛选有文字信息的矩形框
如图4所示，经过多层次矩形框的筛选后，不属于文字的边缘的外接矩形框被去掉，所有文字边缘的矩形框被保留。其中，圆形外框因为内部包含了 B3矩形框，中央的横线因为外框不满足最初的分类器设计标准一一长宽高比例超出范围，故它们都被滤除。与些同时，大多数文字内部带来重复信息的B1矩形框也被滤除。从图中可以明显看出，图中圆形外框以及中央的那条直线己经被去除掉了。剩余的都是我们需要的文字信息。
(5) 对矩形框提取前景颜色和背景颜色
前景颜色依赖于矩形框内部边缘的灰度值，内部边缘指的就是最初的连通分支，每个矩形外框只包含唯一的内部边缘。把边缘上每个点的灰度统计出来，利用公式
Z取力
其中FEB指的提取的前景颜色，I(x,y)指的是边缘上像素点的灰度值。背景颜色依赖于矩形框二十四点的颜色中值。这二十四个点分布在外接矩形框上的八个地方，分别是每条边的中部以及四个角上，每处三个点。这二十四个点的灰度值有效并真实得反应了文字周围的背景颜色信息。图6是背景色取的二十四个点
的说明。背景颜色的提取方法是为了排除文字在倾斜的时候，前景和背景容易产生混淆的问题。文字在倾斜排列的时候，文字的外接矩形框的角可能接触到其它文字，因此这个角上提取的像素点灰度并不能真实的反应出文字周围的背景颜色信息，而引入的每条边中部的十二个点，一方面扩大了样本的范围，二方面有效得避免了背景颜色提取不准确的情况。最后背景颜色取的是这二十四个点灰度值的中值。(6)对每个框通过上文提到的公式进行二值化处理，处理公式如下:
其中Feb是上文提到的前景顔色，Beb是矩形框的背景顔色。BWeb指的是矩形框内部每个像素点的二值化取值，0代表黑色像素点，l代表白色像素点。最终处理结果如图5所示。可以看出，最终的结果仅仅含有文字信息，图片中的圆形外框，直线都被去除掉。图7是本方法与其它二值化算法的比较结果。其中，a是输入图片，b是niblack方法处理结果，该方法对文字处理较好，但在背景上增加了很多噪声；c是sauvola方法处理结果，该方法在很大程度上降低了背景噪声，但是在图片的边缘上还残留一点痕迹；d是chang方法结果，保留了文字非文字信息；e是Kasar方法的结果，有很大的局限性，如不能处理中文字符；f是本发明方法的处理结果。当然在更加复杂的图片上也有类似的处理结果，如图8所示。实验都是在有复杂背景下的封面上进行的，处理结果在绝大程度上去除了非文字信息，保留了文字信息，并且所有文字都以黑色显示，背景以白色显示。可以看出，该方法不但能有效得抑制噪声，去除背景无关信息，还能自适应的把所有文字变成黑色。
权利要求
1、一种复杂背景下图像处理的二值化方法，其特征在于，包括以下步骤①对输入图像进行多尺度的canny算子的边缘检测，标记连通分支，针对每个独立的连通分支作外接矩形框；②对每个矩形框进行分类器的过滤，去除无文字特性区域，筛选出包含文字的矩形框；③对每个筛选出的矩形框提取前景颜色和背景颜色，基于这两种颜色对每个矩形框作单独的二值化处理，综合得到最后的二值化结果。
2、如权利要求1所述的复杂背景下图像处理的二值化方法，其特征是在上述步骤①中首先把输入图片变成灰度图片；对该灰度图像进行高斯平滑滤波后，用carmy算子检测边缘；然后根据八连通分支的定义，标记出连通在一起的边缘，这样的一个边缘称为一个连通分支；对每个连通分支做作一个外接矩形框。
3、如权利要求2所述的复杂背景下图像处理的二值化方法，其特征是所述的高斯平滑滤波，是指高斯滤波器在平滑图像的时候，高斯核o从0.2取到0.8，步长是0.2，边缘信息E:Et I E2 I…i En，其中E,代表在第i个。下检测出的边缘。
4、如权利要求1所述的复杂背景下图像处理的二值化方法，其特征是在上述步骤②中，通过分类器的设计，筛选步骤①中提取出来的矩形框，找到包含文字信息的矩形外框，包括如下步骤-(a) 去除长宽比例大于10或小于0. 1的矩形框；(b) 去除面积超过整副图像一半以及像素点小于16的矩形框； (C)去除填充因子过小的矩形框；(d)对每个矩形框进行层数的标记，记为Bn， (n=l，2，3), Bl代表该矩形框内部没有完全包含各个矩形框，B2代表该矩形框内部只包含Bl矩形框，B3 代表该类矩形框内部含有多层的矩形框，是除B1， B2两类之外的框；(e)去除标有B3的框，去除B2内部中的B1框，剩下的框即为含有文字特性的框。
5、如权利要求4所述的复杂背景下图像处理的二值化方法，其特征是所述的完全包含，其定义指它内部闭合含有别的矩形框，除相交矩形框外。
6、如权利要求4所述的复杂背景下图像处理的二值化方法，其特征是第(c) 步所述的填充因子，是指矩形框内部的边缘像素点与矩形框面积的比值，如果填充因子小于O. 1，说明边缘分布没有文字特性，为非文字框。
7、如权利要求4所述的复杂背景下图像处理的二值化方法，其特征是第(d) 步中，源于对各种文字，都被限定在了 B2和B1之内，滤除这些框，最大限度的去除非文字区域，而保留文字区域。
8、如权利要求4所述的复杂背景下图像处理的二值化方法，其特征是在步骤(C)中，针对步骤(b)中留下来的矩形框，提取前景背景颜色前景色^朋=+ Z "A力其中E代表检测出的边缘，N为边缘点的总数，I指灰度值；背景色BEB指的是每个矩形框外二十四个特定点的中值；基于这两个颜色，利用如下判决公式对每个矩形框进行二值化操作，最后把所有矩形框处理的结果整合起来，得到最终的二值化图片。
全文摘要
本发明涉及一种图像处理技术领域的方法，具体涉及一种复杂背景下图像处理的二值化方法。包含以下步骤对输入图像进行多尺度的canny算子的边缘检测，标记连通分支，针对每个独立的连通分支作外接矩形框；对每个矩形框进行分类器的过滤，去除无文字特性区域，筛选出可能包含文字的矩形框，对每个筛选出的矩形框提取前景颜色和背景颜色；基于这两种颜色对每个矩形框作单独的二值化处理，综合得到最后的二值化结果。本发明准确和清晰度都非常高，能大大提高文字的识别率，其效果优于其它方法。
文档编号G06K9/38GK101599125SQ20091005288
公开日2009年12月9日申请日期2009年6月11日优先权日2009年6月11日
发明者张志远, 李晨轩, 管海兵, 凯陈, 齐开悦申请人:上海交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈凯;齐开悦;张志远;李晨轩;管海兵
技术所有人：上海交通大学
我是此专利的发明人

上一篇：Ntfs文件系统下轻量级文件加密及其解密恢复方法
上一篇：物流公司、货主、承运商三方共同协作的运输管理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。