基于局部对比度和笔画宽度估计的低质量文档图像二值化方法

文档序号:9616625阅读:599来源:国知局
基于局部对比度和笔画宽度估计的低质量文档图像二值化方法
【技术领域】
[0001] 本发明涉及一种基于局部对比度和笔画宽度估计的低质量文档图像二值化方法, 属于图像处理技术领域。
【背景技术】
[0002] 文档分析与识别(DAR)技术已广泛应用于印刷体字符及公式识别、手写文字识 另IJ、文档图像分割、视频字幕提取、文本信息检索等领域,主要包括图像采集、预处理、二值 化、版面分析、OCR识别、建立索引等过程。图像二值化是其中一个关键处理步骤,它直接影 响DAR系统的性能。然而,受图像对比度、墨迹浸润、页面污渍或光照不均匀等因素的影响, 使得针对此类低质量文档图像的二值化具有极大的挑战。
[0003]目前,学术界提出了许多文档图像二值化算法,可大致分为全局阈值法和局部阈 值法。全局阈值法采用单一的阈值将文档图像分为字符(前景)与背景两大类,如Otsu算 法利用图像的灰度直方图选择一个最优阈值,使得经阈值分割后的前景与背景像素的类间 方差最大。Otsu算法对于前景和背景差别较大,即直方图具有显著双峰特征的图像具有较 好的分割效果,但在处理低质量文档图像时,会丢失部分甚至全部字符笔画细节。
[0004] 局部阈值法(也称为自适应阈值法)则通过滑动窗口与文档图像卷积,从而实现 在图像不同部分设定不同阈值,如利用像素邻域内的灰度均值和标准差来构建阈值分割曲 面,其性能有赖于滑动窗口的尺寸及字符笔画的粗细。针对不同质量的文档图像需动态调 整窗口尺寸,以获得最佳的阈值处理结果,当图像对比度较低时,会产生大量噪声点或将背 景像素误判为前景像素。
[0005]CN103761520公开了一种基于笔划宽度的文档图像无参二值化方法,属于图像处 理技术领域。该方法首先对输入的文档图像进行去噪预处理,并通过图像的灰度范围内的 各个灰度等级得到一系列的二值化结果,然后通过给定的笔划宽度生成该笔划宽度下的最 优二值化结果,最后通过厚笔划像素在目标像素中所占的比重变化确定最佳的笔划宽度 和最终的二值化结果。
[0006]CN104751422公开了一种影印文档图像增强及二值化方法,包括以下几个步骤: 对输入的彩色图像进行灰度化处理,得到灰度图像;采用Sobel水平和垂直算子获取每个 像素点对应的局部图像块的边缘梯度;进行加权融合改进LC局部增强,获得每个像素点的 加权融合局部对照值;基于每个像素点的加权融合局部对照值作为对应像素点的像素值, 获得输入图像的增强图像。
[0007]CN104751422A公开了一种影印文档图像增强及二值化方法,包括以下几个步骤: 对输入的彩色图像进行灰度化处理,得到灰度图像;采用Sobel水平和垂直算子获取每个 像素点对应的局部图像块的边缘梯度;进行加权融合改进LC局部增强,获得每个像素点的 加权融合局部对照值;基于每个像素点的加权融合局部对照值作为对应像素点的像素值, 获得输入图像的增强图像。

【发明内容】

[0008] 本发明的目的是针对上述现状,旨在提供一种基于局部对比度和笔画宽度估计的 低质量文档图像二值化方法,具体步骤如下:
[0009] 1)获取扫描文档图像;
[0010] 2)彩色图像灰度化;
[0011] 采用最小均值法对彩色文档图像u(x,y)进行灰度化处理,计算公式为:
[0012]
[0013] 式中,ujx,y)分别为R、G、B彩色分量图像,ugMy(x,y)为变换后的灰度图像;
[0014] 3)图像局部对比度检测;
[0015] 定义图像的局部对比度为:
[0016]
[0017]式中,Imax(X,y)、Imin(X,y)和I_n(X,y)分别表示图像在其坐标(X,y)处的3X3邻 域内亮度的最大值、最小值和平均值;
[0018] 4)0tsu全局最优阈值化;
[0019] 记t e [0, L-1]为前景与背景像素的分割阈值,?1表示其归一化直方图,
[0020] 前景像素占图像比例为?,,(〇 =?Λ,前景像素平均灰度值为_=?挺〗访; :?=;ο
[0021] 背景像素占图像比例为_) =XA= 1-?的,背景像素平均灰度值为A(n=f : I=r+l·
[0022] 图像总体平均灰度值为外於,则确定全局最优阈值的准则是使经阈值处理后 feU. 的前景与背景像素的类间方差=n(n[/W)-以2H^(0U(0-/Y]2最大;
[0023] 5)字符笔画宽度估计;
[0024] 采用Canny算子对步骤4)所得二值图像进行边缘检测,分别统计所有字符前景像 素个数nfg和字符边缘像素个数计算轮廓比例$ = &,并由此估计字符笔画宽度;
[0025]6)图像局部二值化;
[0026] 将邻域窗尺寸大小设为字符笔画宽度的2-5倍,采用滑动邻域法对图像进行局部 二值化处理,计算公式为:
[0027]
[0028] 式中,I(X,y)为(X,y)处的像素灰度值,μs(x,y)和〇s(x,y)分别表示以(X,y) 为中心的w X w邻域内所有已标记为前景像素的灰度平均值和标准偏差,常数k取值范围为 0~1 〇
[0029] 本发明与现有技术相比,其显著优点在于:
[0030] 1、采用最小均值法对彩色图像进行灰度化,所得灰度图像与彩色像素值无关;
[0031] 2、采用局部对比度定义,不仅能够补偿图像亮度变化产生的影响,还综合考虑了 图像邻域内所有像素对图像局部对比度的归一化贡献;
[0032] 3、采用轮廓比例法,对文档图像分辨率变化具有较好的鲁棒性;
[0033] 4、能较好地保留字符笔画细节,并在有效分割字符前景的同时,较好地抑制墨迹 浸润、页面污渍、纹理背景及光照不均匀等现象。
[0034] 本发明公开了一种基于局部对比度和笔画宽度估计的低质量文档图像二值化方 法,属于图像处理技术领域。该方法首先对输入的彩色文档图像进行灰度化处理,然后基 于图像的局部对比度实现前景字符像素检测,再采用〇tsu算法对其进行全局最优阈值化 处理,最后通过估计字符笔画宽度来确定邻域窗的大小,从而实现字符前景与页面背景的 精细分割。实验结果表明,本发明中所给出的二值化算法能够较好地保留字符笔画细节, 在有效分割字符前景的同时,还能够较好地抑制墨迹浸润、页面污渍、纹理背景不均匀等现 象。
【附图说明】
[0035] 图1为本发明流程图,
[0036] 图2为光照及色彩不均匀的扫描文档图像样本图,
[0037] 图3为经本发明彩色图像灰度化处理的效果图,
[0038] 图4为局部对比度图像,
[0039] 图5为采用Otsu算法进行全局最优阈值化处理得到的字符前景图,
[0040]图6为基于字符笔画宽度的文档图像局部精细二值化输出图像,
[0041] 图7为具有墨迹浸润的扫描文档图,
[0042] 图8为图7的经本发明二值化输出的文档图,
[0043] 图9为具有纹理背景的扫描文档图,
[0044] 图10为图9的经本发明二值化输出的文档图,
[0045] 图11为具有页面污渍的扫描文档图,
[0046] 图12为图11的经本发明二值化输出的文档图。
【具体实施方式】
[0047] 本发明的流程图见图1,步骤为获取扫描文档图像,彩色图像灰度化,图像局部对 比度检测,Otsu全局最优阈值化,字符笔画宽度估计,图像局部二值化。具体如下:
[0048] 1)获取扫描文档图像;
[0049] 2)彩色图像灰度化;采用的最小均值法对彩色图像进行灰度化,所得灰度图像具 有彩色无关性。
[0050] 目前主要采用分量加权平均、平均值、最大值等方法对彩色图像进行灰度化,
[0051] 加权平均法:ugray(x,y) =0· 2989XuR(x,y)+0. 5870XuG(x,y)+0. 1140XuB(x,y)
[0052] 平均值法:= j) + "s(x,y)]
[0053] 最大值法:ugray (x,y) =max(uR (x,y),uG (x,y),uB (x,y))
[0054] 这些方法更多是基于人眼视觉特性的建模。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1