一种基于支持向量机的文档图像二值化方法

文档序号:10725707阅读:1023来源:国知局
一种基于支持向量机的文档图像二值化方法
【专利摘要】本发明公开了一种基于支持向量机的文档图像二值化方法,包括彩色图像灰度化、文档图像分块、提高图像块的局部对比度、特征参数提取、SVM阈值分类、图像块拼接、笔画宽度估计、局部二值化等八个步骤;本发明采用最小均值法对彩色图像进行灰度化,所得灰度图像具有彩色无关性;定义的局部对比度,不仅能够补偿图像亮度变化产生的影响,还综合考虑了图像邻域内所有像素对图像局部对比度的归一化贡献;采用SVM阈值分类法准确性高,可靠性高;采用逐行扫描法进行笔画宽度估计,对文档图像分辨率变化具有较好的鲁棒性;本发明能够较好地保留字符笔画细节,并在有效分割字符前景的同时,较好地抑制墨迹浸润、页面污渍、纹理背景及光照不均等现象。
【专利说明】
一种基于支持向量机的文档图像二值化方法
技术领域
[0001] 本发明属于数字图像处理、模式识别与机器学习技术领域,涉及一种文档图像二 值化方法,特别是涉及一种基于支持向量机(SVM)的低质量文档图像二值化方法。
【背景技术】
[0002] 文档分析与识别(DAR)技术已广泛应用于印刷体字符及公式识别、手写文字识别、 文档图像分割、视频字幕提取、文本信息检索等领域,主要包括图像采集、预处理、二值化、 版面分析、字符识别、建立索引等过程。图像二值化是其中一个关键处理步骤,它直接影响 DAR系统的性能。然而,受图像对比度、墨迹浸润、页面污渍或光照不均等因素的影响,使得 针对此类低质量文档图像的二值化具有极大的挑战。
[0003] 目前,学术界提出了许多文档图像二值化算法,可大致分为全局阈值法和局部阈 值法。全局阈值法采用单一的阈值将文档图像分为字符(前景)与背景两大类,如Otsu算法 利用图像的灰度直方图选择一个最优阈值,使得经阈值分割后的前景与背景像素的类间方 差最大。Otsu算法对于前景和背景差别较大,即直方图具有显著双峰特征的图像具有较好 的分割效果,但在处理低质量文档图像时,会丢失部分甚至全部字符笔画细节。
[0004] 局部阈值法(也称为自适应阈值法)则通过滑动窗口与文档图像卷积,从而实现在 图像不同部分设定不同阈值,如附13]^〇1^、3311¥〇13、¥〇]^等算法利用像素邻域内的灰度均值 和标准差来构建阈值分割曲面,其性能有赖于滑动窗口的尺寸及字符笔画的粗细。针对不 同质量的文档图像需动态调整窗口尺寸,以获得最佳的阈值处理结果,当图像对比度较低 时,会产生大量噪声点或将背景像素误判为前景像素。
[0005] 国内外研究人员还提出了许多其它方法,如背景估计法、局部对比度法、笔画边缘 检测法、梯度归一化与显著图法、纹理分析法、拉普拉斯能量法、误差扩散法、谱聚类法以及 混合算法等,其中大部分方法的计算复杂度相对较高,且不能很好地解决受墨迹浸润、页面 污渍、背景纹理等退化因素影响的低质量文档图像二值化问题,或者仅能够适用于某些特 定场景(如光照不均勾条件)。

【发明内容】

[0006] 为了解决上述技术问题,本发明提供了一种基于支持向量机(SVM)的低质量文档 图像二值化方法。
[0007] 本发明所采用的技术方案是:1. 一种基于支持向量机的文档图像二值化方法,其 特征在于,包括以下步骤:
[0008] 步骤1:判断文档图像是否为彩色图像;
[0009] 若是,则对彩色图像进行灰度化处理,然后执行下述步骤2;
[0010]若否,则继续执行下述步骤2;
[0011] 步骤2:对文档图像进行分块;
[0012] 对于每幅图像和其对应的标准GT图像都按照NXN的大小进行分块,这样每幅图片 都被分成了 N2块图像区域,N>5;
[0013] 所述N2块图像区域包含了三种不同类型:①只含有背景,没有任何前景文本信息; ②文本前景和复杂背景融合较好,其各自占图像块比例约为50 % ;③文本前景占图像块比 例小于10%,图像中的其他部分都是复杂的背景区域;
[0014] 步骤4:图像块的特征参数提取;
[0015]步骤5: SVM阈值分类模型训练,包括以下子步骤:
[0016]步骤5.1:将步骤3中每个经过局部对比度增强后的图像块分别以To、TQtsu和Tmin作 为阈值进行粗分割,分割的结果分开存储;
[0017]对于步骤2中所述第①种情况,直接将阈值取为0,记为T = 0,这样背景区域会变成 全白而前景文本全黑;对于步骤2中所述第②种情况,将阈值取为该图像块的Otsu最佳阈 值,记为TQtsu;对于步骤2中所述第③种情况,将阈值设定为该块周边图像块中Otsu阈值的 最小值,记为Tmin;
[0018] 步骤5.2:将每幅图像的标准GT图像都也按照相同大小进行NXN分块,分别将To、 T0tsu和Tmin分割后的结果图和它对应的标准GT图像块进行对比,选取三种指标作为参考, 即:F值(F-measure)、峰值信噪比(PSNR)、结构相似度(SS頂),分别输出对应二值化图像的 参数评估数值表;
[0019] 步骤6:图像块拼接;
[0020] 步骤7:笔画宽度估计;
[0021]步骤8:局部二值化。
[0022]作为优选,步骤1中所述对彩色图像进行灰度化处理,是采用最小均值法对彩色文 档图像f(x,y)进行灰度化处理,所得灰度图像具有彩色无关性,计算公式为:
[0024]其中fi(x,y)分别为R、G、B三种颜色的分量图像,i可取R、G、B三个分量,fgray(x,y) 为变换后的灰度图像。
[0025]作为优选,步骤3中所述提高图像块的局部对比度,其计算公式为:
[0027]其中:^七,7)、;^1^,7)和;^_(1,7)分别表示图像在以(1,7)为中心的3\3邻域 内的亮度最大值、最小值和平均值;为了不使分母为〇,ε是无限趋近于零的值。
[0028]作为优选,步骤3中所述图像块的特征参数包括均值μ、标准差〇、相对平滑度R、三 阶矩U3(x)、一致性U(x)、熵e(x)、T〇tsu、T〇tsu-Tmin、灰度信息、u、deta;
[0029]其计算公式分别为:
[0032] R=l_l/(l+〇2),反应了图像块的平滑性;
[0036] Totsi!:使用Otsu算法计算出来的分割阈值;
[0037] TQtsu-Tmin:Tmin为该块邻域Otsu阈值的最小值;
[0038] 灰度信息:灰度分层信息,反应图像均匀程度;
[0041]其中:L表示图像灰度级分辨率,1^[0氺-1]表示图像灰度级取值,^表示图像灰 度级为i时像素个数,P(Xl)表示图像的归一化直方图。
[0042]作为优选,步骤5所述SVM阈值分类模型训练,其SVM建模过程包括以下子步骤: [0043]步骤5.1:选定测试集和训练集;
[0044]本发明选取50张低质量的文档图像作为与之分类器的训练样本,测试样本共42 张,均来自国际文档二值化竞赛提供的低质量文本;
[0045] 步骤5.2:数据预处理;
[0046]训练样本和测试样本图像都要按照上述步骤,经过灰度化和分块,提高每块的局 部对比度,计算11个特征参数;
[0047]步骤5.3:利用训练集训练SVM,分类结果如表1;
[0048]表1为预测分类实验结果
[0049]
[0050] 步骤5.4:计算分类准确率;
[0051]本发明选取1250幅图像作为训练样本,1050幅图像作为测试样本,通过和测试组 标准分类标签的比对,分类的准确率达到98.1 %。
[0052] 步骤5.5:预测测试集;
[0053]将经过数据预处理后的测试样本输入分类器,得到的分类结果。
[0054]作为优选,步骤6中所述图像块拼接,是按照在图像分块时各个图像块在原图中的 位置标记进行拼接。
[0055] 作为优选,步骤7中所述笔画宽度估计,是采用Canny算子快速得到边缘分布图像; 从左至右依次扫描,当遇到第一个边缘像素点时,记下坐标位置^,接着继续扫描,记下下 一个边缘像素点的坐标位置 X2,那么边缘水平间距为:(1 = 1211;重复扫描,直至整幅图像扫 描完成,统计d的分布,那么笔画宽度SWE为: ,其中Η表示出现此水平间距 的次数。
[0056] 作为优选,步骤8中所述局部二值化,是将滑动窗口尺寸设置为笔画宽度的两倍,
进行局部二值化,其中f(x,y)为(x,y)处的像素灰度值,局 部阈值T的计算公式为:
[0057] T(x,y) = (l-k) Xy(x,y)+kXfmin+kX [y(x,y)-fmin] X〇(x,y)/R
[0058] 其中y(X,y)和〇(x,y)分别表示以(x,y)为中心的邻域内所有"种子"像素的灰度平 均值和标准偏差,f min为图像的最小灰度值,R为图像的最大标准偏差,常数k的取值范围介 于0和1。
[0059]本发明与现有技术相比,其显著优点在于:
[0060] (1)本发明中采用的最小均值法对彩色图像进行灰度化,所得灰度图像具有彩色 无关性;
[0061] (2)本发明定义的局部对比度,不仅能够补偿图像亮度变化产生的影响,还综合考 虑了图像邻域内所有像素对图像局部对比度的归一化贡献;
[0062] (3)本发明采用的SVM阈值分类法准确性高,可靠性高;
[0063] (4)本发明采用的逐行扫描法进行笔画宽度估计,对文档图像分辨率变化具有较 好的鲁棒性;
[0064] (5)本发明能够较好地保留字符笔画细节,并在有效分割字符前景的同时,较好地 抑制墨迹浸润、页面污渍、纹理背景及光照不均等现象。
【附图说明】
[0065]图1:本发明实施例的流程图;
[0066]图2:本发明实施例的SVM建模和预测分类流程图。
【具体实施方式】
[0067] 为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发 明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不 用于限定本发明。
[0068] 请见图1,本发明提供的一种基于支持向量机的文档图像二值化方法,包括以下步 骤:
[0069] 步骤1:彩色图像灰度化(针对灰度图像,可省略此步骤);
[0070] 研究人员目前主要采用分量加权平均、平均值、最大值等方法对彩色图像进行灰 度化,这些方法更多是基于人眼视觉特性的建模。
[0071]本发明采用最小均值法对彩色文档图像f(x,y)进行灰度化处理,所得灰度图像具 有彩色无关性,计算公式为:
[0073]其中fi(x,y)分别为R、G、B三种颜色的分量图像,i可取R、G、B三个分量,fgray(x,y) 为变换后的灰度图像。
[0074]步骤2:文档图像分块;
[0075]对于每幅图像按照NXN的大小进行分块,这样每幅图片都被分成了 N2块图像区 域。若N多5,会大大提高算法的时间复杂度,本发明采用N = 5对图像分块,即将每幅图片分 成25块;
[0076]通过分析发现这25个图像区域包含了三种不同类型:①只含有背景,没有任何前 景文本信息;②文本前景和复杂背景融合较好,其各自占图像的比例约为50% ;③文本前景 占图像块比例小于10%的图像区域,图像中的其他部分都是背景区域。
[0077]步骤3:提尚图像块的局部对比度;
[0078] Bernsen方法定义的图像局部对比度为C(x,y) =fmax(x,y)-fmin(x,y),其中fmax(x, y)和fmin(x,y)分别表示图像在以(x,y)为中心的某邻域内的亮度最大值和最小值。类似于 图像梯度,它对图像的亮度变化非常敏感,当文本像素位于较亮的背景区域时,其局部对比 度较大,当文本像素位于较暗的背景区域时,则局部对比度将变小。为了补偿其对图像亮度 变化产生的影响,Su等人采用Herk局部图像对比度定义
但其 忽略了图像邻域内的非极值像素对图像局部对比度的归一化贡献。
[0079]为了解决这个问题,本发明将图像的局部对比度重新定义为:
[0081]其中:^七,7)、;^1^,7)和;^_(1,7)分别表示图像在以(1,7)为中心的3\3邻域 内的亮度最大值、最小值和平均值。为了不使分母为〇,ε是无限趋近于零的值。
[0082]步骤4:特征参数提取;
[0083]要判断每块图像对应的最优阈值,其本质就是一个图像的三分类问题。传统的SVM 算法在设计之初是为二值分类问题设计的,本发明通过组合多个二分类器来构造分类器, 从而实现三分类。
[0084]考虑到每个图像块在分块后经过了灰度化和局部对比度增强操作,可以将传统的 6个图像纹理参数作为特征参数,即:
[0088] 标准差反映灰度级的变化程度,即图像粗糙程度的度量;
[0089] 相对平滑度:!?=!-!/( 1+σ2);
[0090]相对平滑度是对图像粗糙程度的度量,它反映了图像块的平滑性;
[0096]熵可以用来表征图像的复杂程度或者非均匀程度;
[0097]本发明还将TQtsu和TQtsu-W直作为特征参数输入SVM分类器,同时,灰度信息作为 反应图像均匀程度的关键因素,也作为度量图像的参数指标之一。此外,本发明还提出两个 新的参数指标,BP:
[0100]当deta值很高时,图像块中黑色像素和白色像素的融合度很高,即图像很平滑,这 样就可以直接采用TQtsu作为图像块分割的阈值;另一方面,当deta值很低但是u值相对很高 时,通常将阈值设为To。
[0101] 步骤5: SVM阈值分类模型训练;
[0102] 步骤5.1:将步骤3中每个经过局部对比度增强后的图像块分别以To、TQtsu和Tmin作 为阈值进行粗分割,分割的结果分开存储;
[0103] 对于步骤2中所述第①种情况,直接将阈值取为0,记为T = 0,这样背景区域会变成 全白而前景文本全黑;对于步骤2中所述第②种情况,将阈值取为该图像块的Otsu最佳阈 值,记为T Qtsu;对于步骤2中所述第③种情况,将阈值设定为该块周边图像块中Otsu阈值的 最小值,记为Tmin;
[0104] 步骤5.2:将每幅图像的标准GT图像都也按照相同大小进行5X5分块,分别将To、 T0tsu和Tmin分割后的结果图和它对应的标准GT图像块进行对比,选取三种指标作为参考, 即:F值(F-measure)、峰值信噪比(PSNR)、结构相似度(SS頂),分别输出对应二值化图像的 参数评估数值表;
[0105] 本发明选取50张低质量的文挡图像作为SVM阈值分类器的训练样本,测试样本共 42张,均来自国际文档图像二值化竞赛提供的低质量文本。对训练的50张图像样本按照上 述方法灰度化,每张图像分成5X5大小的图像块,这样SVM的输入图像块样本数目为1250 块,对这1250个图像块进行局部对比度增强,然后用提高局部对比度后的分块图计算11个 特征性状参数。对于测试的42张图像样本也按照相同的方法处理,分块后测试样本的总量 为1050块,同时也需对每块图像提取11个特征性状参数用于模型的预测。
[0106] 请见图2,本发明的SVM建模过程包括以下子步骤:
[0107] 步骤5.1:选定测试集和训练集;
[0108] 选取50张低质量的文档图像作为与之分类器的训练样本,测试样本共42张文档图 像,均来自国际文档二值化竞赛提供的低质量文本;
[0109] 步骤5.2:数据预处理;
[0110] 训练样本图像和测试样本图像均进行灰度化和分块处理,提高每块的局部对比 度,计算11个特征参数;
[0111] 步骤5.3:利用训练集训练SVM,分类结果如表1;
[0112]表1为预测分类实验结果
[01131
[0114] 步骤5.4:计算分类准确率;
[0115] 步骤5.5:预测测试集;
[0116] 将经过数据预处理后的测试样本输入训练好的分类器,得到的分类结果。
[0117] 步骤6:图像块拼接;
[0118]图像块经过步骤5的SVM分类后,可以得到1050份测试图像块的分类阈值类别,根 据不同的类别选取不同的阈值进行二值化处理。然后,将相应的图像块进行拼接。在图像分 块时,需要将各个图像块在原图中的位置进行标记,在拼接时按照对应标记进行拼接,这样 可以减少工作量。
[0119] 步骤7:笔画宽度估计;
[0120] 采用Canny算子快速得到边缘分布图像。从左至右依次扫描,当遇到第一个边缘像 素点时,记下坐标位置^,接着继续扫描,记下下一个边缘像素点的坐标位置 X2,那么边缘水 平间距为:d = X2-X1。重复扫描,直至整幅图像扫描完成,统计d的分布,那么笔画宽度SWE为:
'其中Η表示出现此水平间距的次数。
[0121] 步骤8:局部二值化;
[0122] 经过步骤5的笔画宽度估计后,将滑动窗口尺寸设置为笔画宽度的两倍,采用式
:进行局部二值化,其中f(x,y)为(x,y)处的像素灰度值,局部阈值Τ 的具体计算公式为:
[0123] T(x,y) = (l-k) Xy(x,y)+kXfmin+kX [y(x,y)-fmin] X〇(x,y)/R
[0124] 其中以(^7)和〇(^7)分别表示以(^7)为中心的邻域内所有"种子"像素的灰度平 均值和标准偏差,f min为图像的最小灰度值,R为图像的最大标准偏差。常数k的取值范围介 于0和1。
[0125] 应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0126]应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本 发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权 利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发 明的请求保护范围应以所附权利要求为准。
【主权项】
1. 一种基于支持向量机的文档图像二值化方法,其特征在于,包括W下步骤: 步骤1:判断文档图像是否为彩色图像; 若是,则对彩色图像进行灰度化处理,然后执行下述步骤2; 若否,则继续执行下述步骤2; 步骤2:对文档图像进行分块; 对于每幅文档图像按照NXN的大小进行分块,运样每幅图片都被分成了妒块图像区域, 修5; 所述护块图像区域包含了 Ξ种不同类型:①只含有背景,没有任何前景文本信息;②文 本前景和复杂背景融合较好,其各自占图像块比例约为50%;③文本前景占图像块比例小 于10%,图像中的其他部分都是复杂的背景区域; 步骤3:提高图像块的局部对比度; 步骤4:图像块的特征参数提取; 步骤5:SVM阔值分类模型训练,包括W下子步骤: 步骤5.1:将步骤3中每个经过局部对比度增强后的图像块分别WT〇、T〇tsu和Tmin作为阔 值进行粗分割,分割的结果分开存储; 对于步骤2中所述第①种情况,直接将阔值取为0,记为Τ = 0,运样背景区域会变成全白 而前景文本全黑;对于步骤2中所述第②种情况,将阔值取为该图像块的化SU最佳阔值,记 为Totsu;对于步骤2中所述第③种情况,将阔值设定为该块周边图像块中化SU阔值的最小 值,记为Tmin; 步骤5.2:将每幅图像的标准GT图像都也按照相同大小进行N X N分块,分别将T〇、T〇tsu和 Tmin分割后的结果图和它对应的标准GT图像块进行对比,选取Ξ种指标作为参考,即:F值 (F-measure)、峰值信噪比(PSNR)、结构相似度(SSIM),分别输出对应二值化图像的参数评 估数值表; 步骤6:图像块拼接; 步骤7:笔画宽度估计; 步骤8:局部二值化。2. 根据权利要求1所述的基于支持向量机的文档图像二值化方法,其特征在于,步骤1中 所述对彩色图像进行灰度化处理,是采用最小均值法对彩色文档图像f(x,y)进行灰度化处理, 所得灰度图像具有彩色无关性,计算公式为:其 中fi(x,y)分别为R、G、B^种颜色的分量图像,i可取1?、6、8立个分量,fgray(x,y)为变换后的 灰度图像。3. 根据权利要求1所述的基于支持向量机的文档图像二值化方法,其特征在于,步骤3 中所述提高图像块的局部对比度,其计算公式为:其中fmax(X,y)、fmin(X,y)和fmean(X,y)分别表示图像在W(X,y)为中屯、的3 X3邻域内的 亮度最大值、最小值和平均值;为了不使分母为0,ε是无限趋近于零的值。4. 根据权利要求1所述的基于支持向量机的文档图像二值化方法,其特征在于,步骤4 中所述图像块的特征参数包括均值μ、标准差0、相对平滑度Κ、Ξ阶矩U3(x)、一致性U(x)、赌 Θ ( X)、Totsu、Totsu-Tmin、灰度f曰息、U、deta;其计算公式分力ij为:反应图像的平均灰度;反应灰度级的变化程度,即图像粗糖程度的质量; R=1-1/(1+02),反应了图像块的平滑性.^.V,),用于确定图像直方图的对称性;反应图像的均匀程度;良示图像的复杂程度和均匀程度; Totsu,使用化SU算法计算出来的分割阔值; Totsu-Tmin,Tmin为该块邻域OtSU阔值的最小值; 灰度信息:灰度分级信息,反应图像均匀程度;其中:L表示图像灰度级分辨率,ie[0,L-l]表示图像灰度级取值,XI表示图像灰度级为 i时像素个数,p(xi)表示图像的归一化直方图。5. 根据权利要求1所述的基于支持向量机的文档图像二值化方法,其特征在于:步骤5 所述SVM阔值分类模型训练,其SVM建模过程包括W下子步骤: 步骤5.1:选定测试集和训练集; 选取50张低质量的文档图像作为与之分类器的训练样本,测试样本共42张文档图像, 均来自国际文档二值化竞赛提供的低质量文本; 步骤5.2:数据预处理; 训练样本图像和测试样本图像均进行灰度化和分块处理,提高每块的局部对比度,计 算11个特征参数; 步骤5.3:利用训练集训练SVM,分类结果如表1; 表1为预测分类实验结果步骤5.4:计算分类准确率; 步骤5.5:预测测试集; 将经过数据预处理后的测试样本输入训练好的分类器,得到的分类结果。6. 根据权利要求1所述的基于支持向量机的文档图像二值化方法,其特征在于:步骤6 中所述图像块拼接,是按照在图像分块时各个图像块在原图中的位置标记进行拼接。7. 根据权利要求1所述的基于支持向量机的文档图像二值化方法,其特征在于:步骤7 中所述笔画宽度估计,是采用化nny算子快速得到边缘分布图像;从左至右依次扫描,当遇 到第一个边缘像素点时,记下坐标位置XI,接着继续扫描,记下下一个边缘像素点的坐标位 置X2,那么边缘水平间距为:d = X2-Xl;重复扫描,直至整幅图像扫描完成,统计d的分布,那 么笔画宽度S肥为:= 3巧max // '其中Η表示出现此水平间距的次数。8. 根据权利要求1所述的基于支持向量机的文档图像二值化方法,其特征在于:步骤8中 所述局部二值化,是将滑动窗口尺寸设置为笔画宽度的两倍,采用式訂V) ^ 7 [1, J(x,y)>T 进行局部二值化,其中f(x,y)为(x,y)处的像素灰度值,局部阔值T的计算公式为: T(x,y) = (l-k) Xy(x,y)+kXfmin+kX |>(x,y)-fmin] X〇(x,y)/R 其中μ(χ,γ)和〇(X,y)分别表示W(X,y)为中屯、的邻域内所有"种子"像素的灰度平均值 和标准偏差,fmin为图像的最小灰度值,R为图像的最大标准偏差,常数k的取值范围介于0和 1〇
【文档编号】G06K9/38GK106096610SQ201610421725
【公开日】2016年11月9日
【申请日】2016年6月13日 公开号201610421725.7, CN 106096610 A, CN 106096610A, CN 201610421725, CN-A-106096610, CN106096610 A, CN106096610A, CN201610421725, CN201610421725.7
【发明人】熊炜, 赵诗云, 徐晶晶, 赵楠, 刘敏, 王改华, 李敏, 刘小镜, 吴俊驰
【申请人】湖北工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1