一种文档扫描图像透字效应消除方法

文档序号:6551309阅读:1475来源:国知局
一种文档扫描图像透字效应消除方法
【专利摘要】本发明涉及一种文档扫描图像透字效应消除方法,包括下面几个步骤:灰度化;使用中值滤波处理;计算图像的灰度值中值;文本区域与背景区域分离;利用K均值方法进行正面文本与背面文本分离,分成:正面文本子集,对应于类心灰度值最低的子集;背面文本子集,对应于类心灰度值最大的子集;待确定文本子集,对应于类心灰度值在前两者之间的子集;背面文本区域重新赋值。本发明能够有效抑制双面文档扫描图像中出现的透字效应,提高扫描图像的可视质量。
【专利说明】一种文档扫描图像透字效应消除方法
所属【技术领域】
[0001]本发明涉及扫描文档图像恢复技术,尤其是针对双面文档扫描图像的透字效应消除方法。
【背景技术】
[0002]当扫描双面打印或手写的文档时,一种常见的问题是从正面能看到背面的文字。这种现象称为“透字效应”。造成透字效应的原因是背面文本吸收了部分反射光线。扫描纸张越薄,或者反面文本的墨水渗透情况越严重,透字效应越明显。人们在构建数字图书馆时,经常需要将时间久远的文献或者手稿经扫描转化为数字图像。由于纸张以及墨水的渗透情况,扫描后的文档图像中透字效应很明显,这会严重影响扫描文档图像的可视质量。因此开展对扫描文档图像 透字效应消除方面的研究是非常有必要的。
[0003]早期文献利用二值化处理消除扫描文档中的透字现象[1],但处理后的图像是以二值形式出现的,这种方法并不利于读者阅读原始文献资料的需求。还有一些方法同时使用扫描文档的正面和反面两幅图像来消除透字效应[2][3][4]。所用技术包括线性成像模型[2]、盲信号分离(BSS) [3]、独立成分分析(ICA) [4]、非负矩阵分解(NMF) [5]等。如果正反面两扫描图像严格对齐,使用这类方法可以得到很好的消除效果。但在实际情况下,文档对齐难以实现。特别是对于扫描文档较厚,或者纸张本身存在明显变形或者干扰的情况(如存放时间较长的旧文献)。另外当获取的扫描文档图像只有单面时,这种方法完全失效。还有一类基于单幅扫描图像的透字效应去除方法。如Lins等[6]首先将图像分为9个子块,并使用训练好的神经网络分类器将各个子块分为三类,分别对应于较弱、一般和较强三种透字效应干扰情况。对于不同情况的子块,分别选取对应的阈值分离正面文本区域,然后采用双线性插值技术去除背面文本的干扰。此类方法适用于扫描图像的透字效应去除,不适用于扫描文档的透字效应去除,而且,存在处理方法较为复杂的缺陷。
[0004]参考文献:
[0005][I] J.da Silva, R.Lins, F.Martins, etal.“A new and efficient algorithmto binarize document images removing back-to-front interference, ”Journal ofUniversal computer science, vol.14, n0.2, pp.299—313,2008.[0006][2]A.G.Sharma, ^Show-through cancellat1n in scans of duplex printeddocuments, ” IEEE Transact1ns on Image Processing, vol.10, n0.5, pp.736-754,2001.[0007][3]A.Tonazzini, E.Salerno, and L.Bedini, “Fast correct 1n ofbleed-through distort1n in grayscale documents by a blind source separat1ntechnique,,’Internat1nal Journal on Document Analysis and Recognit1n, vol.10, n0.1, pp.17-25,2007.[0008][4]A.Tonazzini, L.Bedini,and E.Salerno, “Independent component analysisfor document restorat1n, Internat1nal Journal on Document Analysis and Recognition, ” 2004, vol.7, n0.1, pp.17-27.[0009][5]F.Merrikh-Bayat, M.Babaie-Zadeh, and C.Jutten, “Using Non-NegativeMatrix Factorizat1n for Removing Show-Through, ” Internat1nal Conference on LVA/I CA, 2010.pp.482 - 489.[0010][6]R.Lins, J.Silva, S.Banergee, etal., “Enhancing the filtering-out ofthe back-to-front interference in color documents with a neural classifier,,’inInternat1nal Conference on Pattern Recognit1n (ICPR).1EEE, 2010, pp.2415-2419.
【发明内容】

[0011]本发明的目的是提出一种针对文档扫描图像的透字效应消除方法,能够有效抑制双面文档扫描图像中出现的透字效应,提高扫描图像的可视质量。本发明的技术方案如下:
[0012]一种文档扫描图像透字效应消除方法,包括下列步骤:
[0013]步骤1:灰度化:用F表示待处理的彩色扫描文档图像,对其进行灰度化处理,并用I表示灰度化图像;
[0014]步骤2:图像滤波:对灰度化图像使用中值滤波处理图像,用If表示滤波结果;
[0015]步骤3:获取参数:将If中各点的灰度值按照从小到大顺序排列,并用IF(η) (η =1,2,…,N)表示,其中N为像素点总数,其中If(I)代表1f中灰度值的最小值,If(N)表示If中灰度值最大值。选用IF(n)中排第I %和排第99%的灰度值,分别用Imin和Imax表示,使用Imin和Imax计算图像的灰度值中值,用Imral表示;
[0016]步骤4:文本区域与背景区域分离:将I中各点的灰度值与Imed比较,得到背景区域二值图,用Ibk表示,使用Inred提取文本区域图像,用T表示,即有:
[0017]
【权利要求】
1.一种文档扫描图像透字效应消除方法,包括下列步骤: 步骤1:灰度化:用F表示待处理的彩色扫描文档图像,对其进行灰度化处理,并用I表示灰度化图像; 步骤2:图像滤波:对灰度化图像使用中值滤波处理图像,用If表示滤波结果; 步骤3:获取参数:将If中各点的灰度值按照从小到大顺序排列,并用IF(n) (η =1,2,…,N)表示,其中N为像素点总数,其中If(I)代表1f中灰度值的最小值,If(N)表示If中灰度值最大值。选用IF(n)中排第I %和排第99%的灰度值,分别用Imin和Imax表示,使用Imin和Imax计算图像的灰度值中值,用Imral表示; 步骤4:文本区域与背景区域分离:将I中各点的灰度值与Inred比较,得到背景区域二值图,用Ibk表示,使用Inred提取文本区域图像,用T表示,即有:
【文档编号】G06T5/00GK104036469SQ201410301425
【公开日】2014年9月10日 申请日期:2014年6月27日 优先权日:2014年6月27日
【发明者】王建, 刘长波 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1