基于分块统计的黑白文档影像降噪方法

文档序号:7891043阅读:167来源:国知局

专利名称::基于分块统计的黑白文档影像降噪方法
技术领域
:本发明涉及针对扫描图像去噪处理的图像处理技术,特别是涉及一种基于分块统计的黑白文档影像降噪方法。
背景技术
:图像降噪是指去除文档影像中的杂点,这些杂点有些是原始纸质文档本身就带有的,有些是扫描仪扫描过程中形成的。杂点的存在不仅影响到图像的美观,而且影像到OCR的文字识别率。噪声对图像处理十分重要,图像处理的输入、采集、处理的各个环节以及输出结果的全过程。手动消除图像杂点工作效率太低,所以必须实现计算机自动处理。降噪和保留细节是一个矛盾,降噪的同时也会丢失一部分细节,所以计算机自动去杂点需要避免的重要问题是伴随图像降噪而产生的图像质量的下降,比如图像有效信息的丢失。减少噪声的方法可以在图像空间域或在图像变换域中完成。"空间i或"一词是指图像平面自身,在图像空间域中去噪是指在图像空间中,以对图像的像素直接处理为基础对图像进行各种处理。空间域处理可以由下式定义g(x,y)=T(f(x,y)),其中f(x,y)是输入图像,g(x,y)是处理后的输出图像,T是对f的一种操作,其定义在(x,y)的邻域。定义一个点(x,y)邻域的主要方法是利用中心在(x,y)点的正方形或矩形子图像。图像空间域去噪方法很多,如线性滤波法、中值滤波法、维纳滤波法等。而图像变换域去噪方法是对图像进行某种变换,将图像从空间域转换到变换域,再对变换域中的变换系数进行处理,再进行反变换将图像从变换域转换到空间域来达到去除图像噪声的目的。将图像从空间转换到变换域的变换方法很多,如傅立叶变换、小波变换等。每种变换的变换域得到的系数都有不同的特点,合理地处理变换系数,再通过反变换将图像还原到空间域可以有效地达到去除噪声的目的。图像去噪存在一个如何兼顾降低图像噪声和保留细节的难题。传统的低通滤波方法在消除图像噪声的同时,也会消除图像部分有用的高频信息,所以传统的低通滤波方法在对保留图像细节的要求方面没有得到满意的效果。
发明内容本发明的目的就是针对扫描文档影像杂点(噪声)的特点,基于分块统计的方法有效去除文档影像中的杂点,但不显著影响文档的图像质量。在以前对图像进行降噪处理时,往往采用滤波的方法,但是滤波的方法会使图像产生一定程度的模糊,降低了图像质量。本发明的目的在于提供一种基于分块统计的黑白文档影像降噪方法。本发明采用的技术方案是-(1)把文档影像划分成NxN的方块,N取值的大小取决于影像的每英寸像素数;(2)考察每个方块A以及上下左右四个方块情况l:如果所考察的方块A中的点大于等于80。/。的黑色像素点数,认为这个方块A是文本区域的一部分,不予处理;情况2:如果黑色像素点数小于80%,认为该方块A存在杂点,再统计所考察该方块A周围的方块,用同样的方法去考察该方块A上下左右四个方块是否为文本区域,还是空白区域,如果方块A周围的四个方块其中至少有一个是文本区域,那就判断该方块A内的小黑点是文档影像本身的黑点,不予处理,反之认为所考察的分块A中有杂点;(3)如果判定所考察的方块A有杂点,就把该方块A内所有的像素改成白色,从而去除文档影像的杂点。所述的步骤(2)中对所考察的方块A以及上下左右的方块,如果所考察的方块A内有小于80%的黑色像素并且它的四周都不是文本区域,那么就认为该方块中存在杂点,这个方法可以区分文档影像杂点和文字本身的像素点。本发明具有的有益效果是本发明能够通过统计每个分块以及该分块四周分块的像素点的情况来判断该分块是否含有杂点(噪声)的方法来识别杂点并进一步去除杂点,最终达到在不显著影响文档影像图像质量的前提下很好地去除文档影像中的杂点。本发明的实现大大减少了文档影像降噪处理的工作量,实现的方法简便,易于软件实现,可以实现运算复杂度与降噪效率之间的平衡。具体实施例方式本发明提出的针对文档影像杂点特点的基于分块统计的降噪方法主要适用于各种不同的扫描文档影像。在黑白文档影像中,黑点的值是O,白点的值是l。比如一个10xlO像素点数的方块,如果是纯白的,没有杂点的,方块所有像素点的值的和是100,也就是说如果方块所有像素点的值的和是100,就认为这个方块是纯白的。方块内的小黑点可能是标点符号或字母上的小点,或者这个方块内的黑色像素点是四周方块内文字边上的一点。小黑点一般是4x4像素点数以下的,所以如果方块像素点值的和小于100一4x4,就认为这个方块是文本区域的一部分;如果方块像素点值的和大于等于100—4x4而小于100,就认为这个方块中可能有小黑点。所以,如果考察的方块四周的方块都是纯白的,或接近纯白的,那么可以认为这个方块中存在空白区域中的小黑点,把这个方块的所有像素值设成1就把小黑点去除了。判断所考察的方块四周的方块是否是纯白或接近纯白的方法同判断所考察的方块可能存在杂点的方法一样,也是计算四周方块的像素点值的和,大于一个值,就认为是纯白或接近纯白。主要按如下步骤进行1.图像分块把文档影像分成NxN的小块,N的大小根据扫描文档影像每英寸像素数的进行调整,一般以半个汉字高度作为N的值。2.扫描分块从左到右,从上到下考察每个方块以及方块周围的方块。3.统计所考察的分块像素点如果所考察的方块A的像素点值大于等于80%的黑色像素点数,认为这个方块A是文本区域的一部分,不予处理。如果小于80%的黑色像素点数,认为该方块A可能存在杂点,继续做第四步。4.统计四周分块像素点如果所考察方块A上下两个方块黑色像素点数的值的和大于等于80%的黑色像素点数,就认为方块A的上面和下面是文本区域,也就是说方块A内的小黑点可能是字母本身的黑点,不予处理。如果所考察方块A上下两个方块黑色像素点数的值的和小于80%的黑色像素点数,那么继续统计所考察方块A左右两个方块像素点。如果所考察方块A左右两个方块像素点值大于等于80%的黑色像素点数,就认为所方块A的左面和右面是文本区域,也就是说方块A内的小黑点可能是标点符号,不予处理。如果所考察方块A左右两个方块像素点值大于等于80%的黑色像素点数,那么认为所考察的方块A内存在杂点。5.去除杂点如果判定所考察的方块内有杂点,那么通过把方块的所有像素改白色来去除该方块内的杂点。本方法已经在P42.6,1G,WindowsXP环境下,运行matlab函数进行测试。表l是测试结果。表i文档影像降噪处理的实验结果数据集<table>complextableseeoriginaldocumentpage6</column></row><table>从表1可以看出,该方法可以去除绝大部分非字里行间的杂点,而且平均计算时间只有0.15秒,可以满足大批量影像处理要求。权利要求1.一种基于分块统计的黑白文档影像降噪方法,其特征在于(1)把文档影像划分成N×N的方块,N取值的大小取决于影像的每英寸像素数;(2)考察每个方块A以及上下左右四个方块情况1如果所考察的方块A中的点大于等于80%的黑色像素点数,认为这个方块A是文本区域的一部分,不予处理;情况2如果黑色像素点数小于80%,认为该方块A存在杂点,再统计所考察该方块A周围的方块,用同样的方法去考察该方块A上下左右四个方块是否为文本区域,还是空白区域,如果方块A周围的四个方块其中至少有一个是文本区域,那就判断该方块A内的小黑点是文档影像本身的黑点,不予处理,反之认为所考察的分块A中有杂点;(3)如果判定所考察的方块A有杂点,就把该方块A内所有的像素改成白色,从而去除文档影像的杂点。2.根据权利1要求所述的文档影像降噪方法,其特征在于所述的步骤(2)中对所考察的方块A以及上下左右的方块,如果所考察的方块A内有小于80%的黑色像素并且它的四周都不是文本区域,那么就认为该方块中存在杂点,这个方法可以区分文档影像杂点和文字本身的像素点。全文摘要本发明公开了一种基于分块统计的黑白文档影像降噪方法。把文档影像划分成N×N的方块,N取值的大小取决于影像的每英寸像素数;考察每个方块A以及上下左右四个方块;如果判定所考察的方块A有杂点,就把该方块A内所有的像素改成白色,从而去除文档影像的杂点。本发明能够通过统计每个分块以及该分块四周分块的像素点的情况来判断该分块是否含有杂点(噪声)的方法来识别杂点并进一步去除杂点,最终达到在不显著影响文档影像图像质量的前提下很好地去除文档影像中的杂点。本发明的实现大大减少了文档影像降噪处理的工作量,实现的方法简便,易于软件实现,可以实现运算复杂度与降噪效率之间的平衡。文档编号H04N1/409GK101345812SQ20081006344公开日2009年1月14日申请日期2008年8月5日优先权日2008年8月5日发明者卜佳俊,智杨,王海杰,辉章,纯陈申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1