针对文档图像的水平和垂直线检测和移除的制作方法

文档序号:9708719阅读:493来源:国知局
针对文档图像的水平和垂直线检测和移除的制作方法
【技术领域】
[0001]本发明涉及文档图像处理,具体地,本发明涉及用于检测和移除文档图像中的水平线和垂直线的方法。
【背景技术】
[0002]文档图像通常指的是表示包含大量文本的文档的页面的数字图像。文档图像常常包含线,具体地,包含水平线和垂直线,诸如表格线、文本的下划线等。因为字符(字母和其它符号)通常是文档图像分析(诸如光学字符识别(0CR)、文档认证等)的焦点,所以常常期望移除线。这些线一般沿着一个方向很长,如果这些线未被明确地移除,则在之后进行的连接成分(connected component)分析中可能引起误差和错误。已经提出了用于线检测和移除的各种方法,诸如霍夫变换、游程长度编码、形态学分析等。然而,当这些方法应用于实际文档上时,它们通常受图像质量以及图像的二值化程度的影响。此外,在已知的线移除方法中,文本下划线的移除常常可能改变与该下划线交叉的字符的特征。许多已知的方法还遭受不完整的线移除。

【发明内容】

[0003]本发明针对一种线检测和移除方法以及相关设备,基本上消除由于现有技术的限制和缺点而导致的问题中的一个或多个。
[0004]本发明的目的是提供一种线检测和移除方法,可以完全移除线并保留与下划线交叉的字符的特征。
[0005]本发明的另外的特征和优点将在下面的描述中进行陈述,并且部分地根据本说明书将是清楚的,或者可以通过实施本发明来获悉。本发明的目标和其它优点将通过在撰写的说明书及其权利要求书以及附图中具体指出的结构来实现和达成。
[0006]为了实现这些和/或其它目的,如所实施的和广义地描述的,本发明提供一种用于从二值文档图像移除水平线的方法,该方法包括以下步骤:(a)获得与二值图像的每个像素相关联的笔划宽度,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(b)获得表示检测到的水平线的边界框;(c)计算水平线的每个水平位置处的最大笔划宽度,其中,给定水平位置处的最大笔划宽度被定义为与位于该水平位置处的属于水平线的所有前景像素相关联的笔划宽度的最大值;(d)针对位于沿着边界框的水平位置处的每个前景像素列,如果该水平位置处的最大笔划宽度小于边界框的以该水平位置为中心的窗口内的所有水平位置处的最大笔划宽度的中间值,则将它们移除;(e)提取边界框中的在步骤⑷之后余留的所有连接成分,并移除既不在边界框的顶边界上方延伸预定量、也不在边界框的底边界下方延伸预定量的任何连接成分;以及(f)使用水平线作为结构元素来对从步骤(e)得到的二值图像执行闭运算。
[0007]在另一方面,本发明提供一种用于从二值文档图像移除垂直线的方法,该方法包括以下步骤:(a)获得与二值图像的每个像素相关联的笔划宽度,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(b)获得表示检测到的垂直线的边界框;(c)计算垂直线的每个垂直位置处的最大笔划宽度,其中,给定垂直位置处的最大笔划宽度被定义为与位于该垂直位置处的属于垂直线的所有前景像素相关联的笔划宽度的最大值;(d)计算垂直线的高宽比;(e)如果所述高宽比大于或等于阈值比,则移除垂直线中的最大笔划宽度小于线宽度阈值的任何部分;以及(f)提取边界框中的连接成分,并移除既不接触边界框的左边界、也不接触边界框的右边界的所有连接成分。
[0008]在另一方面,本发明提供一种用于从二值文档图像移除水平线的计算机装置,该计算机装置包括:(a)用于获得与二值图像的每个像素相关联的笔划宽度的部件,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(b)用于获得表示检测到的水平线的边界框的部件;(c)用于计算水平线的每个水平位置处的最大笔划宽度的部件,其中,给定水平位置处的最大笔划宽度被定义为与位于该水平位置处的属于水平线的所有前景像素相关联的笔划宽度的最大值;
(d)用于针对位于沿着边界框的水平位置处的每个前景像素列进行如下处理的部件:如果该水平位置处的最大笔划宽度小于边界框的以该水平位置为中心的窗口内的所有水平位置处的最大笔划宽度的中间值,则将它们移除;(e)用于提取边界框中的在部件(d)的处理之后余留的所有连接成分、并移除既不在边界框的顶边界上方延伸预定量、也不在边界框的底边界下方延伸预定量的任何连接成分的部件;以及(f)用于使用水平线作为结构元素来对从部件(e)得到的二值图像执行闭运算的部件。
[0009]另外,在以上计算机装置中,部件(c)可以包括:用于将边界框划分为多个水平布置的窗口的部件;针对每个窗口:用于通过水平地投影该窗口内的图像块以产生直方图并获得该直方图的峰位置作为该窗口内的水平线段的垂直中心位置来获得所述垂直中心位置的部件;用于在该窗口的每个水平位置处,识别与所述垂直中心位置处的前景像素连接的所有连续的前景像素的部件;以及用于计算与在用于识别的部件的处理中识别的所有连续的前景像素相关联的笔划宽度中的最大一个的部件。
[0010]另外,在以上计算机装置中,还可以包括:用于在部件(d)的处理之前,确定边界框中的水平线的长宽比的部件,其中,仅当所述长宽比大于预定阈值时,才执行部件(d)、
(e)和(f)ο
[0011]另外,在以上计算机装置中,可以在部件(c)的处理之后执行用于确定的部件,并且其中,所述长宽比是边界框的长度与水平线的所有水平位置处的最大笔划宽度的中间值的比率。
[0012]另外,在以上计算机装置中,在部件(e)的处理之后,还可以包括:用于在顶边界和底边界处将边界框扩大第二预定量的部件;以及用于移除扩大的边界框中的既不接触边界框的顶边界、也不接触边界框的底边界的连接成分的部件。
[0013]另外,以上计算机装置还可以用于从二值文档图像移除垂直线,该计算机装置包括:(g)用于获得与二值图像的每个像素相关联的笔划宽度的部件,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(h)用于获得表示检测到的垂直线的边界框的部件;(i)用于计算垂直线的每个垂直位置处的最大笔划宽度的部件,其中,给定垂直位置处的最大笔划宽度被定义为与位于该垂直位置处的属于垂直线的所有前景像素相关联的笔划宽度的最大值;(j)用于计算垂直线的高宽比的部件;(k)用于如果所述高宽比大于或等于阈值比,则移除垂直线中的最大笔划宽度小于线宽度阈值的任何部分的部件;以及(1)用于提取边界框中的连接成分、并移除既不接触边界框的左边界、也不接触边界框的右边界的所有连接成分的部件。
[0014]另外,在以上计算机装置中,部件(j)可以包括:用于计算垂直线的所有垂直位置处的最大笔划宽度的中间值的部件;以及用于计算垂直线的高宽比的部件,该高宽比被定义为边界框的高度和最大笔划宽度的中间值的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1