针对文档图像的水平和垂直线检测和移除的制作方法

文档序号:9708720阅读:216来源:国知局
针对文档图像的水平和垂直线检测和移除的制作方法
【技术领域】
[0001]本发明涉及文档图像处理,具体地,本发明涉及用于检测和移除文档图像中的水平线和垂直线的方法。
【背景技术】
[0002]文档图像通常指的是表示包含大量文本的文档的页面的数字图像。文档图像常常包含线,具体地,包含水平线和垂直线,诸如表格线、文本的下划线等。因为字符(字母和其它符号)通常是文档图像分析(诸如光学字符识别(0CR)、文档认证等)的焦点,所以常常期望移除线。这些线一般沿着一个方向很长,如果这些线未被明确地移除,则在之后进行的连接成分(connected component)分析中可能引起误差和错误。已经提出了用于线检测和移除的各种方法,诸如霍夫变换、游程长度编码、形态学分析等。然而,当这些方法应用于实际文档上时,它们通常受图像质量以及图像的二值化程度的影响。例如,不适当的二值化阈值可能使基于形态学的线检测失败。

【发明内容】

[0003]本发明针对一种线检测和移除方法以及相关设备,基本上消除由于现有技术的限制和缺点而导致的问题中的一个或多个。
[0004]本发明的目的是提供一种线检测和移除方法,能够检测各种质量的文档图像中的水平线和垂直线。
[0005]本发明的另外的特征和优点将在下面的描述中进行陈述,并且部分地根据本说明书将是清楚的,或者可以通过实施本发明来获悉。本发明的目标和其它优点将通过在撰写的说明书及其权利要求书以及附图中具体指出的结构来实现和达成。
[0006]为了实现这些和/或其它目的,如所实施的和广义地描述的,本发明提供一种用于检测和移除灰度文档图像中的垂直线和水平线的方法,该方法包括以下步骤:使用多个不同的二值化条件来从灰度文档图像产生多个第一二值图像;独立地检测所述多个第一二值图像中的每个第一二值图像中的水平线和垂直线,以产生与所述多个第一二值图像对应的多组边界框,每组边界框包括多个边界框,每个边界框表示检测到的垂直线或水平线;将所述多组边界框合并为表示在灰度图像中检测到的垂直线和水平线的合并的一组边界框;从灰度文档图像产生第二二值图像;以及使用表示检测到的线的所述合并的一组边界框对第二二值图像进行处理以从该第二二值图像移除水平线和垂直线。
[0007]在以上方法中,针对每个第一二值图像的检测步骤可以包括以下步骤:(a)获得与第一二值图像的每个像素相关联的笔划宽度,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(b)使用垂直线作为结构元素来对第一二值图像执行开运算;(C)从通过步骤(b)产生的第一二值图像提取连接成分;(d)针对每个连接成分中的每个垂直像素列,计算该列的高度和与该列中的所有像素相关联的笔划宽度的中间值的比率,如果该比率小于预定阈值则从第一二值图像移除该像素列;(e)垂直地投影通过步骤(d)产生的第一二值图像以产生垂直投影直方图,并获得垂直投影直方图的所有非零部分的水平边界作为检测到的垂直线的左边界和右边界;(f)针对垂直投影直方图的每个非零部分,水平地投影通过步骤(d)产生的第一二值图像的对应的垂直切片以产生第一水平投影直方图,并水平地投影步骤(b)之前的第一二值图像的对应的垂直切片以产生第二水平投影直方图;以及(g)针对第一水平投影直方图的每个非零部分,识别第二水平投影直方图的对应的非零部分,并获得其顶边界和底边界作为检测到的垂直线的顶边界和底边界。
[0008]在另一方面,本发明提供一种用于检测和移除二值文档图像中的垂直线的方法,该方法包括以下步骤:(a)获得与二值图像的每个像素相关联的笔划宽度,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(b)使用垂直线作为结构元素来对二值图像执行开运算;(c)从通过步骤
(b)产生的二值图像提取连接成分;(d)针对每个连接成分中的每个像素列,计算该列的高度和与该列中的所有像素相关联的笔划宽度的中间值的比率,如果该比率小于预定阈值,则从二值图像移除该像素列;(e)垂直地投影通过步骤(d)产生的二值图像以产生垂直投影直方图,并获得垂直投影直方图的所有非零部分的水平边界作为检测到的垂直线的左边界和右边界;(f)针对垂直投影直方图的每个非零部分,水平地投影通过步骤(d)产生的二值图像的对应的垂直切片以产生第一水平投影直方图,并水平地投影步骤(b)之前的二值图像的对应的垂直切片以产生第二水平投影直方图;(g)针对第一水平投影直方图的每个非零部分,识别第二水平投影直方图的对应的非零部分,并获得其顶边界和底边界作为检测到的垂直线的顶边界和底边界;(h)使用检测到的垂直线的左边界、右边界、顶边界和底边界对二值图像进行处理以从该二值图像移除垂直线。
[0009]在另一方面,本发明提供一种用于检测和移除灰度文档图像中的垂直线和水平线的计算机装置,该计算机装置包括:用于使用多个不同的二值化条件来从灰度文档图像产生多个第一二值图像的部件;用于独立地检测所述多个第一二值图像中的每个第一二值图像中的水平线和垂直线以产生与所述多个第一二值图像对应的多组边界框的部件,每组边界框包括多个边界框,每个边界框表示检测到的垂直线或水平线;用于将所述多组边界框合并为表示在灰度图像中检测到的垂直线和水平线的合并的一组边界框的部件;用于从灰度文档图像产生第二二值图像的部件;以及用于使用表示检测到的线的所述合并的一组边界框对第二二值图像进行处理以从该第二二值图像移除水平线和垂直线的部件。
[0010]另外,在以上计算机装置中,多个二值化条件可以是多个不同的二值化阈值。
[0011]另外,在以上计算机装置中,还可以包括:用于在用于产生所述多个第一二值图像的部件的处理之前,对灰度文档图像进行偏斜校正、去噪声和下采样的部件;以及用于在用于合并的部件的处理之前,扩大所述合并的一组边界框的大小的部件。
[0012]另外,在以上计算机装置中,用于对每个第一二值图像进行检测的部件可以包括:(a)用于获得与第一二值图像的每个像素相关联的笔划宽度的部件,其中,与给定像素相关联的笔划宽度被定义为包括该像素的连续前景像素的水平游程长度和垂直游程长度中的较小者;(b)用于使用垂直线作为结构元素来对第一二值图像执行开运算的部件;(C)用于从通过部件(b)产生的第一二值图像提取连接成分的部件;以及(d)用于针对每个连接成分中的每个垂直像素列,进行以下处理的部件:计算该列的高度和与该列中的所有像素相关联的笔划宽度的中间值的比率,如果该比率小于预定阈值,则从第一二值图像移除该像素列。
[0013]另外,在以上计算机装置中,用于对每个第一二值图像进行检测的部件在部件(d)的处理之后还可以包括:(e)用于垂直地投影通过部件(d)产生的第一二值图像以产生垂直投影直方图并获得垂直投影直方图的所有非零部分的水平边界作为检测到的垂直线的左边界和右边界的部件。
[0014]另外,在以上计算机装置中,用于对每个第一二值图像进行检测的部件在部件(e)的处理之后还可以包括:(f)用于针对垂直投影直方图的每个非零部分,进行以下处理的部件:水平地投影通过部件(d)产生的第一二值图像的对应的垂直切片以产生第一水平投影直方图,并水平地投影部件(b)的处理之前的第一二值图像的对应的垂直切片以产生第二水平投影直方图;以及(g)用于针对第一水平投影直方图的每个非零部分,识别第二水平投影直方图的对应的非零部分并获得其顶边界和底边界作为检测到的垂直线的顶边界和底边界的部件。
[0015]应当理解,前面的大体描述和下面的详细描述都是示例性的和说明性的,并且意图提供如要求保护的本发明的进一步说明。
【附图说明】
[0016]图1示意性地例示根据本发明的实施例的用于文档图像的垂直和水平线检测和移除方法。
[0017]图2A和2B示意性地例示图1的方法的线检测处理。
[0018]图3示意性地例示可以实现本发明的实施例的数据处理设备。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1