一种文档排版类型的检测方法及系统的制作方法

文档序号:6443590阅读:284来源:国知局
专利名称:一种文档排版类型的检测方法及系统的制作方法
技术领域
本发明涉及文档排版的检测领域,具体涉及ー种文档排版类型的检测方法及系统。
背景技术
文档图像有横排版和竖排版之分。在较为复杂的版面中还会出现横排和竖排混合的情況,即一部分区域是横排版,一部分区域是竖排版。排版方向信息也是版面分析中ー个较为重要的信息。很多算法都要依赖于这一信息进行调整。在大批量图书加工中靠人工去输入,是一件非常繁琐的工作,不利于整体加工的自动化,影响整体加工效率。在对文档的排版方式进行判断吋,一种比较常用的方式是对文档图像分别做黑像素的行向或列向投影。在某一方向上方差较大,或者出现投影峰分离,则可判断出相应的排版方向。但是一般易受噪声、插图等因素影响。申请号为200910084862. 6、名称为“判断文本区域排版方向的方法”的专利中提出了一种文本区域排版方向的判断方法,该方法利用投影的方法,根据得到的投影直方图进行统计分析,根据文本区域外接矩形的长宽比来判断排版的方向是横排还是竖排。虽然该方法能够判断文档中的基本排版类型是横排或竖排,但是仍然不能够对混合排版(既有横排又有竖排)的情况进行判断。且易受噪声、插图等因素影响。

发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种文档排版类型的检测方法及系统,通过Hough变换參数空间分析字符排列的周期性实现对文档图像多种排版方式的确认。为实现上述目的,本发明采用的技术方案如下一种文档排版类型的检测方法,包括以下步骤(1)选定待检测的文档图像,并对所述文档图像进行ニ值化处理得到ニ值化图像;(2)计算ニ值化图像的连通域,并计算连通域的最小外接矩形以及最小外接矩形的中心点坐标;(3)将所述最小外接矩形的中心点坐标作为Hough变换计算的输入点集,在Hough 变换參数空间投票计算累加矩阵Α( θ,ρ);其中,累加矩阵Α(θ,ρ)以θ为χ轴,θ表示文档图像的每行或每列的最小外接矩形的中心点所在直线的法线与X轴正半轴的夹角,0彡θ ^ 180; P表示文档图像空间的每行或每列的最小外接矩形的中心点所在直线与X轴的距离,P <+r,r为文档图像对角线长度的一半;(4)检测累加矩阵的投票极值点,并对极值点进行周期性分析,根据极值点在不同 θ方向上的周期性确定文档的排版类型。
进一歩,如上所述的ー种文档排版类型的检测方法,步骤(1)中,对文档图像进行 ニ值化处理前,对文档图像进行预处理,所述预处理包括灰度调整和降噪处理。进一歩,如上所述的ー种文档排版类型的检测方法,步骤(3)中,在Hough变换參数空间投票计算累加矩阵吋,记录參数空间中投票点和原始文档图像空间中点的对应关承。进一歩,如上所述的ー种文档排版类型的检测方法,所述极值点是指參数空间的极大值点,对极值点进行周期性分析是指对θ在0°和90°的方向上进行周期性分析。进一歩,如上所述的ー种文档排版类型的检测方法,步骤中,对极值点进行周期性分析,确定文档的排版类型的具体方式为a)当极值点只在ー个角度方向上具有周期性吋,θ在90°方向具有周期性为横排版,θ在0°方向具有周期性为竖排版;b)当极值点在两个角度方向上都具有周期性吋,确定方式如下bl)如果在0°或90°上只存在ー个周期序列,则排版方式为单ー排版类型,如果 θ在0°方向上的周期值大于90°方向上的周期值则为単一竖排版,如果Θ在0°方向上的周期值小于90°方向上的周期值则为単一横排版;b2)如果在0°或90°上存在两个或者两者以上的周期序列,则排版方式为混合排版。进一歩,如上所述的ー种文档排版类型的检测方法,具有周期性的极值点的周期值大于文档图像中字符的最小外接矩形的长或宽,且小于文档图像中字符的最小外接矩形的长或宽的k倍,2彡k彡6。进一歩,如上所述的ー种文档排版类型的检测方法,所述字符的最小外接矩形的长或宽为文档中所有连通域的最小外接矩形的长或宽之中的最大值。再进一歩,如上所述的ー种文档排版类型的检测方法,所述极大值点的投票值的阈值范围为(3,10)。更进一歩,如上所述的ー种文档排版类型的检测方法,所述极大值点的投票值的阈值优选值为5。一种文档排版类型的检测系统,包括ニ值化装置用于对待检测文档图像进行ニ值化处理,得到ニ值化图像;连通域计算装置用于计算ニ值化图像的连通域,并计算出连通域的最小外接矩形及最小外接矩形的中心点坐标;Hough变换装置用于将最小外接矩形的中心点坐标作为Hough变换计算的输入点集,在Hough变换參数空间投票计算累加矩阵Α( θ,ρ);其中,累加矩阵Α(θ,ρ)以θ为X轴,θ表示文档图像的每行或每列的最小外接矩形的中心点所在直线的法线与X轴正半轴的夹角,0彡θ ^ 180; P表示文档图像空间的每行或每列的最小外接矩形的中心点所在直线与X轴的距离,P <+r,r为文档图像对角线长度的一半;排版类型确认装置用于检测累加矩阵的投票极值点,并对极值点进行周期性分折,根据极值点在不同θ方向上的周期性确定文档的排版类型。本发明的效果在干本发明所述的方法及系统,基于文档图像中字行/列的平行性、周期性、以及行间距一般大于字间距的特点,将文字连通域最小外接矩形的中心作为输入数据,在Hough变换參数空间分析字符排列的周期性,来确定文档的排版方式。实现了对文档图像为横排、竖排或者混合排版等多种情况的判断,克服了现有排版类型确认方法中无法处理混合排版的情况缺陷,能够对文档图像中的多种排版方式的进行确认。


图1为本发明一种文档排版类型的检测系统的结构框图;图2为本发明一种文档排版类型的检测方法的流程图;图3为实施方式中待检测的横排版的文档图像;图4为图3中文档图像连通域的最小外接矩形示意图;图5为图3中文档图像在Hough变换參数空间中极值点周期分析结果图;图6为实施例中待检测的竖排版的文档图像;图7为图6中文档图像在Hough变换參数空间中极值点周期分析结果图;图8为实施例中待检测的混合排版的文档图像;图9为图8中文档图像在Hough变换參数空间中极值点周期分析结果图。
具体实施例方式本发明的主要思想是本发明所述的方法及系统主要的依据是文档中字行(列) 的平行性、周期性、行间距一般大于字间距来确认文档的排版类型。将文字连通域外接矩形的中心作为输入数据,在Hough变换的參数空间分析字符排列的周期性,同时利用行间距和字间距的关系来判断,在參数空间90度和0度上会出现两列峰值点,这些点一般按周期性排布,其间隔周期代表了行间距或字间距。对于字符只在ー个方向上对齐的文档,则只会在ー个角度上极值点具有周期性。如果两方向上均对齐,则可利用周期的大小来判断,因为一般文档的行间距都会大于字间距。可确定混排图像中的横排和竖排区域。下面结合说明书附图与具体实施方式
对本发明做进ー步的详细说明。图1示出了本发明ー种文档排版类型的检测系统的结构框图,由图中可以看出, 该系统主要包括以下装置ニ值化装置11 用于对待检测文档图像进行ニ值化处理,得到ニ值化图像;连通域计算装置12 用于计算ニ值化图像的连通域,并计算出连通域的最小外接矩形及最小外接矩形的中心点坐标;Hough变换装置13 用于将最小外接矩形的中心点坐标作为Hough变换计算的输入点集,在Hough变换參数空间投票计算累加矩阵Α( θ,ρ);排版类型确认装置14 用于检测累加矩阵的投票极值点,并对极值点进行周期性分析,根据极值点在不同θ方向上的周期性确定文档的排版类型。图2示出了基于图1中检测系统的ー种文档排版类型的检测方法的流程图,由图中可以看出,该方法主要包括以下步骤步骤S21 对文档图像进行ニ值化处理得到ニ值化图像;选定待检测的文档图像,如图3中的文档图像,并对所述文档图像进行ニ值化处理得到ニ值化图像。Hough变换算法主要是应用于ニ值的像素点,本发明所述的方法是要将
6字或偏旁的最小外接矩形的中心点作为输入点;求取中心点需要计算连通域,而要计算连通域需要将待检测的文档图形转化为ニ值图像,而文档图像中的常见的噪声对检测结果的好坏有很大的影响,所以一般在对文档图像进行ニ值化处理之前,需要对文档图像进行预处理,包括灰度调整处理和降噪处理。步骤S22 计算ニ值化图像的连通域、连通域的最小外接矩形及最小外接矩形的中心点坐标;计算ニ值化图像的连通域,并计算连通域的最小外接矩形以及最小外接矩形的中心点坐标。ニ值化图像连通域的标记采用现有技木,本具体实施方式
中不再详细描述,对图 3中的文档图像进行连通域计算,并计算连通域的最小外接矩形的结果如图4所示。步骤S23 将最小外接矩形的中心点坐标作为Hough变换的输入点集在參数空间投票;将步骤S22中所计算的ニ值图像连通域的最小外接矩形的中心点坐标作为Hough 变换计算的输入点集,并在Hough变换參数空间投票计算累加矩阵A ( θ,ρ )。在Hough变换中,P 一般表示图像空间中原点到图像空间中一条直线的距离(半径),θ表示图像空间中过原点的半径与X轴正半轴的夹角。对于文档图像中同一行或者同一列的字符,其连通域的最小外接矩形的中心点坐标应该在一条直线上,所以在本发明中,累加矩阵Α( θ,ρ) 以θ角为X轴,θ表示文档图像的每行或每列的最小外接矩形的中心点所在直线的法线与X轴正半轴的夹角,0彡θ ^ 180 ; P表示文档图像空间的每行或每列的最小外接矩形的中心点所在直线与X轴的距离,-r彡P彡+r,r为文档图像对角线长度的一半。在Hough 变换參数空间投票计算累加矩阵时,同时记录參数空间中投票点和原始文档图像空间中点的对应关系。步骤S24 检测分析累加矩阵的投票极值点,根据极值点的周期性确认文档的排版类型。检测參数空间中累加矩阵的投票极值点,并对极值点进行周期性分析,根据极值点在不同方向上的周期性确定文档的排版类型。本发明中的极值点指的是极大值点,本实施方式中,所述的极大值点是指该点累加矩阵的投票值多于其前后两个点的投票值的点, 例如对于ー投票值为5的点,其前后两点的投票值如果均小于5,则该点为极大值点,如果前后两点的投票值其中之一不小于5或者均不小于5,则该点不是极大值点。对极值点进行周期性分析指的是对θ在0°和90°的方向上进行周期性分析,0°和90°的方向其实对应的是文档的竖排版排或者横排版两个方向。对于文档图像,不论是横排还是竖排,字行/字列的在文档图像中的排列是有周期性的,而且行/列间距一般都大于同一行/列的字符间距。在Hough变换的參数空间中, θ为90度和0度的方向上会出现两列峰值点,这些点一般是按周期性排列的,间隔周期代表了文档的行间距或者字符间距,通过对上述周期性的分析,即可确认出文档的排版类型。 其中本实施方式中对于排版类型进行判断的具体方式如下a)当极值点只在ー个角度方向上具有周期性吋,θ在90°方向上具有具有周期性为横排版,θ在0°方向上具有周期性为竖排版;这是因为θ表示文档图像的每行或每列的最小外接矩形的中心点所在直线的法线与X轴正半轴的夹角,实际上就是每一行或每一列的字符所在的直线的法线与X轴的夹角,如果θ为90°,那么说明字符所在的直线与X轴平行,而X轴为横向的,所以此时即能判断为横排版。b)当极值点在两个方向上都具有周期性吋,及θ在0°和90°都具有周期性,这时要分以下两种情况进行判断bl)如果0°或90°方向上都只是具有ー个周期序列,即0°或90°方向上的周期是单ー的周期,文档的排版类型确定为単一性排版。这时如果0°方向的周期值大于90° 方向上的,那么文档为单ー竖排版,如果0°方向的周期值小于90°方向上,那么文档为单 ー横排版。b2)如果0°或90°方向上具有两个或两个以上的周期序列,那么文档排版类型为混合排版。根据经验,在竖排版的文档中,一般文字在横向上的排列也是整齐的,所以会导致在Hough变换空间0°和90°两个方向上均有周期性。在两个方向上均具有周期性吋,再查看0°或90°方向上的周期间隔即周期值是否是唯一的,若是即为bl情况,此时如果0° 方向上的周期值应大于90°方向上的周期值为单一竖排版的情況,如果90°方向上的周期值应大于0°方向上的周期值为单一横排版的情況,这是由文档图像中行间距/列间距一般要大于同一行/列中两个相邻字符的间距的特点決定的。如果0°或90°方向的周期间隔不是唯一的,即为は情況,此时即可判为混排版。此外,在实际的排版判断吋,Hough变换參数空间投票计算累加矩阵吋,投票值是有一定最低阈值的,当上述选出的极大值点的投票值大于最低阈值吋,才能成为判断时所采用的极大值点,即需要对极大值点进行筛选,根据经验该最低阈值可选范围一般大于3 小于10,优选值为5 (经验值),只有选出的极大值点的投票数大于设定阈值,才作为判断排版过程的极大值点。本发明所述的方法利用的是极值点周期性进行判断的,而该周期其实即为文档图像中的行间距/列间距和字符间距。本具体实施方式
中的行间距/列间距即为同一行/列的字符的最小外接矩形的中心点所在的直线与相邻行/列的字符的最小外接矩形的中心点所在的直线之间的距离,字符间距即为同一行/列中相邻两个字符的最小外接矩形的中心点之间的距离。由于行间距行间距/列间距或者字符间距一般都是要大于单个字符的宽或高的,所以周期值也应该大于该值,如果周期值太小,也有可能是噪声所引起的,所以本实施方式中,周期值大于文档图像中字符的最小外接矩形的长或宽,同时小于文档图像中字符的最小外接矩形的长或宽的k倍,2 < k < 6,k的取值范围一般是2 6,优选值为3。根据文档图像中所有字符的最小外接矩形,统计出最大的长宽值,在判断排版类型时,查看周期值是否大于所有长宽值中统计概率最大的长宽值来确定出是否为正常的周期值。下面结合具体的实施例对本发明进行进一步的说明。实施例对于图3中所示的文档图像,首先进行ニ值化处理,得到ニ值化图像,并计算标识 ニ值化图像的连通域,计算出连通域的最小外接矩形,如图4所示,然后将最小外接矩形的中心点坐标作为Hough变换计算的输入点集,在Hough变换參数空间投票,计算累加矩阵 Α(θ,P),同时记录參数空间投票点与原始图像空间站中点的对应关系,之后检测參数空间累加矩阵的极大值点,并在θ的0°和90°方向上进行极值点的周期性分析,并对极值点进行筛选,其结果如图5所示(图中横向为θ ),由图中可以看出,θ只在90度方向上具有周期性,所以判定图3中的文档图像的排版方式为横排版。对于图6中的文档图像,在Hough变换參数空间进行极值点的分析,并对极值点进行筛选后其结果如图7所示,由图中可以看出,θ在0度和90度方向上均具有周期性,每个方向上的周期性其周期值仅有一个,为bl情况,为单ー排版,而θ在0度方向上的周期值要大于90度方向上的周期值,所以为当以竖排版的情況。对于图8中的文档图像,在Hough变换參数空间进行极值点的分析,并对极值点进行筛选后(即所选出的极大值点的投票值满足大于设定的投票阈值的条件)其结果如图9 所示,由图中可以看出,θ在0度和90度方向上均具有周期性,在0度方向上只有ー个周期值,而在90度方向上具有两个周期值(90度方向上的前六个极值点具有同一个周期值, 后面的极值点具有另外ー个周期值),所以为は情況,为混排情況。而且由图8文档的实际排版情況,可以看出,对于混排中的竖排部分,在横向排列方向上也具有周期性,所以θ在 90方向上会有两个周期值,是符合实际情况的。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种文档排版类型的检测方法,包括以下步骤(1)选定待检测的文档图像,并对所述文档图像进行ニ值化处理得到ニ值化图像;(2)计算ニ值化图像的连通域,并计算连通域的最小外接矩形以及最小外接矩形的中心点坐标;(3)将所述最小外接矩形的中心点坐标作为Hough变换计算的输入点集,在Hough变换參数空间投票计算累加矩阵Α( θ,ρ);其中,累加矩阵Α(θ,ρ)以θ为X轴,θ表示文档图像的每行或每列的最小外接矩形的中心点所在直线的法线与X轴正半轴的夹角,0彡θ ^ 180 ; P表示文档图像空间的每行或每列的最小外接矩形的中心点所在直线与X轴的距离,P <+r,r为文档图像对角线长度的一半;(4)检测累加矩阵的投票极值点,并对极值点进行周期性分析,根据极值点在不同θ 方向上的周期性确定文档的排版类型。
2.如权利要求1所述的ー种文档排版类型的检测方法,其特征在于步骤(1)中,对文档图像进行ニ值化处理前,对文档图像进行预处理,所述预处理包括灰度调整和降噪处理。
3.如权利要求1所述的ー种文档排版类型的检测方法,其特征在于步骤(3)中,在 Hough变换參数空间投票计算累加矩阵吋,记录參数空间中投票点和原始文档图像空间中点的对应关系。
4.如权利要求3所述的ー种文档排版类型的检测方法,其特征在干步骤(4)中,所述极值点是指參数空间的极大值点,对极值点进行周期性分析是指对θ在0°和90°的方向上进行周期性分析。
5.如权利要求4所述的ー种文档排版类型的检测方法,其特征在干步骤(4)中,对极值点进行周期性分析,确定文档的排版类型的具体方式为a)当极值点只在ー个角度方向上具有周期性吋,θ在90°方向具有周期性为横排版, θ在0°方向具有周期性为竖排版;b)当极值点在两个角度方向上都具有周期性吋,确定方式如下bl)如果在0°或90°上只存在ー个周期序列,则排版方式为单ー排版类型,如果θ在 0°方向上的周期值大于90°方向上的周期值则为単一竖排版,如果θ在0°方向上的周期值小于90°方向上的周期值则为単一横排版;b2)如果在0°或90°上存在两个或者两者以上的周期序列,则排版方式为混合排版。
6.如权利要求5所述的ー种文档排版类型的检测方法,其特征在于具有周期性的极值点的周期值大于文档图像中字符的最小外接矩形的长或宽,且小于文档图像中字符的最小外接矩形的长或宽的k倍,2彡k < 6。
7.如权利要求6所述的ー种文档排版类型的检测方法,其特征在于所述文档图像中字符的最小外接矩形的长或宽为文档中所有连通域的最小外接矩形的长或宽之中的最大值。
8.如权利要求4至6之一所述的ー种文档排版类型的检测方法,其特征在于所述极大值点的投票值的阈值范围为(3,10)。
9.如权利要求8所述的ー种文档排版类型的检测方法,其特征在于所述极大值点的投票值的阈值优选值为5。
10. 一种文档排版类型的检测系统,包括ニ值化装置用于对待检测文档图像进行ニ值化处理,得到ニ值化图像; 连通域计算装置用于计算ニ值化图像的连通域,并计算出连通域的最小外接矩形及最小外接矩形的中心点坐标;Hough变换装置用于将最小外接矩形的中心点坐标作为Hough变换计算的输入点集, 在Hough变换參数空间投票计算累加矩阵A ( θ , ρ);其中,累加矩阵Α(θ,ρ)以θ为X轴,θ表示文档图像的每行或每列的最小外接矩形的中心点所在直线的法线与X轴正半轴的夹角,0彡θ ^ 180 ; P表示文档图像空间的每行或每列的最小外接矩形的中心点所在直线与X轴的距离,P <+r,r为文档图像对角线长度的一半;排版类型确认装置用于检测累加矩阵的投票极值点,并对极值点进行周期性分析,根据极值点在不同θ方向上的周期性确定文档的排版类型。
全文摘要
本发明公开了一种文档排版类型的检测方法及系统,属于文档排版类型检测领域。本发明所述的方法及系统,依据文档中字行/列的平行性、周期性以及行间距大于字间距等特点,以文字连通域最小外接矩形的中心点坐标作为Hough变换的输入点集,在Hough变换的参数空间进行投票,对投票极值点进行周期性分析,通过参数空间中极大值点在不同方向上的周期性,确定文档的排版类型。通过本发明所述的方法及系统实现了对文档中各种排版情况中排版类型的确认。
文档编号G06K9/46GK102567732SQ20111044579
公开日2012年7月11日 申请日期2011年12月28日 优先权日2011年12月28日
发明者胡希驰 申请人:方正国际软件(北京)有限公司, 方正国际软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1