判断文本区域排版方向的方法

文档序号:6618889阅读:314来源:国知局
专利名称:判断文本区域排版方向的方法
技术领域
本发明属于0CR(光学字符识别)技术领域,特别涉及一种判断文本区域排版方向的方法。
背景技术
当前信息的主要存在形式有纸质和电子两大媒介。随着信息技术和计算机技术的 发展和普及,纸质媒介在存储成本、记录密度、共享手段、查阅方便性等诸多方面均落后于 电子媒介。为了将信息由纸质媒介转换为电子媒介存放,一般方法是将纸质文档(包括纸 质图书、杂志、报纸、文件等)先扫描或拍摄成图像,然后对图像进行版面分析,再对分析结 果分别处理,例如对图像进行压缩存放、对文本进行OCR识别等。版面分析是对文档图像内的图像、表格和文本等进行自动分割、识别的过程,其方 法分为自顶向下和自底向上两类。自顶向下是指从页面的整体入手,采取多层次纵横投影 方法分出各个区域,其优点是简单快速,缺点是对复杂的版面适应性不强,自底向上的方法 是指由像素点出发先检测连通域,再把连通域合并成各个区域,其优点是可以处理复杂的 版面,缺点是计算量大、合并规则不易确定。随着硬件技术的快速进步,运算量逐渐不再是 瓶颈,而对版面分析的准确性要求越来越高,这使得自底向上的版面分析方法逐渐成为主 流方法。在文档图像中,字符是主要的信息载体,版面分析的主要任务之一就是将文档图 像中的文本区域分割出来,然后采用0CR(0ptical Character Recognition)技术将图像中 的字符转换为字符编码存放。在通过连通域标记和合并得到文本区域之后,有一个重要步 骤就是判断文本区域中字符的排版方向,即字符是按照水平方向排列即横排还是按照竖直 方向排列即竖排,只有知道了文本的横竖排信息,才能决定下一步光学字符识别中是按水 平方向切分文本为行还是按竖直方向切分文本为列。文本区域的排版方向一般采用投影方法来判断,即将文本区域内的二值图像进行 水平方向投影和竖直方向投影,分别得到水平投影直方图和竖直投影直方图。文本区域中 的字符行(列)对应着直方图中的投影柱,字符行(列)间距对应着直方图中投影柱之间 的间距。这样,在字符排版方向上,存在明显的投影柱和投影柱间距,而在非字符排版方向 上,投影相互粘连,没有明显的投影柱和投影间距,根据这一特点,可以判断字符排版方向。 这种方法简单快速,但是对于存在倾斜或(和)轻微几何畸变(如相机拍摄图像中的几何 畸变)的文本区域,其投影直方图就失去了上述的明显特点,判断准确率很差。

发明内容
本发明提出了一种判断文本区域排版方向的方法,根据得到的投影直方图进行统 计分析,找出各自最有代表性的特征数据三元组,利用三元组中的正常投影柱数目、异常投 影柱数目和统计位置坐标值的大小关系,将它们或它们与文本区域的特征相结合,并利用 一阶矩统计特征对文本区域排版方向进行判断。本发明能够准确判断正常文本区域是横排还是竖排,而且能够准确判断存在小角度倾斜或轻微几何畸变的文本区域是横排还是竖 排,判断效果好,速度快,具有很好的应用价值。判断文本区域排版方向的方法,包括如下步骤步骤1 统计文本区域外接矩形内包含的字符连通域的高度,将出现频率最高的 连通域高度作为字符高。步骤2 对文本区域内的二值图像进行水平方向和竖直方向的投影,分别得到水 平投影直方图和竖直投影直方图。统计直方图中投影柱的分布,在选定的统计位置依次选 取正常投影柱数目、异常投影柱数目和统计位置坐标值并筛选为水平投影直方图对应的三 元组和竖直投影直方图对应的三元组。步骤3 如果投影直方图三元组中正常投影柱数目小于既定数目,且对于水平投 影直方图来说文本区域的高度小于既定高度,或对于竖直投影直方图来说文本区域的宽度 小于既定宽度,则比较文本区域的宽度和高度,宽度大于高度,则排版方向为水平,宽度小 于高度,则排版方向为竖直。步骤4 分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩;如果 一方向上直方图的正常投影柱间距的一阶矩小于既定距离,且另一方向上直方图的正常投 影柱间距的一阶矩大于既定距离,则排版方向与正常投影柱间距的一阶矩小于既定距离对 应的方向一致;否则转到步骤5。步骤5 根据投影直方图中的正常投影柱的位置,分别得到文本区域的文本行和 文本列,记录左端和顶端的连通域位置,从而判断缩进情况,进而判断文本区域的排版方 向。所述步骤2中,正常投影柱为当前统计位置坐标值处对应的宽度在字符高度 0.5 1.5倍间的投影柱。所述步骤2中,异常投影柱为当前统计位置坐标值处对应的宽度小于字符高度 0. 5倍或大于字符高度1. 5倍的投影柱。所述步骤2中,统计直方图中投影柱的分布时,在水平投影直方图和竖直投影直 方图纵轴上,每隔半个字符高统计正常投影柱和异常投影柱数目,得到 < 正常投影柱数目, 异常投影柱数目,统计位置坐标值〉的三元组;然后在所得的正常投影柱最多的三元组中, 选择异常投影柱最少的三元组,并在所得结果中选取统计位置坐标值最小的三元组保存, 剩余三元组释放。所述步骤3中,既定数目为3,用来判定当前文本区域是否只有1至2行(列)。所述步骤3中,既定高度或既定宽度为4倍字符高,用来判定当前文本区域是否只 有1至2行(列)。所述步骤3之后,步骤4之前还可进行步骤31 如果两组所述三元组的异常投影 柱数目都为零,则排版方向与两组三元组中对应的统计位置坐标值小的对应方向一致,如 果两组三元组中对应的统计位置坐标值相等,则转到步骤4。如果两组所述三元组中一方向上的异常投影柱数目为零,另一方向上的异常投影 柱数目不为零,且异常投影柱数目为零对应的方向上三元组中统计位置坐标值不大于异常 投影柱数目不为零的方向上三元组中统计位置坐标值,则排版方向与异常投影柱数目为零 对应的方向一致。如果异常投影柱数目为零对应的方向上三元组中统计位置坐标值大于异常投影柱数目不为零对应的方向上三元组中统计位置坐标值,则转到步骤4。如果两组所述三元组中的异常投影柱数目都不为零,则如果一方向上三元组中统 计位置坐标值较小,且该方向上三元组的异常投影柱数目较小,则排版方向与该方向一致; 否则,转到步骤4。所述步骤4中,既定距离为字符高的0. 5 2倍,用来衡量正常投影柱间距的波动 情况。所述步骤5中,如果存在行缩进且无列缩进,则排版方向为水平方向;如果存在列 缩进且无行缩进,则排版方向为竖直方向,否则无法判断文本区域的排版方向。 本发明判断文本区域排版方向的方法,与现有技术相比,其优点在于1、本方法综合利用了文本长宽比、投影直方图特征、字符缩进等信息,不但能够正 确判断正常文本区域的排版方向,而且能够准确判断存在小角度倾斜或轻微几何畸变的文 本区域的排版方向。2、本方法的直方图中投影柱分布情况的统计及三元组的选择方法,将投影数据进 行细致的统计,有效地对文本区域进行了描述,反应了文本的行列分布情况,进而进行文本 区域排版方向的判断。3、本方法的正常投影柱间距的一阶距对应于文本行(列)间距的一阶距,反映了 文本行(列)间距的波动情况,统计方式简捷快速,能够据此快速准确的进行文本区域排版 方向的判断。


图1为本发明判断文本区域排版方向的方法的流程图;图2为本发明实施例1的文本区域的二值图像;图3a为本发明实施例1文本区域二值图像的水平投影直方图;图3b为本发明实施例1文本区域二值图像的竖直投影直方图;图4a为本发明实施例1中的水平投影直方图的投影柱分布情况的所有统计位置 示意图;图4b为本发明实施例1中的竖直投影直方图的投影柱分布情况的所有统计位置 示意图;图5a为本发明实施例1中的水平投影直方图的三元组中统计位置示意图;图5b为本发明实施例1中的竖直投影直方图的三元组中统计位置示意图;图6为本发明实施例2的文本区域的二值图像;图7a为本发明实施例2文本区域二值图像的水平投影直方图;图7b为本发明实施例2文本区域二值图像的竖直投影直方图;图8a为本发明实施例2中的水平投影直方图的投影柱分布情况的所有统计位置 示意图;图8b为本发明实施例2中的竖直投影直方图的投影柱分布情况的所有统计位置 示意图;图9a为本发明实施例2中的水平投影直方图的三元组中统计位置示意图;图9b为本发明实施例2中的竖直投影直方图的三元组中统计位置示意图10为本发明横排文本的行缩进示意图;图11为本发明竖排文本的列缩进示意图;图12a为本发明实施例2中的水平缩进示意图;图12b为本发明实施例2中的竖直缩进示意图。
具体实施例方式为了能更清楚地理解本发明的技术内容,采用以下实施例进行详细说明。在实施之前,将文档图像,无论是彩色的还是灰度图像,首先进行二值化转换成二 值图像,利用连通域标记算法得到图像中的连通域,并去掉图像表格等大块的连通域,对于 剩余的连通域,通过邻近连通域合并,得到一个个的区域,这些区域称之为文本区域,每个 文本区域用一个外接矩形表示其大小。本方法对这些由连通域构成的文本区域进行文字排 版方向的判断。如图2所示的实施例图像,其处理过程包括如下步骤,如图1所示步骤10 计算文本区域字符高。计算文本区域包含的所有连通域的高度,统计各 高度值的出现频率,对这些频率值进行1X5的均值滤波,然后选取滤波结果中频率最大者 对应的高度值为文本区域的字符高。针对图2所示的文本区域,其字符高为30个像素。步骤20 计算文本区域内二值图像的投影直方图。对文本区域对应的二值图像的 每一行像素计算黑像素点数目,然后从上到下排列每一行黑像素点数目,形成水平投影直 方图,如图3a所示。对文本区域对应的二值图像的每一列像素计算黑像素点数目,然后从 左到右排列每一列黑像素点数目,形成竖直投影直方图,如图3b所示。统计直方图中投影柱的分布。投影直方图的横坐标轴对应于文本区域的高(宽) 度,纵坐标对应于像素行(列)中黑像素的数目,即投影值。在字符排版方向上,文本区域 中的字符行(列)对应着直方图中宽度在字符0.5 1.5倍间的投影柱,即正常投影柱。字 符行(列)间距对应着正常投影柱之间的间距。在非排版方向上,文本区域中的字符由于 随机排列导致得到的投影柱的宽度有大有小,其中,宽度小于字符0. 5倍或大于字符1. 5倍 的投影柱为异常投影柱。通过统计两个直方图中的正常投影柱和异常投影柱的情况,来作 为判断字符排版方向的依据。在投影直方图中,由于投影柱对应于文本区域的文字行(列),正常投影柱数目 最多、异常投影柱数目最少的位置处的投影柱分布情况,最近似的反映了文本区域中的行 (列)分布情况。由于图像的小角度倾斜或(和)轻微几何畸变,这样的位置在投影直方图 中是不固定的。为了找到最好的投影柱分布信息,采取如下统计方法,采用的既定距离为字符高 的0. 5倍。沿着投影直方图纵轴,每隔一定的既定距离,统计一次正常投影柱和异常投影柱 的数目,直至投影值的最大值处停止。在每个统计位置处,按照 < 正常投影柱数目,异常投 影柱数目,统计位置坐标值 > 的格式形成一三元组,则在两个投影直方图上各得到若干三 元组,如图4a所示为水平投影直方图中的投影柱分布情况的各个统计位置,如图4b所示为 竖直投影直方图中的投影柱分布情况的各个统计位置。在两个投影直方图中各得到若干三 元组后,首先分别选择正常投影柱最多的三元组,并在得到的正常投影柱最多的三元组中 再分别选择异常投影柱最少的三元组,最后在得到的结果中再分别选取统计位置坐标值最小的三元组保存,选择完成后,剩余三元组数据丢弃不用,释放占用的存储空间。正常投影 柱对应于文本区域的文字行(列),正常投影柱数目最大的位置的直方图分布最好的描述 了文本区域的文字行(列)分布。异常投影柱反映了该方向不是排版方向的可能性,异常 投影柱数目越多,表明该方向越不可能是文字的排版方向。统计位置坐标值的大小反映了 以上两个统计值的可靠性,统计位置坐标值越小,说明以上两个统计值的可靠性越高。本实施例中,文本区域的字符高为30pixel,所以宽度在15 45pixel之间的投影 柱为正常投影柱,宽度小于15pixel或者大于45pixel的为异常投影柱。如图4a所示,在水 平投影直方图中,最大投影值为578pixel,每隔15pixel统计一组投影柱数目,则共得到39 组三元组数据。首先选择正常投影柱最多的三元组,并在得到的正常投影柱最多的三元组 中再选择异常投影柱最少的三元组,最后在得到的结果中再选取统计位置坐标值最小的三 元组保存。如图5a所示,得到的是第12组三元组,在这组数据中,正常投影柱数目为8,异 常投影柱数目为0,统计位置坐标值为165pixel,则三元组为<8,0,165>。如图4b所示,在 竖直投影直方图中,最大投影值为155pixel,每隔15pixel统计一组投影柱数目,则共得到 11组三元组数据。首先选择正常投影柱最多的三元组,并在得到的正常投影柱最多的三元 组中再选择异常投影柱最少的三元组,最后在得到的结果中再选取统计位置坐标值最小的 三元组保存。如图5b所示,得到的是第5组三元组,在这组数据中,正常投影柱数目为22, 异常投影柱数目为77,统计位置坐标值为60pixel,为<22,77,60>。在后续的步骤中,会利 用这些数据作为文本排版方向的判断依据。步骤30 当文本区域字符行(列)数目小于既定数目3时,利用文本区域长宽比 判断排版方向。正常投影柱数目对应于文本行(列),如果水平投影直方图中的正常投影柱 数目小于既定数目3,并且文本区域高度小于既定高度字符高的4倍,或者竖直投影直方图 中的正常投影柱数目小于既定数目3,并且文本区域宽度小于既定宽度字符高度的4倍,则 认为文本区域字符的行(列)数小于3。所述既定数目用来判定当前文本区域是否只有1 至2行(列)。如果只采用正常投影柱数目,在非排版方向上,也可能随机出现正常投影柱,所 以,此处在对正常投影柱数目做了规定之后,进一步增加了对于文本区域宽度(高度)的要 求,既定宽度(既定高度)为4倍字符高度,考虑到行(列)间距的存在,则文本区域中最 多只有3行(列)文字,再结合正常投影柱的限制,则可能断定文本区域中的行(列)数目 小于3。在文本区域字符的行(列)数小于3的情况下,排版方向判断规则如下1)文本区域宽度大于高度,则判断排版方向为水平;2)文本区域高度大于宽度,则判断排版方向为竖直;否则,无法判断该文本区域的排版方向。 本实施例中,水平投影直方图和竖直投影直方图的三元组中正常投影柱的数目为 8和22,都大于3,所以跳过该步,直接进入下一步骤31。步骤31 利用三元组中异常投影柱数目及统计位置坐标值判断排版方向。判断规 则如下1)在水平投影直方图、竖直投影直方图中的异常投影柱数目都为零时,则排版方 向与两组水平投影直方图和竖直投影直方图的三元组中对应的统计位置坐标值小的对应方向一致;如果两组三元组中对应的统计位置坐标值相等,则转到步骤40。2)在水平投影直方图的三元组中异常投影柱数目为零、竖直投影直方图的三元组 中异常投影柱数目非零时,异常投影柱越多表明该方向为排版方向的可能性越小,排版方 向倾向于水平方向;进一步判定如果水平投影直方图的三元组的统计位置坐标值小于等于 竖直投影直方图的三元组的统计位置坐标值,说明水平投影直方图中的异常投影柱数目的 可靠性不低于竖直投影直方图中的异常投影柱数目,则确定排版方向标记为水平方向;否 则转步骤40。
3)在竖直投影直方图的三元组中异常投影柱数目为零、水平投影直方图的三元组 中异常投影柱数目非零时,异常投影柱越多表明该方向为排版方向的可能性越小,排版方 向倾向于竖直方向;进一步判定如果竖直投影直方图的三元组的统计位置坐标值小于等于 水平投影直方图的三元组的统计位置坐标值,说明竖直投影直方图中的异常投影柱数目的 可靠性不低于水平投影直方图中的异常投影柱数目,则确定排版方向标记为竖直方向;否 则转步骤40。4)在水平投影直方图和竖直投影直方图的三元组中异常投影柱数目都非零时,如 果水平投影直方图的三元组中统计位置坐标值小于竖直投影直方图的三元组中统计位置 坐标值,说明水平投影直方图中的异常投影柱数目的可靠性优于竖直投影直方图中的异常 投影柱数目,进一步判定如果水平投影直方图的三元组中异常投影柱数目小于竖直投影直 方图的三元组中异常投影柱数目,则标记为水平方向。如果竖直投影直方图的三元组中统 计位置坐标值小于水平投影直方图的三元组中统计位置坐标值,说明水平投影直方图中的 异常投影柱数目的可靠性优于竖直投影直方图中的异常投影柱数目,进一步判定如果竖直 投影直方图的三元组中异常投影柱数目小于水平投影直方图的三元组中异常投影柱数目, 则标记为竖直方向。否则,转步骤40。在本实施例中,水平投影直方图的三元组中异常投影柱数目为零,竖直投影直方 图的三元组中异常投影柱数目为77,大于零,说明水平投影直方图的投影柱分布更接近文 本区域的行列分布。另外,水平投影直方图的三元组中统计位置坐标值为165pixel,不小 于竖直投影直方图的三元组中统计位置坐标值60,说明竖直投影直方图的投影柱分布更接 近文本区域的行列分布。以上两个结论相互矛盾,无法据此判断文本排版方向,所以转步骤 40。步骤40 分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩,利用 三元组中各正常投影柱间距的一阶距判断排版方向。在文本区域的字符排版方向上,正常 投影柱有序排列,其间距大小基本一致,所以正常投影柱间距的一阶距很小,理想情况下为 0。在文本区域的非字符排版方向上,如果正常投影柱随机出现,正常投影柱间距也是随机 值,所以非字符排版方向上正常投影柱间距的一阶距较大。当正常投影柱数目小于3时,正 常投影柱间距的一阶距不存在,此时将间距赋值为字符高。分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩,根据正常投影 柱间距的一阶距来判断排版方向的规则如下1)如果水平投影直方图的三元组中统计位置坐标值处正常投影柱间距一阶距小 于既定距离字符高的0. 5倍,既定距离用来衡量正常投影柱间距的波动情况,表示文字行 的分布比较均勻,该方向为排版方向的可能性较大,进一步如果竖直投影直方图的三元组中统计位置坐标值处正常投影柱间距一阶距大于既定距离字符高的0. 5倍,表示文字列的分布不均勻,即文字列分布随机,该方向为排版方向的可能性较小,综上则排版方向判断为 水平方向;2)如果竖直投影直方图的三元组中统计位置坐标值处正常投影柱间距一阶距小 于既定距离字符高的0. 5倍,表示文字列的分布均勻,该方向为排版方向的可能性较大,进 一步如果水平投影直方图的三元组中统计位置坐标值处正常投影柱间距一阶距大于既定 距离字符高的0. 5倍,表示文字行的分布不均勻,即文字行分布随机,该方向为排版方向的 可能性较小,综上则排版方向判断为竖直方向;否则,转步骤50。3)在本实施例中,水平投影直方图的三元组中统计位置坐标值处共有8个正常投 影柱,统计其间距的一阶距为3,小于既定距离字符高的0. 5倍15pixel。竖直投影直方图 中共有22个正常投影柱,统计其间距的一阶距为31,大于既定距离字符高的0. 5倍,这说明 水平投影方向和竖直投影方向两个方向相比,行间距波动情况较小,小于既定距离0. 5个 字符高,则水平投影直方图更能反映文本区域的行列分布情况。根据情况1)所述,判断本 实施例的字符排版方向为水平方向。至此,本实施例的字符排版方向判断完成,步骤70不需要进行。如图6所示的第二个实施例图像,其处理过程包括如下步骤步骤10 计算文本区域字符高。计算文本区域包含的所有连通域的高度,统计各 高度值的出现频率,对这些频率值进行1X5的均值滤波,然后选取滤波结果中频率最大者 对应的高度值为文本区域的字符高。针对图6所示的文本区域,其字符高为34pixel。步骤20 计算文本区域内二值图像的投影直方图。对文本区域对应的二值图像的 每一行像素计算黑像素点数目,然后从上到下排列每一行黑像素点数目,形成水平投影直 方图,如图7a所示;对文本区域对应的二值图像的每一列像素计算黑像素点数目,然后从 左到右排列每一列黑像素点数目,形成竖直投影直方图,如图7b所示。接着统计直方图中投影柱的分布。在水平投影直方图中,本实施例中,最大投影 值为304pixel,每隔17pixel统计一组投影柱数目,共得到18组三元组。首先选择正常投 影柱最多的三元组,并在得到的正常投影柱最多的三元组中再选择异常投影柱最少的三元 组,最后在得到的结果中再选取统计位置坐标值最小的三元组保存,如图9a所示,选中为 第4组数据,正常投影柱数目为9,异常投影柱数目为6,统计位置坐标值为51pixel,得三元 组<9,6,51>,剩余三元组数据丢弃不用,释放占用的存储空间。在竖直投影直方图中,最大投影值为185pixel,则每隔17pixel统计一组投影柱 数目,共得到11组三元组,首先选择正常投影柱最多的三元组,并在得到的正常投影柱最 多的三元组中再选择异常投影柱最少的三元组,最后在得到的结果中再选取统计位置坐标 值最小的三元组保存,如图9b所示,选中的为第5组数据,其中正常投影柱数目为15,异常 投影柱数目为5,统计位置坐标值为68,得三元组<15,5,68>,剩余三元组数据丢弃不用,释 放占用的存储空间。步骤30 当文本区域字符行(列)数目小于既定数目3时,利用文本区域长宽比 判断排版方向。如果水平投影直方图的三元组中正常投影柱数目小于既定数目3,并且文本 区域高度小于既定高度字符高的4倍;竖直投影直方图的三元组中正常投影柱数目小于既 定数目3并且文本区域宽度小于既定宽度字符高度的4倍,则认为文本区域字符的行(列)数小于3。在文本区域字符的行(列)数小于3的情况下,排版方向判断规则如下1)文本区域宽度大于高度,则判断排版方向为水平;2)文本区域高度大于宽度,则判断排版方向为竖直;否则,无法判断该文本区域的排版方向。本实施例中,水平投影直方图和竖直投影直方图的三元组中正常投影柱的数目为9和15,都大于3,所以跳过该步,直接进入下一步骤31。步骤31 利用三元组中异常投影柱数目及统计位置坐标值判断排版方向。在本实 施例中,水平投影直方图的三元组中异常投影柱数目6大于零,竖直投影直方图的三元组 中异常投影柱的数目5大于零,并且水平投影直方图中的三元组中投影柱统计位置小于竖 直投影直方图的三元组中投影柱统计位置,所以转步骤40。步骤40 分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩,利用 三元组中各正常投影柱间距的一阶距判断排版方向。在本实施例中,水平投影直方图的三 元组中正常投影柱的数目为9,统计其间距的一阶距为5,小于既定距离字符高的0.5倍 15pixel ;竖直投影直方图的三元组中正常投影柱的数目为15,统计其间距的一阶距为5, 小于既定距离字符高的0. 5倍15pixel,转步骤50。步骤50 根据投影直方图中的正常投影柱的位置,分别得到文本区域的文本行和 文本列,记录顶端和左端的连通域位置,从而判断缩进情况,进而判断文本区域的排版方 向。在文本区域中,段落的首行字符一般缩进两个字符宽度,利用缩进可以判断排版方向。如图10所示,对于横排文本,其缩进包括三种形式,即文本区域的首行缩进、文本 区域的尾行缩进及文本区域的中间行缩进。如图11所示,对于竖排文本,其缩进包括三种 形式,即文本区域的右列缩进、文本区域的左列缩进及文本区域的中间列缩进。图10和图 11中缩进的阈值为两个字符高。在统计位置坐标值处,正常投影柱的位置对应着文本区域 中的文本行列的位置。判断规则如下1)如果存在行缩进,并且不存在列缩进,则排版方向判断为水平;2)如果存在列缩进,并且不存在行缩进,则排版方向判断为竖直;否则,无法判断文本区域的排版方向。根据投影直方图中正常投影柱的位置,如图12a所示,实线框表示连通域,虚线框 表示文本区域的文本行;如图12b中所示,实线框表示连通域,虚线框表示文本区域的文本 列。在水平投影直方图中,记录下每一文本行中最左端连通域的位置,然后按照图10所示 的三种情况,判断是否存在行缩进;在竖直投影直方图中,记录下每一文本列中最上端连通 域的位置,然后按照图11所示的三种情况,判断是否存在列缩进。在本实施例中,记录下每一文本列中最上端连通域的位置时,水平方向存在行缩 进,竖直方向不存在列缩进,根据规则1),该文本区域的排版方向为水平方向。至此,图6所 示的实施例的排版方向判断完毕。
权利要求
一种判断文本区域排版方向的方法,其特征在于,包括如下步骤步骤一统计文本区域外接矩形内包含的字符连通域的高度,将出现频率最高的连通域高度作为字符高;步骤二对文本区域内的二值图像进行水平方向和竖直方向的投影,分别得到水平投影直方图和竖直投影直方图;统计直方图中投影柱的分布,在选定的统计位置依次选取正常投影柱数目、异常投影柱数目和统计位置坐标值并筛选为水平投影直方图对应的三元组和竖直投影直方图对应的三元组;步骤三如果投影直方图三元组中正常投影柱数目小于既定数目,且对于水平投影直方图来说文本区域的高度小于既定高度,或对于竖直投影直方图来说文本区域的宽度小于既定宽度,则比较文本区域的宽度和高度,宽度大于高度,则排版方向为水平,宽度小于高度,则排版方向为竖直;步骤四分别计算三元组中统计位置坐标值处的正常投影柱间距的一阶矩;如果一方向上直方图的正常投影柱间距的一阶矩小于既定距离,且另一方向上直方图的正常投影柱间距的一阶矩大于既定距离,则排版方向与正常投影柱间距的一阶矩小于既定距离对应的方向一致;否则转到步骤五;步骤五根据投影直方图中的正常投影柱的位置,分别得到文本区域的文本行和文本列,记录左端和顶端的连通域位置,从而判断缩进情况,进而判断文本区域的排版方向。
2.根据权利要求1所述的方法,其特征在于所述步骤二中,正常投影柱为当前统计位 置坐标值处对应的宽度在字符高度0. 5 1. 5倍间的投影柱。
3.根据权利要求1所述的方法,其特征在于所述步骤二中,异常投影柱为当前统计位 置坐标值处对应的宽度小于字符高度0. 5倍或大于字符高度1. 5倍的投影柱。
4.根据权利要求1所述的方法,其特征在于所述步骤二中,统计直方图中投影柱的分 布时,在水平投影直方图和竖直投影直方图纵轴上,每隔半个字符高统计正常投影柱和异 常投影柱数目,得到 < 正常投影柱数目,异常投影柱数目,统计位置坐标值 > 的三元组;然后 在所得的正常投影柱最多的三元组中,选择异常投影柱最少的三元组,并在所得结果中选 取统计位置坐标值最小的三元组保存,剩余三元组释放。
5.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于所述步骤三 中,既定数目为3,用来判定当前文本区域是否只有1至2行(列)。
6.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于所述步骤三 中,既定高度或既定宽度为4倍字符高,用来判定当前文本区域是否只有1至2行(列)。
7.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于所述步骤三 之后,步骤四之前还可进行步骤三一如果所述水平投影直方图对应的三元组和竖直投影直方图对应的三元组的异常投影 柱数目都为零,则排版方向与两组三元组中对应的统计位置坐标值小的对应方向一致,如 果两组三元组中对应的统计位置坐标值相等,则转到步骤四;如果两组所述三元组中一方向上的异常投影柱数目为零,另一方向上的异常投影柱数 目不为零,且异常投影柱数目为零对应的方向上三元组中统计位置坐标值小于等于异常投 影柱数目不为零的方向上三元组中统计位置坐标值,则排版方向与异常投影柱数目为零对 应的方向一致;如果异常投影柱数目为零对应的方向上三元组中统计位置坐标值大于异常投影柱数目不为零对应的方向上三元组中统计位置坐标值,则转到步骤四;如果两组所述三元组中的异常投影柱数目都不为零,则如果一方向上三元组中统计位 置坐标值较小,且该方向上三元组的异常投影柱数目较小,则排版方向与该方向一致;否 则,转到步骤四。
8.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于所述步骤四 中,既定距离为字符高的0. 5 2倍,用来衡量正常投影柱间距的波动情况。
9.根据权利要求1所述一种判断文本区域排版方向的方法,其特征在于所述步骤五 中,如果存在行缩进且无列缩进,则排版方向为水平方向;如果存在列缩进且无行缩进,则 排版方向为竖直方向,否则无法判断文本区域的排版方向。
全文摘要
本发明提出了一种文本区域排版方向的判断方法,属于OCR领域,根据得到的投影直方图进行统计分析,找出各自最有代表性的特征数据三元组,对于字符行(列)数小于3的文本区域,根据文本区域外接矩形的长宽比判断排版方向;对于字符行(列)数大于等于3的文本区域,根据异常投影柱的数目及其统计位置判断排版方向;无法判断的通过正常投影柱间距的一阶距判断文本排版方向;再无法判断排版方向的通过文本字符的缩进判断排版方向;最后仍然无法判断排版方向的区域放弃判断。本发明能够准确判断正常文本区域是横排还是竖排,而且能够准确判断存在小角度倾斜或轻微几何畸变的文本区域是横排还是竖排,判断效果好,速度快,具有良好的应用价值。
文档编号G06K9/20GK101882215SQ20091008486
公开日2010年11月10日 申请日期2009年5月25日 优先权日2009年5月25日
发明者李永彬 申请人:汉王科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1