文件图像处理方法和设备的制作方法

文档序号:6607956阅读:132来源:国知局
专利名称:文件图像处理方法和设备的制作方法
技术领域
本发明涉及图像处理领域,特别涉及一种文件图像处理方法和设备。
背景技术
文本行提取是文件图像处理中的关键步骤。存在两种主要的传统方法来从图像中获得文本行。第一种类型的方法是使用布局分析将文本段落与图像分开并提取文本行。 另一种类型的方法则使用了从自然景观图像中进行文本提取的思想。相关的技术文件可参见 E Shafait, D. Keysers, T. Breuel, "Performance evaluation and benchmarking of six page segmentation algorithms". IEEE Trans. On Pattern Analysis and Machine Intelligence. v30, n6, pp941_954,November, 30, 2007 (以下称为技术文件 1)和 Ε. Kim, et Al,"Scene text extraction using focus of mobile camera,,·Proceedings of the 10th International conference on Document Analysis and Recognition,pl66 170, 2009. 7. 26 29,Barcelona(以下称为技术文件2),这两个技术文件的整体内容通过引用结合于此。文本提取的目的是要通过对提取的文本行的字符识别来决定扫描的页面的取向。 文本提取的关键需求包括1.从图像中提取全部文本行是不必要的。2.速度应当尽可能地快。传统的方法对于上述两个需求而言是存在问题的。基于布局分析的方法不能满足速度需求。而且,基于布局分析的方法会分析整个文件图像。如果图像的结构非常复杂,则文本行提取通常会失败。第二种类型的方法(参见技术文件幻非常快速,但是它主要用于从户外自然景观文本中进行水平文本行提取。当第二种类型的方法应用于扫描的文件图像时,在扫描的文件包括水平文本行、垂直文本行和图像的情况下,一个很大的问题是如何找到文本行的正确方向。本发明的目的就是要从扫描的文件图像中进行快速而可靠的文本行提取。

发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。鉴于现有技术的上述情形,本发明的目的是提供一种文件图像处理方法和设备, 其能够从扫描的文件图像中进行快速而可靠的文本行提取,尤其适用于布局分析失败的情况下的复杂文件图像。为了实现上述目的,根据本发明的一方面,提供了一种文件图像处理方法,其包括如下步骤对所述文件图像进行水平文本行提取,以获得水平文本行,其中所述水平文本行的行数用Nh来表示;对所述文件图像进行垂直文本行提取,以获得垂直文本行,其中所述垂直文本行的列数用Nv来表示;设置具有Nh行Nv列的重叠矩阵M0,所述重叠矩阵MO的第i行第j列的元素M0(i,j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系,其中1彡i彡Nh并且1彡j彡Nv ;在垂直方向上对所述重叠矩阵MO进行合并,使得如果一列垂直文本行同时与多行水平文本行重叠,则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值;在水平方向上对所述重叠矩阵MO进行合并,使得如果一行水平文本行同时与多列垂直文本行重叠,则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值;基于合并后的所述重叠矩阵MO的元素的值, 确定所述文件图像中的一个或多个文本重叠区域;在所述一个或多个文本重叠区域中的一个内,分别对水平文本行和垂直文本行的笔画或像素点总数进行计数;以及如果水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数,则确定所述一个或多个文本重叠区域中的所述一个的取向是水平取向,并且如果水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数,则确定所述一个或多个文本重叠区域中的所述一个的取向是垂直取向。根据本发明的另一方面,还提供了一种文件图像处理设备,其包括水平文本行提取单元,用于对所述文件图像进行水平文本行提取,以获得水平文本行,其中所述水平文本行的行数用Nh来表示;垂直文本行提取单元,用于对所述文件图像进行垂直文本行提取, 以获得垂直文本行,其中所述垂直文本行的列数用Nv来表示;重叠矩阵设置单元,用于设置具有Nh行Nv列的重叠矩阵M0,所述重叠矩阵MO的第i行第j列的元素MO (i,j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系,其中1 < i < Nh并且 1 ^ j ^ Nv ;垂直合并单元,用于在垂直方向上对所述重叠矩阵MO进行合并,使得如果一列垂直文本行同时与多行水平文本行重叠,则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值;水平合并单元, 用于在水平方向上对所述重叠矩阵MO进行合并,使得如果一行水平文本行同时与多列垂直文本行重叠,则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值;文本重叠区域确定单元,用于基于所述垂直合并单元和水平合并单元合并后的所述重叠矩阵MO的元素的值,确定所述文件图像中的一个或多个文本重叠区域;计数单元,用于在所述文本重叠区域确定单元确定的一个或多个文本重叠区域中的一个内,分别对水平文本行和垂直文本行的笔画或像素点总数进行计数;以及文本取向确定单元,用于如果所述计数单元计数的水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数,则确定所述一个或多个文本重叠区域中的所述一个的取向是水平取向,并且如果所述计数单元计数的水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数,则确定所述一个或多个文本重叠区域中的所述一个的取向是垂直取向。根据本发明的另一方面,还提供了用于实现上述文件图像处理方法的计算机程序
女口
广 PFt O根据本发明的另一方面,还提供了计算机可读介质,其上记录有用于实现上述文件图像处理方法的计算机程序代码。
6
在本发明的上述技术方案中,对文件图像既进行水平文本行提取又进行垂直文本行提取,基于水平文本行和垂直文本行的重叠关系确定文件图像中的一个或多个文本重叠区域,并且基于笔画或像素点总数来确定文本重叠区域的取向。因此,能够从扫描的文件图像中进行快速而可靠的文本行提取,尤其适用于布局分析失败的情况下的复杂文件图像。


本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中图1是示出根据本发明实施例的文件图像处理方法的流程图;图2是示出作为根据本发明实施例的具体例子的进行水平文本行提取的示图;图3是示出作为根据本发明实施例的具体例子的进行垂直文本行提取的示图;以及图4是示出根据本发明实施例的文件图像处理设备的框图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其它元件放大了,以便有助于提高对本发明实施例的理解。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。下面参照附图详细描述根据本发明实施例的文件图像处理方法。图1是示出根据本发明实施例的文件图像处理方法的流程图。首先,在步骤SllO中,对文件图像进行水平文本行提取。在复杂的文件图像中,可以包括文本和图像,其中文本既包括水平文本行又包括垂直文本行。通过在步骤SllO中对文件图像进行水平文本行提取之后,可以获得文件图像中的水平文本行。这里,水平文本行的行数用Nh来表示。下一步,在步骤S120中,对文件图像进行垂直文本行提取。通过执行步骤S120可以获得文件图像中的垂直文本行。这里,垂直文本行的列数用Nv来表示。由此就获得了 Nh行的水平文本行和Nv列的垂直文本行。关于具体的(水平或垂直)文本行提取,存在许多方法。相关的技术文件可参见上MiIilJ2 Ι^ ,^Ν. Ezaki,et. Al,"Text detection from natural scene images towards a system for visually impaired persons".International Conference on Pattern Recognition. P683-686, 2004 (以下称为技术文件;3),该技术文件3的整体内容同样通过引用结合于此。下一步,在步骤S130中,设置重叠矩阵M0。重叠矩阵MO具有Nh行和Nv列,以与在步骤SllO中获得的水平文本行的行数和在步骤S120中获得的垂直文本行的列数相对应。重叠矩阵MO的第i行第j列的元素M0(i,j) 的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系,其中1 < i < Nh 并且1彡j彡Nv。换言之,设置重叠矩阵MO的目的,就是要表达在步骤SllO中获得的水平文本行中的每一行和在步骤S120中获得的垂直文本行中的每一列之间的重叠关系。这种重叠关系有助于确定复杂文件图像中的一个或多个文本重叠区域。根据本发明的优选实施例,MO(i, j) = 0指示第i行的水平文本行和第j列的垂直文本行之间没有重叠,并且M0(i,j) = i指示第i行的水平文本行和第j列的垂直文本行之间发生重叠。当然,MO(i, j)也可以取其它值来指示第i行的水平文本行和第j列的垂直文本行之间的重叠关系。下一步,在步骤S140中,在垂直方向上对重叠矩阵MO进行合并。如果一列垂直文本行同时与多行水平文本行重叠,则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的重叠矩阵MO的元素的值设置为相同值。 通过这种合并,使得重叠矩阵MO中的元素的值的多样性减少。最终,可以依据重叠矩阵MO 中的值相同的元素的分布情况来确定复杂文件图像中的一个或多个文本重叠区域。根据本发明的优选实施例,如果一列垂直文本行同时与多行水平文本行重叠,则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的重叠矩阵MO 的元素的值设置为它们中的最小值(或者最大值等等)。下一步,在步骤S150中,在水平方向上对重叠矩阵MO进行合并。如果一行水平文本行同时与多列垂直文本行重叠,则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的重叠矩阵MO的元素的值设置为相同值。 通过这种合并,进一步使得重叠矩阵MO中的元素的值的多样性减少。根据本发明的优选实施例,如果一行水平文本行同时与多列垂直文本行重叠,则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的重叠矩阵MO 的元素的值设置为它们中的最小值(或者最大值等等)。在文件图像布局简单的情况下,在执行步骤S140和S150之后即可执行下一个步骤。在文件图像布局复杂的情况下,可以反复执行步骤S140和S150,重复在垂直方向上和水平方向上对重叠矩阵MO进行合并,直到重叠矩阵MO的元素的值不再发生变化为止。下一步,在步骤S160中,基于合并后的重叠矩阵MO的元素的值,确定文件图像中的一个或多个文本重叠区域。在合并后的重叠矩阵MO中,具有各自不同的相同值的元素分布在不同的区域。按照该相同值的分布,即可确定文件图像中的一个或多个文本重叠区域。下一步,在步骤S170中,在一个或多个文本重叠区域中的一个内,分别对水平文本行和垂直文本行的笔画或像素点总数进行计数。
对于每一个文本重叠区域而言,在正确取向的文本行中总是会聚集比较多的笔画或像素点总数,而在错误取向的文本行中则会聚集比较少的笔画或像素点总数。最后,在步骤S180中,确定一个或多个文本重叠区域中的一个的取向。如果水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数,则确定该文本重叠区域的取向是水平取向。如果水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数,则确定该文本重叠区域的取向是垂直取向。另外需要说明的是,如果水平文本行的笔画或像素点总数刚好等于垂直文本行的笔画或像素点总数,则无法确定该文本重叠区域的取向是水平取向还是垂直取向。在这种特殊情况下,不对这个文本重叠区域的取向进行判断。采用根据本发明的上述文件图像处理方法,可以从扫描的文件图像中快速确定一个或多个文本重叠区域及其正确的取向,这尤其适用于布局分析失败的情况下的复杂文件图像。在确定了文件图像中的文本重叠区域的取向的情况下,如果确定一个或多个文本重叠区域中的每一个的取向是水平取向,则确定文件图像是水平取向;如果确定一个或多个文本重叠区域中的每一个的取向是垂直取向,则确定文件图像是垂直取向;而如果确定一个或多个文本重叠区域的取向既包括水平取向又包括垂直取向,则确定文件图像是混合取向。在下文中,参考图2和3来具体地描述根据本发明的文件图像处理方法。图2是示出作为根据本发明实施例的具体例子的进行水平文本行提取的示图。如图2所示,在对文件图像进行水平文本行提取之后,获得了 5行水平文本行,分别用H-1、 H-2、H-3、H-4 和 H-5 来表示。图3是示出作为根据本发明实施例的具体例子的进行垂直文本行提取的示图。如图3所示,在对文件图像进行垂直文本行提取之后,获得了 7列垂直文本行,分别用V-1、 V-2、V-3、V-4、V-5、V-6 和 V-7 来表示。根据获得的5行水平文本行和7列垂直文本行之间的重叠关系,可以设置如表1 所示的5行7列的重叠矩阵M0。表 1
V-IV-2V-3V-4V-5V-6V-7H-I1000000H-22200000H- 33300000H-44000000H- 50055555 如表1所示,重叠矩阵MO的第i行第j列的元素M0(i,j)的值指示了第i行的水
9平文本行和第j列的垂直文本行之间的重叠关系。当第i行的水平文本行和第j列的垂直文本行之间没有重叠时,M0(i,j) =0。当第i行的水平文本行和第j列的垂直文本行之间发生重叠时,M0(i,j) = i。然后,在垂直方向上对如表1所示的重叠矩阵MO进行合并。首先对第V-I列进行合并。第V-I列垂直文本行同时与第H-1、H-2、H_3和H_4行水平文本行重叠。扫描得到M0(1,1)、M0(2,1)、M0(3,1) ^P MO(4,1)中的最小值为1。所以, ^M0(1,1)>M0(2,1)>M0(3,1) ^P MO(4,1)的值全都设置为 1,得到表 2。表 权利要求
1.一种文件图像处理方法,包括对所述文件图像进行水平文本行提取,以获得水平文本行,其中所述水平文本行的行数用Nh来表示;对所述文件图像进行垂直文本行提取,以获得垂直文本行,其中所述垂直文本行的列数用Nv来表示;设置具有Nh行Nv列的重叠矩阵M0,所述重叠矩阵MO的第i行第j列的元素MO (i,j) 的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系,其中1 < i < Nh 并且1彡j彡Nv ;在垂直方向上对所述重叠矩阵MO进行合并,使得如果一列垂直文本行同时与多行水平文本行重叠,则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值;在水平方向上对所述重叠矩阵MO进行合并,使得如果一行水平文本行同时与多列垂直文本行重叠,则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值;基于合并后的所述重叠矩阵MO的元素的值,确定所述文件图像中的一个或多个文本重叠区域;在所述一个或多个文本重叠区域中的一个内,分别对水平文本行和垂直文本行的笔画或像素点总数进行计数;以及如果水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数,则确定所述一个或多个文本重叠区域中的所述一个的取向是水平取向,并且如果水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数,则确定所述一个或多个文本重叠区域中的所述一个的取向是垂直取向。
2.根据权利要求1所述的方法,进一步包括在确定所述文件图像中的一个或多个文本重叠区域之前,重复在垂直方向上和水平方向上对所述重叠矩阵MO进行合并,直到所述重叠矩阵MO的元素的值不再发生变化为止。
3.根据权利要求1或2所述的方法,其中,MO(i, j) = 0指示第i行的水平文本行和第j列的垂直文本行之间没有重叠;MO(i, j) = i指示第i行的水平文本行和第j列的垂直文本行之间发生重叠;如果一列垂直文本行同时与多行水平文本行重叠,则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为它们中的最小值;并且如果一行水平文本行同时与多列垂直文本行重叠,则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为它们中的最小值。
4.根据权利要求1所述的方法,进一步包括如果确定所述一个或多个文本重叠区域中的每一个的取向是水平取向,则确定所述文件图像是水平取向;如果确定所述一个或多个文本重叠区域中的每一个的取向是垂直取向,则确定所述文件图像是垂直取向;以及如果确定所述一个或多个文本重叠区域的取向既包括水平取向又包括垂直取向,则确定所述文件图像是混合取向。
5.一种文件图像处理设备,包括水平文本行提取单元,用于对所述文件图像进行水平文本行提取,以获得水平文本行, 其中所述水平文本行的行数用Nh来表示;垂直文本行提取单元,用于对所述文件图像进行垂直文本行提取,以获得垂直文本行, 其中所述垂直文本行的列数用Nv来表示;重叠矩阵设置单元,用于设置具有Nh行Nv列的重叠矩阵M0,所述重叠矩阵MO的第i 行第j列的元素M0(i,j)的值指示了第i行的水平文本行和第j列的垂直文本行之间的重叠关系,其中1彡i彡Nh并且1彡j彡Nv ;垂直合并单元,用于在垂直方向上对所述重叠矩阵MO进行合并,使得如果一列垂直文本行同时与多行水平文本行重叠,则将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值;水平合并单元,用于在水平方向上对所述重叠矩阵MO进行合并,使得如果一行水平文本行同时与多列垂直文本行重叠,则将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为相同值;文本重叠区域确定单元,用于基于所述垂直合并单元和水平合并单元合并后的所述重叠矩阵MO的元素的值,确定所述文件图像中的一个或多个文本重叠区域;计数单元,用于在所述文本重叠区域确定单元确定的一个或多个文本重叠区域中的一个内,分别对水平文本行和垂直文本行的笔画或像素点总数进行计数;以及文本取向确定单元,用于如果所述计数单元计数的水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数,则确定所述一个或多个文本重叠区域中的所述一个的取向是水平取向,并且如果所述计数单元计数的水平文本行的笔画或像素点总数小于垂直文本行的笔画或像素点总数,则确定所述一个或多个文本重叠区域中的所述一个的取向是垂直取向。
6.根据权利要求5所述的设备,其中,在所述文本重叠区域确定单元确定所述文件图像中的一个或多个文本重叠区域之前,所述垂直合并单元和所述水平合并单元重复在垂直方向上和水平方向上对所述重叠矩阵MO进行合并,直到所述重叠矩阵MO的元素的值不再发生变化为止。
7.根据权利要求5或6所述的设备,其中,MO(i, j) = 0指示第i行的水平文本行和第j列的垂直文本行之间没有重叠; MO(i, j) = i指示第i行的水平文本行和第j列的垂直文本行之间发生重叠; 如果一列垂直文本行同时与多行水平文本行重叠,则所述垂直合并单元将指示该列垂直文本行和所述多行水平文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为它们中的最小值;并且如果一行水平文本行同时与多列垂直文本行重叠,则所述水平合并单元将指示该行水平文本行和所述多列垂直文本行中的每一个之间的重叠关系的所述重叠矩阵MO的元素的值设置为它们中的最小值。
8.根据权利要求5所述的设备,进一步包括图像取向确定单元,该图像取向确定单元用于如果所述文本取向确定单元确定所述一个或多个文本重叠区域中的每一个的取向是水平取向,则确定所述文件图像是水平取向;如果所述文本取向确定单元确定所述一个或多个文本重叠区域中的每一个的取向是垂直取向,则确定所述文件图像是垂直取向;以及如果所述文本取向确定单元确定所述一个或多个文本重叠区域的取向既包括水平取向又包括垂直取向,则确定所述文件图像是混合取向。
全文摘要
本发明公开了一种文件图像处理方法和设备,其中文件图像处理方法包括对文件图像进行水平文本行提取;对文件图像进行垂直文本行提取;设置重叠矩阵,所述重叠矩阵的元素的值指示了水平文本行和垂直文本行之间的重叠关系;在垂直方向上对重叠矩阵进行合并;在水平方向上对重叠矩阵进行合并;基于合并后的重叠矩阵的元素的值,确定文件图像中的一个或多个文本重叠区域;在一个或多个文本重叠区域中的一个内,分别对水平文本行和垂直文本行的笔画或像素点总数进行计数;以及如果水平文本行的笔画或像素点总数大于垂直文本行的笔画或像素点总数,则确定该文本重叠区域的取向是水平取向,反之则确定该文本重叠区域的取向是垂直取向。
文档编号G06K9/46GK102375988SQ201010257650
公开日2012年3月14日 申请日期2010年8月17日 优先权日2010年8月17日
发明者于浩, 堀田悦伸, 孙俊, 直井聪 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1