用于文档图像的行分割方法及系统的制作方法

文档序号:6437792阅读:122来源:国知局
专利名称:用于文档图像的行分割方法及系统的制作方法
技术领域
本发明涉及一种用于文档图像的行分割方法及行分割系统,并且尤其涉及用于具有复杂布局的文档图像或者其中存在噪声的文档图像的行分割方法以及行分割系统。
背景技术
在光学字符识别(OCR)领域,存在多种用于识别从原稿文档获得的文档图像以获得文档图像中包含的文本内容的技术。该多种技术中的一种技术是将文档图像中的文本块分割成文本行,此技术在下文被称为行分割方法。一种用于文档图像的行分割的技术是基于图像的技术,尤其是基于像素投影的技术,并且这种技术的一种常用方法是仅依据各像素行的黑像素投影来执行行分割的方法。更具体来说,如图1所示,该方法主要包含计算文档图像的一个文本块中所包含的各像素行的黑像素投影值,根据黑像素投影值来检测所有的空格像素行,并且沿空格像素行划分该文本块以得到行分割结果。一个像素行的黑像素投影值可为多种形式,其中的一种常用形式是一个像素行中的黑像素计数与该像素行的面积的比率,其中该面积可通过像素行的宽度乘以像素行的高度来计算。更具体来说,一个像素行的黑像素投影值为该像素行中的黑像素计数与该像素行的宽度的比率,这是因为一个像素行的高度通常为I。在此技术中,当一个像素行中的黑像素计数与该像素行的面积的比率小于通常为O或接近O的阈值时,该像素行将被认为是空格像素行,空格像素行通常被认为是不包含字符相关内容的像素行,并且将被用于文本块的行分割。但是,此方法通常不能获得良好的行分割结果,在文档图像中存在噪声或者在文档图像具有复杂布局时尤其如此。已经提出一些方法来应对这样的行分割问题,但是这些方法趋向于仅仅应对噪声文档图像或者仅仅应对复杂布局图像。—种方法是在进行行分割之前删除噪声。该方法针对噪声文档图像,但是该方法费时,而且仅仅能应对“点噪声”等,该方法尤其不能解决复杂布局文档图像的行分割问题。另一种方法是基于白像素行程长度(run-length),该白像素行程长度是像素行中的连续白像素序列的长度。在该方法中,各像素行的白像素行程长度被计算,并且具有长的白像素行程长度的像素行被视为可能的行分割位置、即空格像素行。该方法对于某些布局较不复杂的文档图像稍微有用,并且有时对于某些特定噪声文档图像也有用,其中两个文本行之间的某些噪声像素行可通过该方法被检测到。但是,该方法也具有如下的三个缺点。首先,当文本行短时、尤其是当在相邻字符之间存在大的空格(space)(诸如标题行)时,由于这样的文本行中的像素行可能具有长的白像素行程长度,因此该文本行可能被错误地分割成若干文本行,如图2A所示。其次,当该方法被应用于分割不能通过基于投影的方法被分开的两个文本行时,如果这两个文本行中的一个短而另一个长,则对于短的文本行中的像素行,空白区域将被视为像素行的白像素行程长度的一部分,并且一些字符像素行将被错误地视为是空格像素行。因此,当沿最可能的噪声像素行划分文本行区域时,短的文本行可能被错误地分割成若干文本行,如图2B所示。可替换地,当通过直接删除所有噪声像素行来划分文本行时,短的文本行可能被视为文本行之间的空格区域的一部分,如图2C所示。第三,对于噪声文档图像,只有在像素行中的噪声不分散的情况下,才能通过该方法找到噪声像素行。当在文档图像中噪声分散时,通过该方法并不能找到噪声像素行,并且不能将文本行分开,如图2D所示。此外,具有复杂布局的其中噪声存在并且分散的文档图像也不能根据现有技术被准确地分割,如图2E所示。从上述内容清楚地看到,目前不存在一种方法能够有效且准确地处理具有复杂布局的文档图像或者噪声存在并且分散的文档图像。而且,不存在一种方法能够有效且准确地处理具有复杂布局并且其中噪声存在且分散的文档图像。因此,考虑到前述现有技术中存在的技术问题,需要一种用于克服由现有技术导致的缺陷并且通过行分割从文档图像准确地获得文本行的技术。

发明内容
本发明的一个目的是准确地实现复杂布局文档图像的行分割。本发明的另一个目的是准确地实现噪声文档图像的行分割,尤其是噪声分散的噪声文档图像的行分割。本发明的还另一个目的是准确地实现具有复杂布局并且其中噪声存在且分散的文档图像的行分割。在本发明的一个方面,提供了 一种用于文档图像中的文本块的行分割的方法,所述方法包括第一分割步骤,用于对文本块进行分割,以得到包含至少一个像素区域的第一像素区域;空白区域去除步骤,用于检测所述第一像素区域中的每一像素区域中的各个像素行中的连续白像素序列的公共重叠部作为空白区域,以及将该空白区域从所述第一像素区域中的所述像素区域中去除,以得到第二像素区域;以及文本行分割步骤,用于利用第二像素区域来进行文本行分割。在本发明的另一方面,提供了一种用于文档图像中的文本块的行分割的系统,所述系统包括第一分割单元,被配置用于对文本块进行分割,以得到包含至少一个像素区域的第一像素区域;空白区域去除单元,被配置用于检测所述第一像素区域中的每一像素区域中的各个像素行中的连续白像素序列的公共重叠部作为空白区域,以及将该空白区域从所述第一像素区域中的所述像素区域中去除,以得到第二像素区域;以及文本行分割单元,被配置用于利用第二像素区域来进行文本行分割。从下文参考附图对示例性实施例的描述,本发明的其它特性特征和优点将变得清晰。


并入说明书并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于解释本发明的原理。图1是示意性示出现有技术中的基于黑像素投影的行分割的方法。图2A至2E示意性地示出不能由现有技术方法准确分割的多种文档图像,其中图2A至2C示意性地示出被错误分割的具有复杂布局的文档图像,图2D示意性地示出不能被分割的其中分散有噪声的文档图像,并且图2E示意性示出不能被准确分割的具有复杂布局并且其中分散有噪声的文档图像。图3示意性地解释了像素行的宽度和高度的含义。图4是示出用于实施根据本发明的行分割系统的计算设备的布置的框图。图5是根据本发明的行分割方法的第一实施例的流程图。图6示意性地示出通过图5中的方法实现的像素区域的行分割结果的示例。图7示意性地示出其中包含空白区域的像素区域。图8是确定像素区域中的空白区域并且从该像素区域获得第二像素区域的流程图。图9示意性地示出像素区域中的各像素行中的连续白像素序列的公共重叠部的示例。图1OA和IOB示意性地示出像素区域中的空白区域检测的另一示例。图11示意性地示出在空白区域已被检测到并去除的情况下像素区域中的像素行的参数。图12A至12C是在行分割方法的第一实施例中的步骤S300中执行的示例性步骤的流程图。图13A和13B分别示意性地示出通过现有技术实现的以及通过本发明的第一实施例实现的具有复杂布局的文档图像的行分割结果的比较。图14是根据本发明的行分割方法的第二实施例中的步骤S300中的处理的流程图。图15A至15C分别示意性地示出通过现有技术实现的以及通过本发明的第二实施例实现的其中噪声存在并且分散的文档图像的行分割结果的比较。图16A和16B示意性地示出其中两个相邻文本行具有明显不同的长度的两种情况。图17是根据本发明的行分割方法的第三实施例中的文本行分割步骤中的处理的流程图。图18是第三实施例中的文本行分割步骤中的第一确定步骤中的处理的流程图。图19示意性地示出第三字符行区域和确定的空格像素行之间的对应关系。图20是第三实施例中的行分割方法的第二确定步骤中的处理的流程图。图21A至21C示意性地示出对于其中文本块中的两个相邻文本行具有明显不同的长度的文档图像通过现有技术中的方法实现的以及通过第三实施例中的方法实现的行分割结果之间的比较。图22A至22E示意性地示出具有复杂布局并且其中噪声存在且分散的文档图像的行分割的示例。
图23是示出行分割系统的总体配置的框图。
具体实施例方式下文将参照附图详细描述本发明的实施例。为了有助于本发明的透彻且适当的理解,将首先解释本申请的说明书和权利要求中所使用的术语。在本申请的说明书和权利要求中,尤其当用于文档图像时,术语“文本块”指的是包含文档图像中的一行或多行中的一个或多个词语并且可被分割成一个或多个像素区域的块。像素区域可由一个或多个文本行构成,并且可被分割以便获得各个文本行。文本行对应于一行文本,并且更具体地,对应于一行词语,并且可包括一个或多个像素行。像素行可以是包含与像素区域中的词语有关的信息的字符像素行,或者是基本不包含与词语有关的信息并且可被视为用于像素区域的行分割的分割位置的空格像素行。一个或多个字符像素行可被合并为一个字符行区域。对于像素行或者文本行的方向,术语“水平”指的是基本水平,并且术语“垂直”指的是基本垂直。特别地,文档图像中使用的术语“水平”指的是基本与文档图像或者原稿图像中的文本行平行的方向。类似地,文档图像中的术语“垂直”指的是基本与文档图像或者原稿图像中的文本行垂直的方向。 在本申请的说明书和权利要求中,关于通常为沿水平方向的一个行的文档图像中的文本行,术语“高度”(由H指示)以及“宽度”(由W指示)分别指的是该文本行在垂直方向上的长度以及该文本行在水平方向上的长度。当然,文本行并不局限于水平方向的行,并且其可以是垂直方向的行(也被称为文本列)。在此情况下,术语“水平”可指的是基本与文档图像或者原稿图像中的文本列垂直的方向,术语“垂直”可指的是基本与文档图像或者原稿图像中的文本列平行的方向,并且术语“高度”(由H指示)以及“宽度”(由W指示)分别指的是该文本列在水平方向上的长度以及该文本列在垂直方向上的长度。图3示意性地示出上述两种情况。由于一个文本块和一个像素区域包括一个或多个文本行,并且一个文本行由一个或多个像素行构成,因此该“高度”和“宽度”的含义还等同地适用于文本块、像素区域及其子区域、像素行及其子区段中的任一个。鉴于此,文本块或像素区域的分割(即,行分割)将在其高度方向上进行。在下文中,为了简化描述,除非另外说明,否则“高度”和“宽度”分别指的是沿垂直方向的长度和沿水平方向的长度,并且分割指的是在垂直方向上的分割。在本发明的描述中,除非另外说明,否则所有尺寸(诸如长度或宽度)以“像素”为单位。图4是示出用于实施根据本发明的行分割系统的计算设备的布置的框图。为了简化起见,该系统被示出为置于单个计算设备中。但是,不管该系统被置于单个计算设备中还是被置于作为网络系统的多个计算设备中,该系统都是有效的。如图4所示,计算设备100用于实施行分割的处理。计算设备100可包括CPU 101、芯片组102、RAM 103、存储控制器104、显示控制器105、硬盘驱动器106、⑶-ROM驱动器107、以及显示器108。计算设备100还可包括连接于CPU 101和芯片组102之间的信号线111、连接于芯片组102和RAM 103之间的信号线112、连接于芯片组102和各种外围设备之间的外围设备总线113、连接于存储控制器104和硬盘驱动器106之间的信号线114、连接于存储控制器104和⑶-ROM驱动器107之间的信号线115、以及连接于显示控制器105和显示器108之间的信号线116。客户设备120可直接或经由网络130连接到计算设备100。客户设备120可例如向计算设备100发送行分割的处理所需要的指令和/或参数,并且计算设备100可将信息返回给客户设备120或者在显示器108上显示信息。[第一实施例]下文,将参照图5描述根据本发明的行分割方法的第一实施例,并且图5是行分割方法的第一实施例的流程图。在行分割方法的步骤SlOO (下文被称为第一分割步骤)中,对文档图像的文本块进行分割以获得粗略像素区域(下文被称为第一像素区域),其包含至少一个像素区域。在步骤SlOO的处理中,可采用现有技术的任何行分割方法(诸如上文所述的基于投影的方法),并且这里将省略其描述。在步骤S200(下文被称为空白区域去除步骤)中,将第一像素区域的各像素区域中的各个像素行中的连续白像素序列的公共重叠部检测为第一像素区域的相应像素区域中的空白区域,并且从该第一像素区域的相应像素区域中去除该空白区域以获得在其中已去除了空白区域的像素区域(下文被称为第二像素区域)。通常,第一像素区域的各像素区域对应于一个第二像素区域。下文将详细描述步骤S200的处理。在步骤S300 (下文被称为文本行分割步骤)中,将第二像素区域用于文本行分割。例如,对于第一像素区域中的各像素区域,该像素区域中的行分割位置将通过利用其相应的第二像素区域被确定,并且然后将根据该行分割位置来分割该像素区域以得到行分割结果。如现有技术中已知的,行分割位置通常对应于一个或多个空格像素行。图6示意性地示出通过图5中所示的方法实现的文本块中的一个像素区域的行分割结果的示例。如图所示,第一像素区域中包含的各像素区域可根据一个或多个空格像素行至少被分割成两部分。特别地,例如,如果像素区域中存在一个以上的连续且相邻的空格像素行,则这些空格像素行将被合并为空格像素行区域,并且被用于通过删除该空格像素行区域将该像素区域分割成至少两个更小的像素区域(也可被称为文本行区域)。在一些情况下,行分割结果是可能需要被进一步分割的像素区域(即,文本行区域)。例如,如果文本行区域的高度大于可由操作员根据文本图像条件以及个人经验设定的一个阈值THl (例如对于300dpi的图像为34),该文本行区域需要被进一步分割。在该行分割方法中,需要考虑并且准确地获得多种参数,例如要被行分割的像素区域的宽度。特别地,如果如图7所示,像素区域包含一些空白区域,则必须检测到并且扣除像素区域中的空白区域,否则可能导致行分割错误,在文本行短时尤其如此。下文将参照图8和9详细描述步骤S200中的处理。图8是确定像素区域中的空白区域并且从该像素区域获得第二像素区域的流程图。图9示意性地示出像素区域中的像素行的公共重叠部的示例。在图8中的步骤S201中,像素区域中的各像素行中的所有连续白像素序列根据它们的长度被排序。
在步骤S202中,从最长的连续白像素序列开始,将接下来的各连续白像素序列依次重叠以生成像素区域中的各个像素行中的连续白像素序列的公共重叠部(对应于空白区域)。下文将详细描述步骤S202中的处理。在步骤S203中,从像素区域去除空白区域,并且将剩余的字符区域分组成第二像素区域。 对于步骤S202中的处理,从第一连续白像素序列、即一个像素行中的最长连续白像素序列开始,将其余像素行中的接下来的各连续白像素序列依次与先前的一个或多个连续白像素序列进行重叠以生成一个公共空白部,直至被公共重叠的序列的数量、即重叠的像素行的数量达到预定数量。该预定数量可由操作员根据多种条件(诸如预期的准确度、图像的分辨率等)设定。该预定数量的常用设定是该预定数量为像素区域中的像素行的数量的至少70%。在重叠处理中,如果正在重叠的连续白像素序列没有与通过组合先前的连续白像素序列而生成的空白区域重叠,则该正在重叠的连续白像素序列将被放弃,并且将尝试将下一连续白像素序列进行重叠。最后,像素区域的与所获得的公共空白部的范围对应的部分被视为像素区域的公共重叠部、即像素区域的空白区域。该空白区域将被去除,并且在随后的行分割期间将利用该像素区域中的剩余字符区域(可被分组成第二像素区域)。可替换地,上述用于检测公共重叠部的方法还可与用于利用黑像素计数来检测空白区域的另一方法相组合以检测空白区域。更具体而言,如图1OA所示,可首先将像素区域划分成若干子区域,并且计算各子区域的黑像素计数与其面积的比率以检测大的空白区域。如果该比率小于一个阈值TH4(例如,0.01),则该子区域将被视为空白子区域。如果该比率大于该阈值TH4(例如,0.01),则该子区域可能是字符子区域。下文,为了简化描述,除非另外说明,否则划分指的是在宽度方向上的划分。然后,如图1OB所示,对于字符子区域,可使用上述的用于检测公共重叠部的方法来检测字符子区域中的可能的小的空白子区域。下文,将参照图11和图12A至12C来详细描述步骤S300中的处理。图11示意性地示出在空白区域已被检测到并去除的情况下的像素区域中的像素行的参数,诸如黑像素计数和连续白像素序列的长度。图12A至12C是行分割方法的第一实施例中的步骤S300中执行的示例性步骤的流程图。在步骤S300中,如上所述,第二像素区域将被用于行分割。更具体而言,第二像素区域的参数以及正被检测的像素行的对应参数可被用于检测该像素行是字符像素行还是空格像素行。第二像素区域的参数可包括例如第二像素区域的宽度,其可通过计算其中的字符区域的宽度的总和来得到。像素行的对应参数可包括例如像素行的在第二像素区域中的黑像素计数、该像素行的连续白像素序列长度统计值,该统计值是该像素行的在第二像素区域中的最长连续白像素序列的长度、或者是该像素行的在第二像素区域中的最长连续白像素序列的长度与次最长连续白像素序列的长度之和,如图11所示。
利用第二像素区域以及正被检测的像素行的参数,步骤S300中的处理可被以不同方式执行以检测空格像素行。图12A示出步骤S300中的处理,其中通过利用像素行的在第二像素区域中的黑像素计数与该第二像素区域的宽度的比率来检测空格像素行。此处理的一种通常方式是将该比率与阈值进行比较以便检测该像素行是否为空格像素行。如果该比率小于阈值TH2(例如,0.01),则该像素行将被视为一个空格像素行。否则,该像素行将被视为一个字符像素行。图12B示出步骤S300中的处理,其中通过利用像素行的连续白像素序列长度统计值与第二像素区域的宽度的比率来检测空格像素行,该比率即为该像素行的在第二像素区域中的最长连续白像素序列的长度与第二像素区域的宽度的比率、或者该像素行的在第二像素区域中的最长连续白像素序列的长度与次最长连续白像素序列的长度的总和与第二像素区域的宽度的比率。此处理的一种通常方式是将这两个比率与阈值进行比较以便检测像素行是否为空格像素行。如果这两个比率中的任一个大于阈值TH3(例如,0.7),则该像素行将被视为一个空格像素行。否则,该像素行将被视为一个字符像素行。图12C示出步骤S300中的处理,其中可组合分别在图12A和12B中所示的方法。例如,图12A和12B中分别示出的方法可被依次执行。应注意,图12C中的处理的顺序仅仅是一个示例,并且可利用其它的顺序。例如,图12B和12A中分别示出的方法可被依次执行。上述处理的方式是用于通过利用第二像素区域实施空格像素行的检测的示例性的优选操作方式,并且还可使用其他方式。空格像素行的检测可相对于第一像素区域中包含的像素区域中的所有像素行在水平布局中自上而下地执行,但是并不局限于此。例如,为了在几乎不降低检测准确度的情况下提高计算速度,空格像素行的检测可相对于在一个像素区域的中部的像素行执行,并且该中部的范围可由操作员任意确定。一种常用的选择是假定像素区域具有顶部边界“region_top” 和底部边界 “region_bottom”,并且中部即为在 “region_top” +0.2 X std_line_height 与“region_bottom,,_0.2 X std_line_height 之间的区域。std_line_height是依据文档图像的分辨率估计的。在一个像素区域中,所有空格像素行可被一次性地检测,但是本发明并不局限于此。例如,可在水平布局中自上至下地扫描并检测各像素行。在找到一个空格像素行之后,一旦在其后的另一个像素行被判断为字符像素行,则该处理将结束。[有利效果]第一实施例的方法至少可有效并且准确地应用于具有复杂布局的文档图像,尤其可应用于包含标题行的文档图像,从而可提高用于这样的文档图像的行分割的性能。图13A和13B示意性地示出分别通过现有技术以及本发明的第一实施例实现的具有复杂布局的文档图像的行分割结果的比较。该文档图像例如是文档中的标题行。如图13A所示,可见该标题行被现有技术的方法错误地分割。相反,利用根据本发明的第一实施例的解决方案,如图13B所示,在该标题行中将不会检测到空格像素行,从而该标题行不会被错误地分割。[第二实施例]
下文将参照图14至15C详细描述本发明的第二实施例。除了文本行分割步骤之夕卜,第二实施例基本与第一实施例相同,该文本行分割步骤进一步通过利用像素区域中的正在被检测的像素行之前的字符像素行、尤其利用从正在被检测的像素行之前的字符像素行导出的字符笔划宽度(stroke width)来检测该像素行是否是空格像素行。因此,第二实施例的与第一实施例中的那些步骤相似的步骤将被省略并且不被详细描述。此空格像素行检测处理基于一个合理的推论,即当一个文本行包含两个以上的字符时,对于文本行区域中的各像素行,字符的至少一个字符笔划通过该像素行。字符笔划宽度指的是包含多个字符像素行的区域中的词语的至少一个字符笔划的平均宽度。上述推论和定义可适用于像素行以及像素区域处于水平方向的情况以及它们处于垂直方向的情况两者。在前一情况下,字符笔划将是垂直字符笔划,并且字符笔划宽度对应于垂直字符笔划的字符笔划宽度,而在后一情况下,字符笔划将是水平字符笔划并且字符笔划宽度对应于水平字符笔划的笔划宽度。第二实施例中的空格像素行检测处理可与第一实施例中的那些处理以各种方式进行组合。在一个示例中,第二实施例中的文本行分割步骤中的上述处理可在第一实施例中的图12A至12C中任一个所示的处理之后并与其组合。图14是根据本发明的行分割方法的第二实施例中的空格像素行检测处理的流程图。在步骤S401中,检查第二像素区域是否包含至少两个字符。一种常用的检查方法是计算第二像素区域的宽度与其高度的比率。如果该比率大于2,则然后将第二像素区域视为包含至少两个字符,并且处理前进至步骤S402。可替换地,处理将结束并且等待下一个第二像素区域。在步骤S402中,与正在被检测的像素行相邻且在其之前的所有检测到的字符像素行被合并为一个字符行区域。在步骤S403中,估计字符行区域中的字符笔划宽度。下文将详细描述步骤S403的处理。在步骤S404中,将正在被检测的像素行划分成若干子区段,并且搜索该若干子区段中的具有最大黑像素计数的子区段。在步骤S405中,通过比较该最大黑像素计数与字符笔划宽度来检测正在被检测的像素行是否是空格像素行。例如,检查该最大黑像素计数是否小于字符笔划宽度,如果是,则正在被检测的像素行是一个空格像素行。否则,由于至少一个字符笔划可能通过该像素行,因此该像素行可能是一个字符像素行。由此,空格像素行可利用第二实施例中的空格像素行检测方法被检测,并且然后被用于像素区域的行分割。接下来,将详细描述字符笔划宽度的估计。这里,可利用两种方法来估计字符笔划宽度,第一种方法基于合并后的字符行区域的高度和字符笔划宽度之间的关系,并且可获得字符笔划宽度的第一估计值,并且第二种方法是通过分析相邻的合并后的字符行区域上的黑像素分布来动态获取字符笔划宽度,并且可获得字符笔划宽度的第二估计值。在此基础上,可将第一和第二估计值中的较小值视为字符笔划宽度。
在第一估计方法中,合并后的字符行区域中的字符的字符笔划宽度的第一估计值仅根据合并后的字符行区域的高度被估计。第一估计方法是基于以下假设:字符笔划宽度超过字符高度的十分之一,并且字符高度和字符行区域的高度之间的差小。第一估计值是通过下面的公式(I)得到的,
权利要求
1.一种用于文档图像中的文本块的行分割的方法,所述方法包括以下步骤: 第一分割步骤,用于对文本块进行分割,以得到包含至少一个像素区域的第一像素区域; 空白区域去除步骤,用于检测所述第一像素区域中的每一像素区域中的各个像素行中的连续白像素序列的公共重叠部作为空白区域,以及将该空白区域从所述第一像素区域中的所述像素区域中去除,以得到第二像素区域;以及 文本行分割步骤,用于利用第二像素区域来进行文本行分割。
2.根据权利要求1所述的方法,其中,所述公共重叠部是通过如下操作检测的: 将所有连续白像素序列依长度排序;以及 从最长的连续白像素序列开始,依次重叠各接下来的连续白像素序列,以生成由预定数量的连续白像素序列所共同覆盖的空白部确定的所述公共重叠部。
3.根据权利要求2所述的方法,其中,所述文本行分割步骤进一步包括: 对于所述第一像素区域中的每一像素区域中的各像素行,通过利用所述像素行在第二像素区域中的黑像素计数与所述第二像素区域的宽度的比率,以检测所述像素行是字符像素行还是空格像素行。
4.根据权利要求2-3中任一项所述的方法,其中,所述文本行分割步骤进一步包括: 对于所述第一像素区域中的每一像素区域中的各像素行,通过利用所述像素行的连续白像素序列长度统计值与所述第二像素区域的宽度的比率,检测所述像素行是字符像素行还是空格像素行, 其中,所述连续白像素序列长度统计值为所述像素行在第二像素区域中的最长连续白像素序列长度、或所述像素行在第二像素区域中的最长连续白像素序列长度与次最长连续白像素序列长度之和。
5.根据权利要求3-4中任一项所述的方法,其中,所述文本行分割步骤进一步包括: 将在正被检测的像素行之前且相邻的所有检测到的字符像素行合并为字符行区域; 估计所述字符行区域中的字符笔划宽度; 将正被检测的像素行划分成若干子区段,并且从若干子区段中搜索具有最大黑像素计数的子区段;以及 通过比较所述最大黑像素计数与字符笔划宽度来检测正被检测的像素行是否是空格像素行。
6.根据权利要求5所述的方法,其中,字符笔划宽度估计步骤进一步包括: 得到所述字符行区域的高度的十分之一作为字符笔划宽度的第一估计值; 通过使用如下表达式得到字符笔划宽度的第二估计值: 第二估计值=字符行区域中的黑像素计数/(字符行区域的宽度X平均笔划量);以及 使用第一估计值和第二估计值中的较小值作为字符笔划宽度, 其中,所述平均笔划量是依赖于文档中使用的语言的值。
7.根据权利要求3-6中任一项所述的方法,其中所述文本行分割步骤进一步包括:确定步骤,用于通过利用第二像素区域中的在一个或多个检测到的空格像素行之前且相邻的一个或多个相邻字符像素行,从一个或多个检测到的空格像素行确定一个或多个最终空格像素行, 其中,基于所确定的一个或多个最终空格像素行进行文本行分割。
8.根据权利要求7所述的方法,其中,所述确定步骤包括: 合并步骤,用于将所述一个或多个相邻字符像素行合并为第二字符行区域; 第一确定步骤,用于从所述第二字符行区域获得第三字符行区域,并且通过利用所述第三字符行区域来确定所述一个或多个检测到的空格像素行的各空格像素行是否是第二空格像素行;以及 第二确定步骤,用于确定所述第一确定步骤中所确定的第二空格像素行是否是最终空格像素行。
9.根据权利要求8所述的方法,其中从所述第二字符行区域获得第三字符行区域包括: 检测所述第二字符行区域中的空白区域,并且从所述第二字符行区域去除所述空白区域以获得所述第三字符行区域。
10.根据权利要求9所述的方法,其中,所述第一确定步骤进一步包括: 通过利用所述空格像素行中的在与所述第三字符行区域对应的部分中的黑像素计数与所述第三字符行区域的宽度的比率,确定所述空格像素行是否是所述第二空格像素行。
11.根据权 利要求9-10中任一项所述的方法,其中,所述第一确定步骤进一步包括: 通过利用空格像素行中的连续白像素序列长度统计值与所述第三字符行区域的宽度的比率,确定所述空格像素行是否是所述第二空格像素行, 其中,所述连续白像素序列长度统计值为所述空格像素行的在与所述第三字符行区域对应的部分中的最长连续白像素序列长度或所述空格像素行的在与所述第三字符行区域对应的部分中的最长连续白像素序列长度与次最长连续白像素序列长度之和。
12.根据权利要求8所述的方法,其中,所述第二确定步骤包括: 将所述第三字符行区域划分成若干子区域,并且相应地将所述第二空格像素行划分为若干子区段; 从所述第二空格像素行中的所述若干子区段中选择具有最大黑像素计数的子区段;以及 通过比较所述最大黑像素计数与来自所述第三字符行区域中的与所述子区段相应的子区域的上限值,来确定所述第二空格像素行是否是最终空格像素行; 其中,当所述最大黑像素计数小于所述上限值时,确定所述第二空格像素行是最终空格像素行。
13.根据权利要求12所述的方法,其中, 所述上限值是依据如下表达式计算的: 上限值=子区域中的字符量X平均笔划量X字符笔划宽度 其中,子区域中的字符量指的是所述子区域的宽度与所述子区域的高度的比率; 所述平均笔划量是基于文档中使用的语言的预定值;以及 所述字符笔划宽度为所述第三字符行区域的宽度的十分之一。
14.根据权利要求2所述的方法,其中,所述预定数量为像素区域中的像素行的数量的至少70%。
15.根据权利要求1所述的方法,其中,所述第一分割步骤是利用基于图像的分割方法执行的。
16.一种用于文档图像中的文本块的行分割的系统,所述系统包括以下单元: 第一分割单元,被配置用于对文本块进行分割,以得到包含至少一个像素区域的第一像素区域; 空白区域去除单元,被配置用于检测所述第一像素区域中的每一像素区域中的各个像素行中的连续白像素序列的公共重叠部作为空白区域,以及将该空白区域从所述第一像素区域中的所述像素区域中去除以得到第二像素区域;以及 文本行分割单元,被配置用于利用第二像素区域来进行文本行分割。
17.根据权利要求16所述的系统,其中,所述空白区域去除单元通过如下操作检测公共重叠部: 将所有连续白像素序列依长度排序;以及 从最长的连续白像素序列开始,依次重叠各接下来的连续白像素序列,以生成由预定数量的连续白像素序列所共同覆盖的空白部确定的所述公共重叠部。
18.根据权利要求17所述的系统,其中,所述文本行分割单元进一步包括: 黑像素计数检测单元,被配置用于对于所述第一像素区域中的每一像素区域中的各像素行,通过利用所述像素行在第二像素区域中的黑像素计数与所述第二像素区域的宽度的比率,以检测所述像素行是字符像素行还是空格像素行。
19.根据权利要求17-18`中任一项所述的系统,其中,所述文本行分割单元进一步包括: 白像素序列检测单元,被配置用于对于所述第一像素区域中的每一像素区域中的各像素行,通过利用所述像素行的连续白像素序列长度统计值与所述第二像素区域的宽度的比率,检测所述像素行是字符像素行还是空格像素行, 其中,所述连续白像素序列长度统计值为所述像素行在第二像素区域中的最长连续白像素序列长度、或所述像素行在第二像素区域中的最长连续白像素序列长度与次最长连续白像素序列长度之和。
20.根据权利要求18-19中任一项所述的系统,其中,所述文本行分割单元进一步包括字符笔划宽度检测单元,被配置用于利用与先前检测到的字符像素行有关的字符笔划宽度来检测像素行是否是空格像素行,所述字符笔划宽度检测单元包括: 合并单元,被配置用于将在正被检测的像素行之前且相邻的所有检测到的字符像素行合并为字符行区域; 估计单元,被配置用于估计所述字符行区域中的字符笔划宽度; 搜索单元,被配置用于将正被检测的像素行划分成若干子区段,并且从若干子区段中搜索具有最大黑像素计数的子区段;以及 比较单元,被配置用于通过比较所述最大黑像素计数与字符笔划宽度来检测正被检测的像素行是否是空格像素行。
21.根据权利要求20所述的系统,其中,所述估计单元通过以下操作估计字符笔划宽度: 得到所述字符行区域的高度的十分之一作为字符笔划宽度的第一估计值;通过使用如下表达式得到字符笔划宽度的第二估计值: 第二估计值=字符行区域中的黑像素计数/(字符行区域的宽度X平均笔划量);以及 使用第一估计值和第二估计值中的较小值作为字符笔划宽度, 其中,所述平均笔划量是依赖于文档中使用的语言的值。
22.根据权利要求18-21中任一项所述的系统,其中所述文本行分割单元进一步包括: 确定单元,被配置用于通过利用第二像素区域中的在一个或多个检测到的空格像素行之前且相邻的一个或多个相邻字符像素行,从一个或多个检测到的空格像素行确定一个或多个最终空格像素行, 其中,基于所确定的一个或多个最终空格像素行进行文本行分割。
23.根据权利要求22所述的系统,其中,所述确定单元包括: 合并单元,被配置用于将所述一个或多个相邻字符像素行合并为第二字符行区域;第一确定单元,被配置用于从所述第二字符行区域获得第三字符行区域,并且通过利用所述第三字符行区域来确定所述一个或多个检测到的空格像素行的各空格像素行是否是第二空格像素行;以及 第二确定单元,被配置用于确定所述第一确定单元所确定的第二空格像素行是否是最终空格像素行。
24.根据权利要求23所述的系统,其中所述第一确定单元包括字符行区域获得单元,所述字符行区域获得单元被配置用于检测所述第二字符行区域中的空白区域并且从所述第二字符行区域去除所述空白区域以获得所述第三字符行区域。
25.根据权利要求24所述的系统,其中,所述第一确定单元进一步包括: 黑像素计数确定单元,被配置用于通过利用所述空格像素行中的在与所述第三字符行区域对应的部分中的黑像素计数与所述第三字符行区域的宽度的比率,确定所述空格像素行是否是所述第二空格像素行。
26.根据权利要求24-25中任一项所述的系统,其中,所述第一确定单元进一步包括: 白像素序列确定单元,被配置用于通过利用空格像素行中的连续白像素序列长度统计值与所述第三字符行区域的宽度的比率,确定所述空格像素行是否是所述第二空格像素行, 其中,所述连续白像素序列长度统计值为所述空格像素行的在与所述第三字符行区域对应的部分中的最长连续白像素序列长度、或所述空格像素行的在与所述第三字符行区域对应的部分中的最长连续白像素序列长度与次最长连续白像素序列长度之和。
27.根据权利要求23所述的系统,其中,所述第二确定单元包括: 划分单元,被配置用于将所述第三字符行区域划分成若干子区域,并且相应地将所述第二空格像素行划分为若干子区段; 选择单元,被配置用于从所述第二空格像素行中的所述若干子区段中选择具有最大黑像素计数的子区段; 上限值计算单元,被配置用于计算来自所述第三字符行区域中的与所述子区段相应的子区域的上限值;以及 比较单元, 被配置用于通过比较所述最大黑像素计数与所述上限值,来确定所述第二空格像素行是否是最终空格像素行; 其中,当所述最大黑像素计数小于所述上限值时,确定所述第二空格像素行是最终空格像素行。
28.根据权利要求27所述的系统,其中, 所述上限值计算单元依据如下表达式计算所述上限值: 上限值=子区域中的字符量X平均笔划量X字符笔划宽度 其中,子区域中的字符量指的是所述子区域的宽度与所述子区域的高度的比率; 所述平均笔划量是基于文档中使用的语言的预定值;以及 所述字符笔划宽度为所述第三字符行区域的宽度的十分之一。
29.根据权利要求17所述的系统,其中,所述预定数量为像素区域中的像素行的数量的至少70%。
30.根据权利要求16所述的系统,其中,所述第一分割单元利用基于图像的分割方法执行分割。
全文摘要
本发明公开了用于文档图像的行分割方法和系统。该方法包括第一分割步骤,用于对文本块进行分割,以得到包含至少一个像素区域的第一像素区域;空白区域去除步骤,用于检测所述第一像素区域中的每一像素区域中的各个像素行中的连续白像素序列的公共重叠部作为空白区域,以及将该空白区域从所述第一像素区域中的所述像素区域中去除,以得到第二像素区域;以及文本行分割步骤,用于利用第二像素区域来进行文本行分割。
文档编号G06K9/34GK103106405SQ20111035190
公开日2013年5月15日 申请日期2011年11月9日 优先权日2011年11月9日
发明者许梅芳, 前川浩司 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1