文字图象分行方法和装置以及文字图象识别方法和装置的制作方法

文档序号:6571259阅读:213来源:国知局
专利名称:文字图象分行方法和装置以及文字图象识别方法和装置的制作方法
技术领域
本发明涉及一种文字图象分行方法和装置,尤其涉及文字图象识别中的分行。
背景技术
图1A表示现有的文字图象识别算法的流程。图1B是现有技术的文字图象识别装置的一个示例结构图。首先在s101文字图象行切分装置112将输入装置111输入(如通过扫描)的文字图象分行;在s102字符切分装置113将每一行中的字符切分;字符特征提取和识别装置114在s103提取切分的字符的特征,在s104进行字符匹配识别;在s105输出装置115输出识别结果。在文字图象识别的方法中,图象分行的准确程度直接影响着最终文字识别结果的准确度。
现有的文字图象分行算法的过程如图2所示。首先在步骤s201将输入的文字图象沿水平方向按一定宽度(如400个象素宽)分成多个图象段;在步骤s202分别计算并记录每个图象段中的每条400象素宽的象素行中含有的黑色象素的个数;在步骤s203根据图象段中空白象素行(黑色象素的个数为0的象素行)的位置将图象段沿垂直方向拆分成多个段块,并且记录段块的信息,例如段块的宽度、高度、位置等;在步骤s204计算段块平均高度等信息,作为进一步拆分过大段块合并过小段块的标准;在步骤s205根据段块平均高度等信息将过大段块进一步拆分;在步骤s206检查段块,将过小段块并入邻近段块;在步骤s207根据段块的位置坐标,将段块整理成为行图象。
以图3的文字图象为例。图3在宽度的方向上可以分割为两个图象段。对于第一个图象段,每行象素的黑象素统计图如图4所示,其中横坐标表示图象段中象素行,纵坐标表示相应象素行中黑象素的数目。对于第二个图象段,每行象素中的黑象素数统计如图5所示。
当使用原算法(如图2所示)的流程对图3中的文字图象进行切分时,首先利用如图4和图5所示的每个象素行的象素分布统计,根据空象素行(黑象素数为0)分别将两个段切分成若干段块。然后根据这些段块的高度计算一次平均段块高度,并以此作为标准对切分后的各个段块进行再切分。对于每段中超过平均段块高度一定范围的过大段块,根据该段的黑象素统计图中的峰-谷关系,进一步拆分该过大段块。对于每段中低于平均段块高度一定范围的过小段块,将其并入邻近的段块。然而,由于原算法只计算了一次平均段块高度,而此后对高度在一定范围内超过这个平均段块高度的过大段块进行再切分之后,也不再重新计算新的平均段块高度,这显然是不合理的。结果是对于一些本来应当继续进行切分的段块高度进行检查时于其高度达不到需要切分的标准而被当成合理的段块送入下一流程(由行图象切分字符的流程),从而引起识别错误。
使用图2所示的流程对图3进行行图象切分后,字符识别结果如下

可见,由于行切分的错误,造成原本的21行有效文本行只被切分出8条,并且,由于这些行图象的位置、尺寸都存在错误,使得识别结果非常差。

发明内容
因此,本发明所要决的问题是,提高文字图象的行切分的准确性,特别是有一定噪声的文字图象的行切分的准确性,从而相应提高文字图象的识别的准确性。
为此,本发明提供了一种文字图象的分行方法,包括以下步骤分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。
本发明还提供了一种文字图象分行装置,其中包括分段装置,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计装置,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成装置,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成装置,用于将拆分的段块整理成行图象。本发明还提供了一种文字图象识别方法,其中包括以下步骤分行步骤,将输入的文字图象按照上述的文字图象分行方法分成行图象;字符切分和识别步骤,从分行步骤得到的行图象中提取字符并识别字符。本发明还提供了一种文字图象识别装置,其中包括上述文字图象分行装置,用于将输入的文字图象分成行图象;字符切分和识别装置,从图象分行装置得到的行图象中提取字符并识别字符。本发明还提供了一种计算机程序,由计算机执行以实现以下步骤分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。本发明还提供了一种存储媒体,其上存储有一程序用于执行以下步骤分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。


图1A是现有技术的文字图象识别方法的流程图;图1B是现有技术的文字图象识别装置的一个示例结构图;图2是现有技术的文字图象分行算法的流程图;图3是作为文字图象识别对象的一个文字图象实例;图4是象素分布统计图,表示图3所示文字图象的第一段中每个象素行中黑象素分布统计结果;图5是象素分布统计图,表示图3所示文字图象的第二段中每个象素行中黑象素分布统计结果;图6A和6B是根据本发明的文字图象分行方法的流程图;图6C是根据本发明的文字图象识别装置的结构图;图6D是根据本发明的文字图象分行装置的结构图;图7是象素分布统计图,表示对图3所示整个文字图象的每个象素行进行黑象素分布统计的结果。
具体实施例方式下面结合

本发明的实施方式。
通过对原算法的分析,可见当图象段中的噪音比较集中于某一区域时,会“遮盖”住该区域的空白象素行。如果噪音很多,还会进一步地缩小象素分布统计图中“波峰”和“波谷”之间的差距,使得对文本行位置的判断变得困难。为此,发明人提出了新的文字图象分行方法(图6A)。
如图6C所示,由文字图象输入装置601(如扫描仪等)将文字图象输入文字图象分行装置602进行文字图象的分行。字符切分装置603对行图象进行字符切分。字符特征提取和识别装置604对切分出的字符进行特征提取和识别。识别结果由输出装置605输出,用于显示、存储或文档处理等进一步处理。
文字图象分行装置602按照图6A所示的流程对文字图象进行分行。文字图象分行装置602的结构示例地表示在图6D中。
通过步骤S301至S309将文字图象段拆分成段块。
在步骤S301,分段装置611将输入的文字图象,如图3所示的文字图象,分成水平排列的多个图象段,每个段具有预定的宽度(如400个象素)。对于最后被划分的段,如果其宽度不到该预定宽度,可以算作一个段。
在步骤s302,象素分布统计装置612分别计算并记录每个图象段中的每条象素行中含有的黑色象素的个数,即每个图象段的象素分布统计,形成如图4和5中所示的象素分布统计图,其中横坐标表示象素行,纵坐标表示每个象素行中黑象素数目。
在步骤S303,象素分布统计装置612分别计算并记录整个图象中的每条象素行中含有的黑色象素的数目,即整个图象的象素分布统计,形成图7所述的象素分布统计图,其中横坐标表示整个图象的象素行,纵坐标表示每个象素行中的黑象素数目。
在步骤S304,段块形成装置613首先根据每个图象段的象素分布统计图中空白象素行(黑象素数为0的象素行)的位置,将图象段拆分成图象段块。同时记录段块信息,如段块的宽度、高度和位置等。
在步骤S305,计算所有段块的平均高度等,作为进一步拆分合并的标准。
对于一般的文字图象,一般在步骤S304不能将所有的文字行通过空白象素行分开。比如,在文字行之间经常存在“噪音”,如黑点等。因此,在步骤S306,根据段块平均高度等信息判断是否存在过大段块。对于过大段块根据该段块所在的段的象素分布统计,如用低到一定程度的“波谷”等作为拆分界线,对该过大段块进一步进行拆分,直到不能拆分为止。
在步骤S307,判断是否能根据该过大段块处的段象素分布统计对该过大段块进行成功拆分。如果拆分成功,则在步骤S309判断是否存在下一个段块,如果存在则重新计算段块平均高度,作为进一步拆分合并的标准,对下一个过大段块进行拆分。如果在步骤S307判断拆分不成功,则在步骤S308用整个图象的行象素分布统计拆分过大段块,直到不能拆分为止,然后前进到步骤S309。
通过步骤S310至S315对拆分出的段块进行进一步的拆分合并处理。
在步骤S310,用图象段的行象素统计信息拆分过大段块,直到不能拆分为止。
在步骤S311,如果判断不能成功拆分,比如由于该段块中存在较多的“噪音”而不能根据该过大段块处的图象段行象素统计信息对该过大段块进行进一步拆分,那么进行到步骤S312。在步骤S312用整个图象的行象素统计信息拆分过大段块。比如用整个图象的行象素分布统计图中低到一定程度的“波谷”等作为拆分界线,对步骤S310中不能拆分的段块进行拆分,直到不能拆分为止,然后进行到步骤S313,检查被拆分出的段块,将过小段块(即高度小到一定程度的段块)与相邻段块合并。如果在步骤S311判断能够根据图象段的行象素统计信息成功拆分过大段块,则进行到步骤S313,进行检查合并过小段块的处理。
在步骤S314,行图象形成装置614根据段块的位置将拆分出的段块整理成行图象。在步骤S315,判断是否还存在下一个未处理的段块。如果所有段块都被步骤S310至S314处理过,则对所有整理出的行图象进行后续的处理,如字符切分处理、字符识别处理等,以完成对文字图象的识别。
我们可以看到,本发明的方法的改进主要在以下两个部分1.引入了每个图象段和全图象的行象素分布统计。它的优点是当“噪音”只集中于图象的某个区域时,在全图象(行方向)范围内的象素分布统计不会因为某一个区域的噪音多少而被过多地影响,从而“拉开”了“波峰”与“波谷”之间的距离,便于进一步地区分文本行之间的界线;2.改进了行切分的流程。原来的算法只计算一次平均段块高度,而当尺寸过大段块被进一步切分后,也不再重新计算平均段块高度,这显然是不合理的。改进后的算法在切分每个过大段块之后,都重新计算一次平均段块的高度,使得对合理段块高度的判断更加准确。
使用图6所示的流程对图3进行切分后,识别结果如下

可以看到,所有的21个文本行都被正确切分了。从而由于更正确地切分文本行而直接提高了文字图象识别的准确性。
以上,结合具体实例示例性地描述了本发明,但本发明的主旨并不局限于该实例,而应当由所附的权利要求来体现和概括。
在以上实施例中,具有上述结构的文字图象识别装置是由执行程序读取的计算机实现的。该计算机包括用于执行计算处理的CPU;在读取程序之后作为工作区域的RAM;记录介质,用于存储程序和存储用于执行对应于流程图的方法的各种数据,比如硬盘,ROM,和可拆除的盘(如软盘,CD-ROM等);键盘以及点击设备用于执行各种操作;显示器,用于显示被处理的文本;以及网络接口用于连接网络。用于操作CPU的程序可以是从所述记录介质提供的,或者是通过网络从外部设备读取的。而且,在上述实施例中,本发明是由计算机的程序执行实现的,但是该程序的部分或全部可以由硬件构成。
权利要求
1.一种文字图象分行方法,包括以下步骤分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。
2.根据权利要求1的文字图象分行方法,其特征在于在段块形成步骤中首先以图象段的象素分布中的空白象素行作为界线,将图象段拆分为段块。
3.根据权利要求1的文字图象分行方法,其特征在于在段块形成步骤中,获得拆分的段块的平均段块高度,来判断是否存在过大段块。
4.根据权利要求3的文字图象分行方法,其特征在于对于过大段块,根据图象段的象素分布和整个图象的象素分布,拆分为合理的段块。
5.根据权利要求1的文字图象分行方法,其特征在于在段块形成步骤中,获得段块的平均段块高度,来判断是否存在过小段块,将过小段块与相邻段块合并。
6.根据权利要求3至5中任何之一所述的文字图象分行方法,其特征在于拆分每个过大段块之后,重新计算一次段块平均高度,用于以后判断段块是否合理。
7.一种文字图象识别方法,包括以下步骤分行步骤,将输入的文字图象按照权利要求1的文字图象分行方法分成行图象;字符切分和识别步骤,从分行步骤得到的行图象中提取字符并识别字符。
8.一种文字图象分行装置,包括分段装置,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计装置,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成装置,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成装置,用于将拆分的段块整理成行图象。
9.根据权利要求8的文字图象分行装置,其特征在于段块形成装置首先以图象段的象素分布中的空白象素行作为界线,将图象段拆分为段块。
10.根据权利要求8的文字图象分行装置,其特征在于段块形成装置获得拆分的段块的平均段块高度,用于判断是否存在过大段块。
11.根据权利要求10的文字图象分行装置,其特征在于段块形成装置根据图象段的象素分布和整个图象的象素分布,将过大段块拆分为合理的段块。
12.根据权利要求8的文字图象分行装置,其特征在于段块形成装置获得段块的平均段块高度,来判断是否存在过小段块,将过小段块与相邻段块合并。
13.根据权利要求3至5中任何之一所述的文字图象分行装置,其特征在于段块形成装置在拆分每个过大段块之后,重新计算一次段块平均高度,用于以后判断段块是否合理。
14.一种文字图象识别装置,包括根据权利要求8的文字图象分行装置,用于将输入的文字图象分成行图象;字符切分和识别装置,从图象分行装置得到的行图象中提取字符并识别字符。
15.一种计算机程序,由计算机执行以实现以下步骤分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。
16.一种存储媒体,其上存储有一程序用于执行以下步骤,分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。
全文摘要
一种文字图象分行方法,包括以下步骤分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。根据该方法,提高了文字图象的行切分的准确性,特别是有一定噪声的文字图象的行切分的准确性,从而相应提高了文字图象的识别的准确性。
文档编号G06K9/20GK1410943SQ01140938
公开日2003年4月16日 申请日期2001年9月27日 优先权日2001年9月27日
发明者罗兆海, 李毅 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1