在光学字符识别(ocr)过程中的段落识别的制作方法

文档序号:6359838阅读:421来源:国知局
专利名称:在光学字符识别(ocr)过程中的段落识别的制作方法
在光学字符识别(OCR)过程中的段落识别
背景技术
光学字符识别(OCR)是文本的图像到如机器可编辑文本的数字形式的基于计算机的转化,通常是按照标准编码方案的。这个过程消除了对将文档人工打字输入到计算机系统的需要。由于图像质量差、由扫描过程引起的缺陷等等,会引发许多不同的问题。例如,常规的OCR引擎可以被耦合到用来扫描文本的页的平板扫描仪。因为页被相对扫描仪的扫描面齐平地放置,所以由扫描仪生成的图像典型地呈现均匀的对比度和照度、减小的扭曲和失真、以及高分辨率。因此,OCR引擎可以容易地把图像中的文本转化成机器可编辑的文本。然而,当图像在对比度、照度、扭曲等等方面具有较差的质量时,OCR引擎的性能可能会恶化,并且处理时间可能会由于对图像中的所有像素进行处理而增加。例如当图像是从书本得到时或当图像是由基于图像的扫描仪生成时,情形可能是这样,因为在这些情形中,文本/图片是从一定的距离、从变化的取向和在变化的照度下被扫描的。即使扫描过程的性能是好的,当质量相对较差的文本页被扫描时,OCR引擎的性能也可能恶化。因此,为了以相对较高的质量执行0CR,典型地需要许多个别的处理步骤。

发明内容
光学字符识别(OCR)过程的一个方面牵涉到段落检测。段落检测典型地将在文本图像中的文本行通过它们各自的边界框的坐标识别后被执行。在一个实现中,段落检测过程把页上的所有文本行分为以下的两个类别之一“开始段落行”类别和“继续段落行”类另IJ。开始段落行跟随在具有硬换行(line break)的行后面,而继续段落行跟随在具有的换行不是硬换行的行后面。然后,各个段落被标识。每个段落包括位于两个连续的开始段落行之间的所有行以及两个连续的开始段落行中的第一个开始段落行。在一个特定的实现中,在进行文本行分类之前,段落检测过程按照行在页上的布局把每个输入页分类成两种类别之一。这些类别是诗页类别(代表包括诗歌的页)和正文页类别(代表包括散文的页)。在另一个特定的实现中,已被识别的段落通过它们呈现的对齐的类型而被分类。例如,段落可以按照它们是左对齐、右对齐、居中对齐还是两端对齐而进行分类。本概要被提供来以简化的形式介绍概念的选择,这些概念在下面的详细描述中进一步描述。本概要既不打算标识所要求保护的主题的关键特征或必要特征,也不打算被用来帮助确定所要求保护的主题的范围。


图I显示用于在文本图像上执行光学字符识别(OCR)的系统的一个说明性例子。图2和3每个图显示两个段落,用于说明换行或硬换行的含义。图4显示被页眉和页脚中断的文本片段。图5显示左对齐的段落的例子。图6显示右对齐的段落的例子。
图7显示居中对齐的段落的例子。图8显示两端对齐的段落的例子。图9是显示段落检测过程的一个例子的流程图。图IOa和IOb分别显示正文页和诗页的例子。图11显示可以执行段 落检测的图像处理设备的一个例子。图12显示文本的说明性部分,其中行分类部件已经把每行分类为开始段落行或继续段落行,如由在每行开始处的字母“B”或“C”表示的。
具体实施例方式图I显示用于文本图像的光学字符识别(OCR)的系统5的一个说明性例子。系统5包括用来生成文档15的图像的数据捕获装置(例如,扫描仪10)。扫描仪10可以是基于图像的扫描仪,它利用电荷耦合器件作为图像传感器来生成图像。扫描仪10处理图像来生成输入数据,并把输入数据传送到处理装置(例如,OCR引擎20),以便进行图像内的字符识另IJ。在这个具体的例子中,OCR引擎20被合并到扫描仪10中。然而,在其它的例子中,OCR引擎20可以是单独的单元,诸如独立的单元,或者是被合并到诸如PC、服务器等等的另外的设备的单元。OCR引擎20接收文本图像作为文本行的位图。图像可以是文本的扫描图像或数字文档,诸如PDF或微软Word文档,其中输入数据已是可得到的。如果这样的输入数据是不可得到的,则OCR引擎的段落检测部件被假设为从OCR引擎的其它部件接收图像作为输入,在该图像中,文本行(和可能的单词)的列表已经被针对该图像的每页进行标识。各个行和单词分别由行和单词边界框限定。边界框本身由针对每个边界框建立的一组坐标限定。因此,可得到关于单词如何被组织成行和行如何被组织成区域的信息,以确立行读取次序。段落检测因为许多原因可能是OCR过程的困难的方面。首先,OCR过程对于所提取的内容不执行任何语义分析。另外,由段落检测部件接收的输入图像的质量通常不完美。例如,某些单词和数可能被错误识别,某些行甚至可能一起丢失。页也可能被剪切,并且剪切框相对于页的位置可能不是固定的。而且,在单个图像或页中的不同段落可能具有不同的特征,举例而言,比如不同的对齐。因此,段落检测过程对于不同类型的输入页可以产生不同的结果。最后,段落本身可能具有复杂的结构。例如,段落可以跨越多个列或页和/或包含项目符号列表(bulleted list)等等。在着手描述段落识别过程之前,将介绍关于段落的许多定义,请记住,可以使用与这里给出的、仅仅作为说明的那些定义不同的对于段落的定义。定义I :换行是在文本流中规定从一行到另一行的转换的位置。定义2 :硬换行是在文本流中与文本格式安排和再现(例如,改变微软Word文档中的字体大小)无关地命令转换到新行的位置。通过参考图2上的例子(其包含两个段落)可以更好地理解这些定义。第一段落由带有一个换行的一行组成。第二段落由带有2个换行的2行组成。图3显示与图2上相同的两个段落。然而,在图3上,字体大小被增大而同时保持页边距相同。图3上的第一段落由带有2个换行的2行组成,以及第二段落由带有3个换行的3行组成。因此,在增大字体大小后,2个换行仍旧是相同的(一个换行在单词“another”后面,另一个换行在单词“rendering”后面)。根据这个信息,明显的是有两个与文本格式安排无关的硬换行,以及所有的其它换行是文本再现的结果。定义3 :段落是用在第一行前面的硬换行(除了文档中的第一段落外)和在最后一行后面的硬换行(除了最后的段落外)进行定界的一组行。在这两个硬换行之间没有另外的硬换行。应当强调另外的一点。应当在不中断的文本流的上下文中观看段落。单个段落不能被拆分,这暗示段落应当是连续的一组行。在逻辑上中断正常的文本流的所有文本片段不应当被看作是被包括在段落中的不中断的文本流的一部分。在文本片段中的中断的例子在图4上给出。显然,在图4顶部处显示的第一页底部的最后一段被页脚(在本例中的脚注)中断。同样地,这个相同的段落然后再次被第二页的顶部处的页眉中断。页眉和页脚是不属于段 落的文本流的文本片段,在检测“包装的(wrapping)”段落(S卩,跨越两页或更多页的段落)时,它们应当被排除。关于中断文本流流动的文本片段(例如,页眉、页脚、图像字幕等等)的信息被包含在使得对于来自OCR引擎的其它部件的段落部件来说可得到的信息内。这样的信息归入到被使用来确立以上提到的行读取次序的信息的类别中。段落检测的一方面是段落对齐的检测。对于段落对齐的可能安排是
左对齐
右对齐 居中对齐 两端对齐。左对齐的段落的例子显示于图5。左对齐的段落满足以下条件。一个左对齐的段落满足以下两个条件。I)在第一行后面的所有行具有相同的左边距(见图5的线410)。2)第一个单词的宽度加上它的相邻的空白区域大于前一行的右缩进(即,从前一行中的最后一个单词到该行的右边距的距离,右边距在图5上用线420表示)。在图5上,第二个条件被满足,因为单词“exc印t”加上它的相邻的空白区域大于从前一行中的单词“line”到右边距的距离。右对齐段落的例子显示于图6。右对齐段落满足以下条件
I)在第一行后面的所有行具有相同的右边距(见图6的线520)。2)第一个单词的宽度加上它的相邻的空白区域大于前一行的左缩进(即,从前一行中的第一单词到它的左边距的距离,左边距在图6上用线510表示)。在图6上,第二个条件被满足,因为单词“exc印t”加上它的相邻的空白区域大于从前一行中的单词“Definition”到左边距的距离。居中对齐段落满足以下条件
I)所有的行被居中对齐(即,在一行中最左面和最右面的单词分别离左边距和右边距的距离是相同的)。居中对齐段落的例子显示于图7。两端对齐的段落的例子显示于图8。两端对齐的段落满足以下条件
I)在第一行后面的所有行具有相同的左边距(见图8的线610)。2)在最后一行前面的所有行具有相同的右边距(见图8的线620)。
假定有上述的定义,现在可以参照图9中的流程图描述段落检测过程。过程从步骤110通过以下方式开始按照在页上的行的布局把每个输入页分类成两个类别(“诗页”类别和“正文页”类别)之一。接着,在步骤120,段落检测部件把在页上的所有文本行分类成两个类别(“开始段落行”类别和“继续段落行”类别)之一。最后,在步骤130,在两个连续的“开始段落行”之间的所有行被看作为创建一个段落(不包括第二个“开始段落行”)。在OCR引擎检测段落以后,段落对齐被检测。正文页的例子显示于图IOa,以及诗页的例子显示于图10b。图11显示可以执行段落检测过程的图像处理设备300的一个例子。可被合并在OCR引擎中的设备300可以被OCR引擎使用来检测和分类在文本图像中的段落。该设备包括输入部件302,用于接收输入图像;和页分类部件310,用于把每个输入页分类为“诗页”类别或“正文页”。段落检测部件320把在页上的所有文本行分类为“开始段落行”或“继续段落行”。设备300还包括段落创建部件330,其创建在两个连续的开始段落行之间的段落;和段落对齐部件340,其确定段落对齐的方式。设备300还包括输出部件350,其按照以下形式生成关于段落的信息,即该形式允许信息被OCR引擎的随后的部件利用。 页分类
第一步骤是把页分类成两个预定义的类别之一“诗页”类别和“正文页”类别。这个分类过程可以通过检查下面列出的某些或所有的特征而完成,每个特征更可能指示所述页是诗页还是正文页。应当指出,没有单个特征可能是决定性的。相反,是由所有特征提供的证据的集合体才是重要的。还应当指出,特征的这个列表不是穷举的,而是仅仅作为例子被
全A屮
5 口 QQ oI.以小写字体的小写字母开始的行的相对数量。2.以数字结尾(即,最后一个单词是数字)的行的相对数量。3.以非字母数字字符结尾(而是以如‘,’,‘;’…等等的标点符号结尾)的行的相对数量。4.行高度的密度(通过使用页高度、文本高度和在页上的行数量而计算的)。5.作为文本的某个大的部分的中间行(例如,两端对齐的段落的中间行)的行的相
对数量。以上的利用行的相对数量的定义涉及到满足某种条件的行的数量除以在页上的行的总数。行高度的密度例如可被定义为页高度除以文本高度与页上行数量这两者的乘积。通常,当对于上面指出的项1,4和5的值增大时,页更可能是正文页,而在对于项2和3的值增大时,更多地指示诗页。当执行分类过程时应当给予以上因素的各种值的权重可以通过使用训练模式去建立表征诗和正文页的特征值的各种组合而被确定。一旦这被确定,对于这些特征的值可被使用来对经历OCR的未知类型的页进行分类。虽然通常从所有这些特征的检查将得到最大的精确度,但在一些情形下,检查各种子组合可能就足够了。段落检测部件可以利用诸如神经网络或判决树那样的机器学习技术来提高分类过程的精确度。行分类
用于把每个文本行分类为开始段落行或继续段落行的分类过程可以通过检查下面列出的某些或所有的特征而完成,每个特征更可能指示该行是开始段落行或是继续段落行。开始段落行是跟随在硬换行后面的行,而继续段落行是跟随在非硬换行的换行后面的行。再次地,应当指出,没有单个特征可能是决定性的。相反,是由所有特征提供的证据的集合体才是重要的。还应当指出,特征的这个列表不是穷举的,而是仅仅作为例子被给出。然而,为了清晰起见,紧接在下面枚举的特征的完全集被称为主要行特征集。在某些实现中,可以利用在主要行特征集中过半数的(a simple majority)特征。通常,这些特征至少部分根据每个文本行相对于图像的页上的其它文本行的布局,把文本行分类为开始段落行或继续段落行。在诗页上使用的精确的分类过程通常将与在正文页上使用的过程不同。然而,所使用的特征对于二者可以是相同的。也就是,二者都可以使用主要行特征集,它由表征各个行的以下的特征规定
I.所述行是页上的第一行吗。2.前一行是以项目符号开始吗。·3.当前行是以项目符号开始吗。4.下一行是以项目符号开始吗。5.前一行是以大写字母开始吗。6.当前行是以大写字母开始吗。7.下一行是以大写字母开始吗。8.前一行是以小写字体的小写字母开始吗。9.当前行是以小写字体的小写字母开始吗。10.下一行是以小写字体的小写字母开始吗。11.对于当前行和前一行的相对字符宽度。如果对于当前行的字符宽度是CW以及对于前一行的字符宽度是PW,则这个值是
CW-PlV ~CW~
12.对于当前行和下一行的相对字符宽度。如果对于当前行的字符宽度是CW以及对于下一行的字符宽度是NW,则这个值是
CW-NW~CW~
13.对于当前行和前一行的相对字符高度。如果对于当前行的字符高度是CH以及对于前一行的字符高度是PH,则这个值是
CH-PH ~CH~
14.对于当前行和下一行的相对字符高度。如果对于当前行的字符高度是CH以及对于下一行的字符高度是NH,则这个值是
CH-MH ^CH^
15.对于当前行和前一行的相对左缩进。如果对于当前行的中值字符宽度是MCW以及对于当前行与前一行的左缩进是LIC与LIP,则这个值是
LIC-LlP
MCW
16.对于当前行和下一行的相对左缩进。如果对于当前行的中值字符宽度是MCW以及对于当前行与下一行的左缩进是LIC与LIN,则这个值是
LIC - LlN MCW
17.对于前一行和下一行的相对左缩进。如果对于当前行的中值字符宽度是MCW以及对于前一行与下一行的左缩进是LIP与LIN,则这个值是
LlP-LlN
MCW
18.当前行具有比前一行更大的左坐标。19.当前行具有比下一行更大的左坐标。20.对于当前行和前一行的相对右缩进。如果对于当前行的中值字符宽度是MCW以及对于当前行与前一行的右缩进是RIC与RIP,则这个值是
RIC-RIP
MCW
21.对于当前行和下一行的相对右缩进。如果对于当前行的中值字符宽度是MCW以及对于当前行与下一行的右缩进是RIC与RIN,则这个值是
RIC - RIN
MCW
22.对于前一行和下一行的相对右缩进。如果对于当前行的中值字符宽度是MCW以及对于前一行与下一行的右缩进是RIP与RIN,则这个值是
RlP-RIN
MCW
23.当前行具有比前一行更大的右坐标。24.当前行具有比下一行更大的右坐标。25.当前行和前一行之间的相对距离。如果对于当前行的中值字符高度是MCH以及当前行与前一行之间的距离是DCP,则这个值是
DCP
MCH
26.当前行和下一行之间的相对距离。如果对于当前行的中值字符高度是MCH以及当前行与下一行之间的距离是DCN,则这个值是
DCN
MCH
27.前一行与下一行之间的距离比
权利要求
1.一种用于检测在文本图像中的段落的图像处理设备,包括 输入部件,用于接收其中文本行和单词已被标识的输入图像; 页分类部件,用于把输入图像分类为第一或第二页类型; 段落检测部件,用于把在输入图像上的所有文本行分类为开始段落行或继续段落行;以及 段落创建部件,用于创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。
2.权利要求I的图像处理设备,还包括段落对齐部件,用于按照它的对齐来分类段落的每一个。
3.权利要求I的图像处理设备,其中第一页类型是诗页,以及第二页类型是正文页。
4.权利要求3的图像处理设备,其中页分类部件被配置成至少部分根据文本行的特征把输入图像分类为诗或正文页,所述文本行的特征包括在图像上以小写字体开始的行的相对数量;以数字结尾的行的相对数量;不是以字母数字字符结尾的行的相对数量;行高度的密度;和作为在图像的被选择部分内的中间行的行的相对数量。
5.权利要求I的图像处理设备,其中段落检测部件被配置成至少部分根据主要行特征集把在输入图像上的所有文本行分类为开始段落行或继续段落行。
6.权利要求5的图像处理设备,其中段落检测部件被配置成至少部分根据在主要行特征集中的大多数特征把在输入图像上的所有文本行分类为开始段落行或继续段落行。
7.权利要求2的图像处理设备,其中段落对齐部件被配置成按照段落是左对齐、右对齐、居中对齐还是两端对齐来分类段落的每一个。
8.权利要求7的图像处理设备,其中段落对齐部件被配置成至少部分根据特征来分类段落的每一个,所述特征包括在段落中的行数;在段落中的行是否左对齐;在第一行后面的段落中的行是否具有共同的左边距;在段落中的行是否右对齐;在第一行后面的段落中的所有行是否具有共同的右边距;在段落中的行是否居中对齐;在段落中的所有行是否具有共同的中心坐标;左面区域的缩进值;右面区域的缩进值;从段落右边缘到右面区域的距离;段落在图像的页上的区域内的中心位置;左面页缩进;右面页缩进;段落在页内的中心位置;在段落的左面或右面存在或不存在图像区域;以及前一个段落的计算的对齐值。
9.一种用于检测在文本图像中的段落的方法,包括 接收其中文本行和单词已被标识的输入图像; 把输入图像分类为第一或第二页类型; 把在输入图像上的所有文本行分类为开始段落行或继续段落行;以及 创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。
10.权利要求9的方法,还包括按照它被对齐的方式来分类段落的每一个。
11.权利要求9的方法,其中第一页类型是诗页,以及第二页类型是正文页。
12.权利要求9的方法,其中分类图像包括至少部分根据文本行的特征把输入图像分类为诗或正文页,所述文本行的特征包括在图像上以小写字体开始的行的相对数量;以数字结尾的行的相对数量;不是以字母数字字符结尾的行的相对数量;行高度的密度;和作为在图像的被选择部分内的中间行的行的相对数量。
13.权利要求9的方法,其中分类所有的文本行包括至少部分根据主要行特征集把在输入图像上的所有文本行分类为开始段落行或继续段落行。
14.权利要求9的方法,其中分类所有的文本行包括至少部分根据在主要行特征集中的大多数特征把在输入图像上的所有文本行分类为开始段落行或继续段落行。
15.权利要求14的方法,其中段落的每一个按照段落是左对齐、右对齐、居中对齐还是两端对齐而被分类,并且还至少部分根据特征来分类段落的每一个,所述特征包括在段落中的行数;在段落中的行是否左对齐;在第一行后面的段落中的行是否具有共同的左边距;在段落中的行是否右对齐;在第一行后面的段落中的所有行是否具有共同的右边距;在段落中的行是否居中对齐;在段落中的所有行是否具有共同的中心坐标;左面区域的缩进值;右面区域的缩进值;从段落右边缘到右面区域的距离;段落在图像的页上的区域内的中心位置;左面页。
全文摘要
用于检测在文本图像中的段落的图像处理设备包括输入部件,用于接收其中文本行和单词已被标识的输入图像;和页分类部件,用于把输入图像分类为第一或第二页类型。该设备还包括段落检测部件,用于把在输入图像上的所有文本行分类为开始段落行或继续段落行。设备还被提供有段落创建部件,用于创建包括两个连续的开始段落行之间的文本行,包括所述两个连续的开始段落行的第一个开始段落行的段落。已被识别的段落可以通过它们呈现的对齐的类型而被分类。例如,段落可以按照它们是左对齐、右对齐、居中对齐还是两端对齐而进行分类。
文档编号G06K9/03GK102782702SQ201180013187
公开日2012年11月14日 申请日期2011年3月8日 优先权日2010年3月10日
发明者A.乌泽拉奇, B.拉达科维奇, S.加利奇 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1