检测文本行图像中的断字位置的制作方法

文档序号:6360136阅读:191来源:国知局
专利名称:检测文本行图像中的断字位置的制作方法
检测文本行图像中的断字位置
背景技术
光学字符识别(OCR)是一种基于计算机来将文本图像转换成数字形式的处理,该数字形式是通常采用标准编码方案的机器可编辑文本。这种处理消除了将文档手动键入计算机系统的需要。由于图像质量低劣以及扫描处理引入的瑕疵等等,有可能出现很多不同的问题。例如,常规的OCR引擎可以与扫描文本页面的平面扫描仪耦合。由于该页面是对着扫描仪的扫描表面齐平放置的,因此,扫描仪产生的图像通常会呈现均匀的对比度和光照度、减小的倾斜和失真以及很高的分辨率。由此,OCR引擎能够很容易将图像中的文本转换成机器可编辑文本。然而,当图像在对比度、光照度、倾斜等方面的质量低劣时,OCR引擎的性能有可能降低,并且,由于要对图像中的所有像素进行处理,因此,处理时间有可能增力口。举例来说,此类情形有可能在从书籍中获取图像或者用基于图像的扫描仪产生图像的 时候出现,其中的原因在于在这些情况下,文本/图片是在光照度改变的情况下从某个距离以及变化的方位扫描的。在扫描质量相对较差的文本页面的时候,即便扫描处理性能良好,OCR引擎性能也有可能降低。本背景技术部分是为了介绍关于后续发明内容和具体实施方式
部分的简要背景而被提供的。本背景技术部分既不打算用于帮助确定所要求保护的主题的范围,也不应被视为是将所要求保护的主题局限于解决上文所给的任一或所有缺陷或问题的实施方式。

发明内容
通过从输入中提取特征以便定位中断(break),以及随后将这些中断归类到包括单词间中断和字符间中断在内的两种中断分类之一,来执行OCR处理中的行分割,从而检测出单词在输入文本行图像中的位置。然后,包含了检测到的单词边界框的输出以及给定中断属于所识别分类的概率可被提供给下游的OCR或其他组件,以便进行后期处理。非常有利的是,通过将行分割处理缩减成特征提取,可以在不丧失一般性的情况下降低行分割任务的复杂度,其中所述特征包括每个中断的位置,中断特征数量以及中断分类。在说明性示例中,实现特征化(f eaturi zat ion )组件和中断分类器的行分割引擎是被配置在一种无单词识别能力的架构中的。在该架构中,行分割引擎被置于预处理级(例如,所述预处理级从扫描文档中产生输入的灰度级文本行图像)与独立的单词识别器之间,其中单词识别器通常不考虑校正分类器产生的任何单词间中断差错。在一个替换架构中,行分割引擎和单词识别器是整合部署的。在后一个架构中会从对于给定文本行检测到的中断中产生一个断字(word break)网格(lattice)。该网格中的每个单词都被单词识别器检测,并且可以提取出单词识别特征,例如单词置信度、字符置信度、单词频率、语法及单词长度。然后,断字定向搜索(beam search)引擎使用所提取的单词和中断特征,以便通过在决策过程中使用比独立架构更多的信息来选择更优的行分割。从文本行图像中可以提取不同的特征组合,以便用于特征化处理,这其中包括绝对特征,相对行特征,相对中断特征,相对笔墨特征,相对笔墨-笔墨特征,相对中断邻近度特征,以及单词识别特征。多种中断分类器都是可以使用的,这其中包括判定树分类器,AdaBoost分类器,群集分离器,神经网络分类器,以及迭代梯度下降分类器。本发明内容是为了以简化形式介绍精选概念而被提供的,在以下的具体实施方式
部分中将会进一步描述这些概念。本发明内容的目的既不是确定所要求保护主题的关键特征或基本特征,也不是用来帮助确定所要求保护的主题的范围。


图I显示了说明性的行分割引擎的简化功能框图;
图2显示了具有“笔墨”投影的说明性中断分类示例;
图3显示了可以在当前的行分割处理的特征化阶段中使用的特征的说明性分类;
图4显示了说明性的绝对特征集合;
图5显示了所有中断宽度的说明性分布;
图6显示了基线、平均线以及用于例示单词的X高度的图形表示;
图7显示了笔墨-笔墨特征集合的说明性示例;
图8显示了说明性的笔墨-笔墨宽度分布;
图9显示了说明性的相对行特征集合;
图10显示了说明性的相对中断特征集合;
图11显示了说明性的相对笔墨特征集合;
图12显示了说明性的相对笔墨-笔墨特征集合;
图13显示了说明性的相对中断邻近度特征集合;
图14显示了说明性的单词识别特征集合;
图15显示了说明性的分类器集合,其中一个或多个分类器可以与图3所示特征的一个或多个子集一起使用;
图16显示了例如如OCR系统中那样由行分割引擎向外部的单词识别器提供输出的第一说明性架构;
图17显示了整合部署了行分割引擎和单词识别器的第二说明性架构;以及图18是个人计算机(PC)或服务器之类的可以实现当前的行分割处理的说明性计算机系统的简化框图。在附图中,相同的参考数字指示相同的元件。
具体实施例方式图I显示了一个说明性的高级行分割架构100,其中该图高亮显示了这里的行分割技术的特征。在说明性示例中,行分割技术可以用架构100中的方框110所代表的引擎来实现,其中所述架构包括特征化组件120以及分类器130,并且通常来说,这些组件分别实现了特征化和分类算法。如所示,文档行分割引擎110的输入是经过预处理的单个文本行的灰度级图像140。所述输入图像经过了必要程度的预处理,以便消除或移除背景颜色变化并用白色将其替换。前景色也被称为“笔墨”,它会被转换成灰度级。行分割引擎的输出是检测到的一个或多个单词150的集合,这其中包含了通常用边界框160表示的单词位置(也就是说,每个个别的单词都具有一个边界框)以及用于每一个输出边界框的相关联的置信度因子170。
与必须为给定文本行图像中的每个单词直接检测单词边界框的坐标不同,这里的行分割技术的功能是将每个中断归入两个中断分类之一。在文本行图像中的某个位置,如果在该位置可以在没有遇到(即“接触笔墨”的情况下绘制一条从该行的顶到底的直线,则表明在该位置存在一个中断。一种用于说明中断含义的替换方式是垂直投影所述笔墨。在这种情况下,笔墨投影为空(也就是没有投影笔墨)的位置将会存在中断。在图2中图示了这种替换说明。顶部的行包括例示的文本行图像210。中间的行显示了笔墨投影220,底部的行则显示了笔墨投影为空的中断230。正如在图2中能观察到的,只有两个中断分类,即单词间中断(用参考数字240来代表)和字符间中断(用参考数字250来代表)。非常有利的是,通过提取包括每个中断的位置和中断特征数量在内的文本行图像特征,可以降低行分割问题的复杂度。此外,经验显示,使用这里的行分割处理不会导致丧志一般性。相应地,图I的行分割引擎110是在特征化和分类这两个阶段中实现中断分类 的,并且将会返回每个中断的目标分类以及给定中断属于该目标分类的概率。举例来说,该技术可以应用于拉丁语、西里尔字母、希腊语以及东亚手写体。应该指出的是,并不是所有字符间中断250都必须存在,以便使用这里的技术来实现令人满意的行分割,而是只有相对较高的百分比(例如试验确定的99. 5%)的单词间中断240。在被称为“软断字”的后期处理步骤中可以解决这种行分割处理产生的不精确度,例如假阳性单词间误分类,其中所述步骤是作为单词识别器组件的一部分实现的。以下将转而讨论本技术的特征化和分类阶段。特征化——特征化可被定义成是从输入的文本行图像中提取数值特征的处理。在使用该定义的情况下,特征化处理是公知并且是可以直接考虑的。然而,正如在图3-5以及8-14中列举的,有可以很有利地与这里的行分割处理一起使用的特定特征。更具体地说,图3显示了可以在特征化阶段使用的特征分类300。需要强调的是,在任何给定使用情景中使用的特定特征都是可以改变的。此外,并不是所显示和描述的所有特征都必须在每种情形中被使用。取而代之的是,使用这些特征的子集可以更优地适应于这里的行分割处理的特定实施方式的需要。如图3所示,特征化组件120可以使用落入不同特征类别的多种特征。这些特征 包括绝对特征(用参考数字SOO1表示)、相对行特征3002、相对中断特征3003、相对笔墨特征3004、相对笔墨-笔墨特征3005、相对中断邻近度特征3006以及单词识别特征300n。在图4中显示了一个说明性的绝对特征集合400。该集合400包括用像素量度的给定文本行图像中的每个中断的中断宽度(如参考数字400:所示)。此外,以像素为单位的所有中断宽度的分布3002也是可以使用的。如图5所示,所有中断宽度的给定分布4002可以包括该分布的第90百分位(the 90th percentile) SOO1、该分布的第50百分位5002、该分布的第10百分位5003以及文本行图像中的中断数量500n。回到图4,绝对特征集合400还包括被定义成是基线与平均线之间差值的X高度4003,其中基线是文本行图像中的大部分字符“坐落”于其上的线,平均线则“悬挂了 ”大多数字符的线。在图6中使用了分别由参考数字610、620和630指示的蓝线、绿线和红线来示出以上定义的平均线、X高度及基线。绝对特征集合400还包括用像素量度的笔划宽度4004,以像素为单位的文本行图像高度4005、以像素为单位的文本行图像宽度4006、总的中断宽度4007 (它是以像素为单位的所有中断的总和)、以像素为单位的笔墨宽度4008、以像素为单位的笔墨高度4009、以像素为单位的笔墨-笔墨宽度的分布4001(|以及笔墨-笔墨面积400n。对于笔墨-笔墨特征(4001(|和400N)来说,在这里将对图7加以关注,在该图中用放大视图呈现了来自图2的文本行图像的第一个单词(用参考数字700指示)。该示例考虑了第一和第三个中断(这两者都是字符间中断,但是同样的说明适用于任何单词间中断)。第一和第三个中断是用红色显示的(为了获得更好的可见性,其被显示成两个红色阴影并且分别用参考数字710和720指示),作为跨越任何给定中断而将两个笔墨相连的水平线,所述中断是有效的笔墨-笔墨线,但仅仅对于所论述的两个笔墨的共有水平像素而言。由此,举例来说,由于右上角的墨水像素没有左侧对应部分,因此,第三个中断中的紫线730是无效的笔墨-笔墨线,这样一来,紫线730将会跨越绿线740 (中断边界)。此外,为了保持有效,笔墨-笔墨线不能跨越其他中断。由此,举例来说,第三个中断中的蓝线750将会跨越绿色中断边界线。所以,虽然同时存在左侧和右侧的像素对应部分,但是蓝线750不是有效的笔墨-笔墨线。 一旦定义了笔墨-笔墨线,则可以为每个中断建立一个笔墨-笔墨线宽度的分布。可以观察到的是,笔墨-笔墨线宽度的第0百分位(最小值)通常大于或等于实际中断。在图7中用第一个中断710对此进行了展示。相应地,如图8所示,在绝对特征SOO1中,笔墨-笔墨宽度分布4001(|可以包括作为最大值的分布的第100百分位(用参考数字SOO1指示),分布的第90百分位8002,作为中间值的分布的第50百分位8003,分布的第10百分位8004,以及作为最小值的分布的第0百分位800n。如图9所示,举例来说,相对行特征3002可以包括处于输入的文本行图像中的估计字符数量900115该数量是文本行图像中的字符数量的近似值,其中所述数量是作为(文本行图像宽度-总的中断宽度)/x高度来计算的。相对行特征3002还可以包括依据估计数量的字符的中断数量9002。它是作为给定文本行图像中的中断数量/估计字符数量来计算的。相对行特征3002还可以包括依据行宽度的所有中断宽度9003。它是作为总的中断宽度/文本行图像宽度来计算的。依据X高度的中值中断宽度900n同样可以包含在相对行特征3002中。它是作为中断分布的第50百分位/x高度来计算的。如图10所示,举例来说,相对中断特征3003可以包括依据X高度的中断宽度IOOO10它是作为中断宽度/x高度来计算的。相对中断特征3003还可以包括依据中断分布的第90百分位的中断宽度10002。它是作为中断宽度/中断分布的第90百分位来计算的。相对中断特征3003还可以包括依据中断分布的第50百分位的中断宽度10003。它是作为中断宽度/中断分布的第50百分位来计算的。更进一步,相对中断特征3003还可以包括依据中断分布的第10百分位的中断宽度10004。它是作为中断宽度/中断分布的第10百分位来计算的。相对中断特征3003还可以包括依据在先中断宽度的中断宽度IOOO5,其中-I用于给定文本行图像中的第一个中断。此外,相对中断特征3003还可以包括依据下一个中断宽度的中断宽度IOOOn,其中-I用于给定文本行图像中的最后一个中断。如图11所示,举例来说,相对笔墨特征3004可以包括依据X高度的笔墨底部到基线的距离IlOOltj它是作为从笔墨底部到基线的距离/x高度来计算的。相对笔墨特征3004还可以包括依据X高度的笔墨顶部到X高度的距离1100N。它是作为从笔墨顶部到X高度的距离/x高度来计算的。如图12所示,举例来说,相对笔墨-笔墨特征3005可以包括依据X高度的笔墨-笔墨宽度分布的第100百分位1200:,依据X高度的笔墨-笔墨宽度分布的第90百分位12002,依据X高度的笔墨-笔墨宽度分布的第60百分位12003,依据X高度的笔墨-笔墨宽度分布的第10百分位12004,依据X高度的笔墨-笔墨宽度分布的第0百分位12005,依据中值中断宽度的笔墨-笔墨宽度分布的第100百分位12006,依据中值中断宽度的笔墨-笔墨宽度分布的第90百分位12007,依据中值中断宽度的笔墨-笔墨宽度分布的第60百分位12008,依据中值中断宽度的笔墨-笔墨宽度分布的第10百分位12009,依据中值中断宽度的笔墨-笔墨宽度分布的第0百分位12001(|,以及依据有效的笔墨-笔墨高度的笔墨-笔墨面积1200n。 如图13所示,举例来说,相对中断邻近度特征3006可以包括依据X高度的周围(前一个和后一个)中断宽度ISOO1,以及依据中值中断宽度的周围(前一个和后一个)中断宽度1300n。如图14所示,举例来说,单词识别特征300N可以包括单词置信度MOO1,单词中的每个字符的字符置信度14002,所使用的特定语言模型报告的单词频率14003,先进语言模型特征14004 (例如语法,其指示给定单词集合是否依照某些语法规则,如果在不是很准确的情况下的概率)以及以字符为单位的单词长度1400n。分类——在分类阶段,图15所示的一个或多个分类器可以与以上描述的一个或多个特征结合使用。举例来说,这些分类器包括判定树分类器Isoo1,通常在判定树分类器的顶部实现的AdaBoost分类器15002,诸如FCM (模糊C均值)或K均值之类的群集分类器15003,神经网络分类器15004,以及迭代梯度下降分类器1500n。在一些使用情景中,可以对分类器进行训练,以便对假阳性设置障碍,由此有利于假阴性的单词间中断分类。此外还应该指出的是,所列举的所有分类器都具有用于提供与属于两个中断分类之一的中断标识相关联的置信度的能力。分类器1500还可以使用来自处于OCR系统管道中的上游和下游的引擎的结果来训练,以便改善端到端的精确度。可替换地,分类器1500可以用独立的范围实施方式来训练。在这种情况下,OCR系统中的引擎是用相同的标记数据训练的。这种技术通常预计为处于OCR系统之外的应用提供最优的通用精度,例如手迹(handwriting)的行分割处理。前四个分类器150(V4可以采用常规方式来实现,并且在这里不需要对其进行进一步论述。然而,在下文中将会证明和呈现迭代梯度下降分类器1500n的更进一步的描述。假设是要分
类成单词间中断(BW)或字符间中断(BC)的中断集合。该集合是有序的,这意味着具有较高索引的中断将会出现在索引较低的中断之后。这个观察允许将中断集合看作是一个序列。现在,独立分类每一个中断的问题变换成了找出最有可能的中断序列的问题。这种处理可以使用众所周知的隐式马尔科夫模型(HMM)技术来完成。为了使用HMM技术,在这里定义了状态和转移概率。如果是中断特征集合,那么这些概率可被定义成
权利要求
1.一种用于对来自文本行图像的单词进行分割的方法,所述方法包括以下步骤 使用特征化组件来从文本行图像中提取特征; 使用所提取的特征来计算中断; 使用中断分类器来将每一个中断归入分类,所述分类包括单词间中断分类以及字符间中断分类,以及确定被分类的中断是所述分类的成员的概率;以及 使用所述中断和概率来分割来自文本行图像的单词。
2.权利要求I的方法,其中所提取的特征是从绝对特征,相对行特征,相对中断特征,相对笔墨特征,相对笔墨-笔墨特征,相对中断邻近度特征或单词识别特征中选择的。
3.权利要求2的方法,其中绝对特征是从以下的一项或多项中选择的以像素为单位的中断宽度,以像素为单位的所有中断宽度的分布,以像素为单位的X高度,以像素为单位的笔划宽度,以像素为单位的文本行图像高度,以像素为单位的为本行图像宽度,以像素为单位的总的中断宽度,以像素为单位的笔墨宽度,以像素为单位的笔墨高度,以像素为单位的笔墨-笔墨宽度的分布,或笔墨-笔墨面积。
4.权利要求3的方法,其中所有中断宽度的分布包括下列各项中的至少一项该分布的第90百分位,该分布的第50百分位,该分布的第10百分位,或者文本行图像中的中断数量。
5.权利要求3的方法,其中笔墨-笔墨宽度分布包括下列各项中的至少一项该分布的第100百分位,该分布的第90百分位,该分布的第50百分位,该分布的第10百分位,或者该分布的第O百分位。
6.权利要求2的方法,其中相对行特征是从以下的一项或多项中选择的估计字符数量,依据估计字符数量的中断数量,依据行宽度的所有中断宽度,或者依据X高度的中值中断宽度。
7.权利要求2的方法,其中相对中断特征是从以下的一项或多项中选择的依据X高度的中断宽度,依据中断分布的第90百分位的中断宽度,依据中断分布的第50百分位的中断宽度,依据中断分布的第10百分位的中断宽度,依据前一个中断宽度的中断宽度,或者依据下一个中断宽度的中断宽度。
8.权利要求2的方法,其中相对笔墨特征是从以下的一项或多项中选择的依据X高度的从笔墨底部到基线的距离,以及依据X高度的从笔墨顶部到X高度的距离。
9.权利要求2的方法,其中相对笔墨-笔墨特征是从以下的一项或多项中选择的依据X高度的笔墨-笔墨宽度分布的第100百分位,依据X高度的笔墨-笔墨宽度分布的第90百分位,依据X高度的笔墨-笔墨宽度分布的第60百分位,依据X高度的笔墨-笔墨宽度分布的第10百分位,依据X高度的笔墨-笔墨宽度分布的第O百分位,依据中值中断宽度的笔墨-笔墨宽度分布的第100百分位,依据中值中断宽度的笔墨-笔墨宽度分布的第90百分位,依据中值中断宽度的笔墨-笔墨宽度分布的第60百分位,依据中值中断宽度的笔墨-笔墨宽度分布的第10百分位,依据中值中断宽度的笔墨-笔墨宽度分布的第O百分位或者依据有效笔墨-笔墨高度的笔墨-笔墨面积。
10.权利要求2的方法,其中相对中断邻近度特征是从以下的一项或多项中选择的依据X高度的周围中断宽度或依据中值中断宽度的周围中断宽度。
11.权利要求2的方法,其中单词识别特征是从以下的一项或多项中选择的单词置信度,单词中的每个字符的字符置信度,语言模型报告的单词频率,先进语言模型特征,或者以字符为单位的单词长度。
12.权利要求I的方法,其中中断分类器是从以下各项之一选择的判定树分类器,被配置成处于判定树分类器顶部的AdaBoost分类器,群集分类器,神经网络分类器,或者迭代梯度下降分类器。
13.权利要求I的方法,其中中断分类器是用引擎提供的结果训练的,所述引擎位于特征化组件和中断分类器的上游或下游。
14.权利要求I的方法,其中中断分类器是用独立范围实施方式训练的。
15.权利要求I的方法,还包括以下步骤从文本行图像的单词中提取单词特征,所述单词特征包括下列各项中的至少一项单词置信度,字符置信度,单词频率,语法或单词长度,以及使用所提取的数值特征和所提取的单词特征来选择行分割处理。
全文摘要
通过从输入中提取特征以便定位中断,以及随后将这些中断归类到包括单词间中断和字符间中断的两种中断分类之一,执行OCR处理中的行分割,从而检测出单词在输入文本行图像中的位置。然后,包含检测到的单词边界框的以及给定中断属于所识别分类的概率的输出可被提供给下游的OCR或其他组件,以便进行后期处理。非常有利的是,通过将行分割处理缩减成特征提取处理,可以在不丧失一般性的情况下降低行分割任务的复杂度,其中所述特征包括每个中断的位置,中断特征数量以及中断分类。
文档编号G06K9/18GK102822846SQ201180017926
公开日2012年12月12日 申请日期2011年3月24日 优先权日2010年3月30日
发明者A.乌泽拉奇, B.德雷塞维奇, S.加利奇, B.拉达科维奇 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1