包括经历ocr处理的文本的图像的分辨率调整的制作方法

文档序号:6359860阅读:119来源:国知局
专利名称:包括经历ocr处理的文本的图像的分辨率调整的制作方法
包括经历OCR处理的文本的图像的分辨率调整
背景技术
光学字符识别(OCR)是一般在标准编码方案下,文本的图像到如机器可编辑文本的数字形式的基于计算机的转换。这个过程消除了将文档手工打字到计算机系统中的需要。由于差的图像质量、扫描过程造成的瑕疵等,可能引起许多不同的问题。例如,传统OCR引擎可以与扫描文本页面的平板扫描仪耦合。由于页面直接靠着扫描仪的扫描表面放置,因此扫描仪生成的图像通常呈现均匀的对比度和照明、减小的扭曲和失真以及高的分辨率。因此,OCR引擎可以容易地将图像中的文本转换成机器可编辑文本。然而,当图像关于对比度、亮度、扭曲等的质量较差时,OCR引擎的性能可能下降,并且处理时间可能由于处理图像中的所有像素而增加。例如,当图像由基于成像器的扫描仪生成时,可能就是这种情况,这是由于从远处、从变化的取向以及以变化的照明扫描文本/图片。即使扫描过程的性能是好的,当正扫描相对低质量的文本页面时,OCR引擎的性能也可能下降。

发明内容
进行OCR所需要的处理的图像的数量可能相当大,这需要大量的时间和处理能力。图像处理过程的持续时间几乎完全取决于输入图像尺寸。因此,当分辨率的任何进一步降低得到更低的精度,而同时分辨率的提高不会得到明显更好的精度时,可以认为该图像尺寸是最佳的(针对图像预处理过程而言)。这样,图像预处理算法在要求尽可能少的时间的同时提供了良好的精度。在一个实现方式中,图像的最佳尺寸根据图像中的文本的两种特性、具体地说,文本X-高度CW)和行间距(7Z幻来确定。一旦知道这些值,就可以精确地计算最佳图像分辨 率。由于这些特性在整个图像中可能不是一致的,因此可以使用它们在整个图像中的主导值。在一种特定实现方式中,使用自相关函数确定主导行间距,并使用互相关函数确定主导文本X-高度。一旦确定了最佳尺寸,就将图像的尺寸重新调整成这个最佳尺寸。提供该发明内容部分是为了介绍下面在具体实施方式
部分中进一步描述的简化形式的概念的选择。该发明内容部分不是打算标识要求保护主题的关键特征或必要特征,也不是打算用于帮助确定要求保护主题的范围。


图I示出用于光学字符识别的系统的一个示例性例子。图2示出了示例作为输入像素数量的函数的OCR处理时间。图3示例作为输入像素数量的函数的OCR处理的可达到精度。图4示出从图的顶部到底部分辨率分别降低2倍、4倍和8倍的文字。图5示例分辨率变化对相邻两行文本的影响,其示出从图的顶部到底部分辨率分另Ij降低2倍和4倍。图6示例一个文本样本的主导文本X-高度和主导行间距。图7示出包括文本的样本图像以及如通过索贝尔(Sobel)滤波器确定的该图像的水平边缘的垂直投影。图8示出在右侧的原始图像、在左侧的索贝尔滤波器的主导峰的垂直投影、以及在中间的自相关。图9示出在其左上部的原始图像、在右上部的该图像的索贝尔边缘的垂直投影、在左下部的该垂直投影的自相关和在右下部的该自相关的幅度谱。图10示出输入图像的正(图的右部)和负(图的左部)边缘投影的互相关的例子。图11是示出将接收到的图像重新缩放成最佳尺寸的过程的一个例子的流程图。图12示出执行重新缩放过程的图像处理装置的一个例子。
具体实施方式

图I示出用于图像中的光学字符识别(OCR)的系统5的一个示例性例子,该系统5包括生成文档15的图像的数据捕获装置(例如,扫描仪10)。扫描仪10可以是基于成像器的扫描仪,其利用作为图像传感器的电荷耦合器件生成图像。扫描仪10处理图像以生成输入数据,并将输入数据发送给用于图像内的字符识别的处理装置(例如,OCR引擎20)。在这个特定例子中,OCR引擎20被并入扫描仪10中。然而,在其它例子中,OCR引擎20可以是诸如独立单元的分立单元或者并入诸如PC、服务器之类的另一设备中的单元。OCR引擎20应用的算法一般受制于两个目标高精度和低执行时间。显然,这两个目标截然相反;较高的执行时间允许附加处理,其产生较高精度,而较少的处理节省了时间但导致较低精度。因此,必须作出一些妥协。不幸的是,图像预处理一般是相当漫长的。例如,普通图像通常包含数百万个像素,这意味着图像预处理算法具有该相同数量的输入要进行评估和处理。图像处理程序的持续时间几乎完全取决于输入图像尺寸,即,图像尺寸越高,则所需的时间越多。因此,应该在不影响精度的情况下缩小输入图像以便达到最佳可能性能,或在某些可接受的性能恶化的情况下放大输入图像以便使精度最高。换言之,将输入图像重新缩放成最佳图像尺寸应该保证精度与执行时间之间的最佳可能折衷。解决这个问题的一种方式是要认识到并非图像中的所有像素都携带相同的信息量。因此,并不需要处理所有像素来达到良好的精度。事实上,情况可能是这样一些像素未携带对于成功处理而言足够的信息(或至少未以方便的形式携带信息)。这也意味着,取决于图像结构,可以改变输入图像的尺寸,以在精度和执行时间两个方面都达到最佳处理。理论上,执行时间是输入像素数量的单调递增函数;对于精度也是这样。然而,这两个函数具有相当不同的形式。图2示出作为输入像素数量的函数的处理时间的粗略例子。另一方面,图3示出作为输入像素数量的函数的可达到精度的粗略例子。显然,图2示出执行时间相对于输入像素数量是线性的。另一方面,精度起初迅速提高,但在某个点上开始饱和。即,精度曲线渐近地接近最大可能精度。饱和点代表为了达到精度与执行时间之间的最佳可能折衷,图像预处理组件需要接收的最佳像素数量。之前的分析得出用于导出这里展示的分辨率自适应算法的原则。如果分辨率的任何进一步降低产生更低的精度,而分辨率的提高不会产生明显更好的精度,则图像尺寸是最佳的(针对图像预处理过程而言)。换言之,存在至多可能达到的回报递减点,在该点上额外执行时间并不能被精度方面的小的增益所保证。这样,图像预处理算法在要求尽可能少时间的同时提供了良好的精度。上述的原则相对较抽象,不能容易地实现,这是由于最佳尺寸依赖于图像的特性。为了导出更数学上的准则,需要作出几方面的重要观察。要注意的第一件事情是对图像分辨率的任何修改都将对图像中的文本对象具有最大的影响,这是由于它们一般是图像中的最小对象。因此,应该更详细地考查分辨率变化对文本对象的影响。分辨率水平的降低对文本对象的影响用图4示例出来,图4示出从图的顶部到底部分辨率分别降低2倍、4倍和8倍的文字。如图所示,存在分辨率的任何进一步降低使得文本变得难以辨认的点。在量化这个点之前,需要定义如下术语。首先,将“基线(base line)”定义成通过一行文本中的大多数字符(除了下伸字母之外)的底端的水平线。其次,将“平均线(mean-line) ”定义成通过一行文本中的大多数字符(除了上行字母之外)的顶端的水平线。第三,将“X-高度”定义成基线与平均线之间的垂直距离,其对应于该行中的大多数小写字母(除了非下行字母和非上行字母之外)的高 度。返回到图4,可以将分辨率的任何进一步降低使得文本变得难以辨认的点定义成某个预定义的最小X-高度值。确定这个值的方式将在本文件的后面讨论。除了考查分辨率降低对各个文本对象(例如,单个字符)的影响之外,还应该考查它对一组文本对象的影响。图5示例了分辨率变化对相邻两行文本的影响,其示出从图的顶部到底部分辨率分别降低2倍和4倍。显然,对分辨率的修改也影响文本行的完整性。图5的第三(即,底部)图像中的文本仍然相当易辨认,但来自不同行的两个文字已经开始相互接触,由此破坏了文本行的垂直完整性。因此,可以应用的另一准则是要保证分辨率的任何变化不会产生具有行间距小于某个预定义最小行间距TZXin的文本。确定这个值的方式将在本文件的后面讨论。根据前面的讨论,可以得出结论,在作出有关最佳图像分辨率的决定之前应该计算出的文本的两种特性是文本X-高度CW)和行间距iILS\ 一旦知道这些值,就可以精确地计算出最佳图像分辨率。不幸的是,计算这些值的逻辑需要非常快。花太多时间寻找最佳分辨率将抵消以其最佳分辨率使用图像引起的处理时间的任何随后缩短的任何积极效果。另外的困难由于文本的特性在整个图像中可能不是一致而出现。结果,可以提取依据文本行处在图像中的位置而有所不同的局部文本特性。当然,定位文本是使这种方法不可行的耗时过程。于是,下面讨论的算法将应用主导文本特性。这样,可以在不实际定位图像中的文本的不同部分的情况下估计文本特性。图6示例一个文本样本的主导文本X-高度和主导行间距。行间距可按如下确定。要注意的第一件事件是不言而喻的,那就是,文本行具有水平取向(的确,为了这种分析的目的,可以将水平方向定义成图像中的文本行延伸的方向)。要注意的另一件事件是在文本与背景之间的过渡处发生的颜色突然变化。这两种观察得出这样的结论检测水平边缘的边缘滤波器的垂直投影应该提供具有在文本行的参考线(例如,取决于文本-背景颜色关系,平均线或基线)处出现主导峰的值。适用滤波器的众所周知的例子是水平索贝尔滤波器,其得出在参考线处具有主导峰的正值。图7示出包括文本的样本图像以及如通过索贝尔滤波器确定的图像的水平边缘的垂直投影。如图证实的那样,该图像产生甚至不受一些非文本对象的存在而不利地影响的非常明显的峰。该图还示出两个连续的峰之间的距离对应于行间距。不幸的是,这个过程一般不能用于估计行间距,这是由于跨越整个图像,行间距可能不是一致的。结果,这样计算出的行间距对于图像的一部分可能是正确的,对于另一部分可能是不正确的。于是,跨越图像,使用主导行间距是更好的。确定主导行间距的一种方便方式是通过自相关。离散信号的自相关通过下式定义
自相关函数的一种有用特性是,如果信号HO是周期性的,周期为八则它的自相关尤Jt)也是周期性的,周期为几而且,如果信号HO是有限的,意味着
Vr > Tmm => x(r) = 0 (在当前情况下,信号在[o,#-i]范围内具有非零值,其中"是图
像高度),则它的自相关函数在原点上达到最大值,并且一般随离原点的距离增大而减小。这也意味着在原点附近周期性最突出。这些特征示例在图8中,图8在右侧示出原始图像,在左侧示出索贝尔滤波器的主导峰的垂直投影,并在中间示出自相关。描绘在图8中的自相关函数在原点处具有最高峰。它还在相邻峰之间具有相同距离。现在找出主导行间距要容易得多。一种方法可以是找出第二主导峰(第一个处于零),并声明这两个峰之间的差是主导行间距。不幸的是,虽然这在图8中描绘的特定情况下是成立的,但一般来说可能不是这样。例如,如果在一个图像或页面中存在几个不同的行间距,则这种方法将找出它们当中的一个,而完全忽略了其它几个。另外,在图像中仅仅存在少量文本的情况下,则其它页面对象(图片和其它图形、直线等)可能将完全掩盖文本的存在所引入的自相关规则性。在这两种情况下,或许将作出错误决定。因此,应该选择另一种方法。已经提到,如果在图像或页面上存在主导文本,则在自相关函数中将具有突出周期性。如果可以检测这个周期性并提取它的周期,则这个周期将对应于主导行间距。考查信号周期性的常用方式是观察它的频谱内容。信号^(力)it: 0,...,//_1)的频谱内容使用由下式定义的离散傅立叶变换来计算
X(k) = Y,x(i)e \是=0,"”//—I 。特别感兴趣的是傅立叶变换的幅度谱IZ(幻I。周期为T的周期性信号的幅
度谱是离散的,意味着Wk=。换言之,周期性信号的幅度
I
谱仅仅在等于基频fh上的整数倍的频率上具有非零谐波。如果可以核实自相关函数
' 1 T
的幅度谱(也称为原始信号的功率谱)是离散的,则输入信号必须是周期性的,且它的周期等于行间距。在图9中给出了幅度谱的例子。图9的左上部示出原始图像,右上部示出垂直投影,左下部示出自相关以及右下部示出幅度谱。根据上面的分析,可以将行间距检测算法总结成以下步骤序列
1)计算输入图像的正水平边缘投影;
2)计算水平边缘投影的自相关;
3)计算功率谱;
4)找出自相关函数中最大峰的位置(除了零处的峰之外)Tfflax;
5)计算基频
权利要求
1.一种将接收到的图像重新缩放成最佳尺寸的系统,包含 最佳尺寸确定组件,其为图像确定最佳尺寸,以便不影响精度地使接收到的图像的处理时间最小化;以及 重新缩放组件,其将接收到的图像的尺寸重新调整成所确定的最佳尺寸。
2.如权利要求I所述的系统,其中,所述最佳尺寸确定组件至少部分根据文本的主导行间距和主导文本X-高度确定图像的最佳尺寸。
3.如权利要求I所述的系统,进一步包含文本X-高度估计组件,其确定接收到的图像中的文本的主导文本X-高度。
4.如权利要求I所述的系统,进一步包含行间距组件,其确定接收到的图像中的文本的主导行间距。
5.如权利要求3所述的系统,其中,接收到的图像中的文本行沿着水平方向延伸,并且所述行间距组件应用水平索贝尔滤波器的垂直投影来确定包含在接收到的图像中的文本的主导行间距。
6.如权利要求5所述的系统,其中,所述行间距组件应用水平索贝尔滤波器的垂直投影的自相关来确定包含在接收到的图像中的文本的主导行间距。
7.如权利要求6所述的系统,其中,所述行间距组件确定水平索贝尔滤波器的垂直投影的自相关中的周期性,并将所述周期性与主导行间距相联系。
8.如权利要求7所述的系统,其中,所述行间距组件通过计算水平索贝尔滤波器的垂直投影的自相关的幅度谱来确定所述周期性。
9.如权利要求3所述的系统,其中,所述文本X-高度估计组件使用水平索贝尔滤波器的垂直投影的正和负边缘的互相关来确定主导文本X-高度。
10.一种用于在保持图像精度的同时使图像处理时间最小化的方法,包含 接收输入图像; 为输入图像确定最佳尺寸,以便不影响图像精度地使图像处理时间缩短; 将输入图像的尺寸重新调整成所确定的最佳尺寸;以及 生成包含尺寸被重新调整成所确定最佳尺寸的输入图像的输出。
11.如权利要求10所述的方法,其中,确定图像的最佳尺寸包含确定包含在输入图像内的文本的主导文本高度特性。
12.如权利要求11所述的方法,其中,确定图像的最佳图像尺寸进一步包含确定输入图像内的文本的主导行间距。
13.如权利要求12所述的方法,进一步包含至少部分根据文本的主导行间距和主导文本X-高度为输入图像确定最佳尺寸。
14.如权利要求12所述的方法,其中,确定主导行间距包括确定水平索贝尔滤波器的垂直投影。
15.如权利要求14所述的方法,其中,确定主导行间距包括确定水平索贝尔滤波器的垂直投影的自相关。
全文摘要
本发明提供了将接收到的图像重新缩放成最佳尺寸以便经受光学字符识别(OCR)处理的系统和方法。该系统包括最佳尺寸确定组件,其为图像确定最佳尺寸,以便不影响精度地使接收到的图像的处理时间最小化。最佳尺寸确定组件至少部分根据文本的主导行间距和主导文本高度确定图像的最佳尺寸。该系统还包括重新缩放组件,其将接收到的图像的尺寸重新调整成所确定的最佳尺寸。
文档编号G06K9/20GK102782707SQ201180013490
公开日2012年11月14日 申请日期2011年3月9日 优先权日2010年3月11日
发明者S.加利奇 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1