使用图像区域的文本检测的制作方法

文档序号：6496328阅读：309来源：国知局

使用图像区域的文本检测的制作方法
【专利摘要】一种方法包含接收在图像数据中识别的一组图像区域的指示。所述方法进一步包含从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。
【专利说明】使用图像区域的文本检测
[0001]本申请案要求2011年9月6日申请的第61/531,547号美国临时专利申请案、2011年10月5日申请的第61/543,548号美国临时专利申请案和2012年3月6日申请的第13/412，853号美国非临时申请案的优先权，所述申请案中的每一者以全文引用的方式并入本文中。
【技术领域】
[0002]本发明总地来说涉及图像处理。
【背景技术】
[0003]技术进步已经产生更小且更强大的计算装置。举例来说，当前存在多种便携式个人计算装置，包含无线计算装置，例如便携式无线电话、个人数字助理(PDA)和寻呼装置，其体积小，重量轻，且易于由用户携带。更具体来说，例如蜂窝电话和因特网协议(IP)电话等便携式无线电话可经由无线网络传达语音和数据包。此外，许多此类无线电话包含并入其中的其它类型的装置。举例来说，无线电话还可包含数码照像机、数码摄像机、数码记录器，和音频文件播放器。
[0004]计算装置可以执行文本检测以识别已通过装置的相机俘获的图像中的文本。常规文本检测可能明确地或隐含地必需图像中的文本的色彩不同于图像的背景色彩。此常规文本检测可能无法可靠地检测具有与图像的背景基本上相同色彩的文本。或者，可以使用色彩分段方法来进行文本检测。色彩分段可以实现对于具有与图像背景基本上相同色彩的文本的文本检测。但是，色彩分段对于基于个人计算机的实施方案往往在计算方面要求很高，而且可能不适合例如无线电话等便携型电子装置。
[0005]在执行二进制化进程以产生将输入图像的检测到的文本部分与输入图像的非文本部分对比的二值图像之后`，可以对二值图像应用投影轮廓分析，以便估计文本行的歪斜(例如文本行偏离于水平方向的角度)和/或估计文本的倾斜(例如比如斜体文本的文本倾斜角度)。对于倾斜和歪斜的补偿可以实现对文本的更加稳固的字符辨识。但是，二值图像中的文本的精确的投影轮廓分析同样在计算方面要求很高，并且可能不适合便携型电子
>J-U ρ?α装直。

【发明内容】

[0006]基于斑点的文本提取包含将图像中的文本斑点定位为稳定的、曲线的及非重叠的斑点。可在投影轮廓分析之前执行斑点抽象化以减少投影轮廓分析的计算负荷。可基于投影轮廓分析来补偿文本的倾斜和歪斜以用于后续的字符辨识处理。
[0007]在特定实施例中，一种方法包含接收在图像数据中识别的一组图像区域的指示，以及从所述组图像区域选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。在一些实施例中，可进一步至少部分基于图像区域曲线性来选择所述图像区域。
[0008]在另一特定实施例中，一种设备包含图像区域提取器，其经配置以产生在图像数据中识别的一组图像区域的指示。所述设备还包含文本图像区域选择器，其经配置以从所述组图像区域选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。
[0009]在另一特定实施例中，一种方法包含识别对应于图像区域的几何图形。所述图像区域对应于所述在图像数据中识别的文本的至少一部分。所述方法进一步包含至少部分基于所述几何图形而确定文本的限定框。
[0010]在一些实施例中，可利用配合错误。举例来说，响应于第一几何图形相对于图像区域的第一配合错误超过阈值，所述方法可包含识别对应于所述图像区域的多个几何图形。
[0011]在一些实施例中，可利用投影轮廓分析。举例来说，所述方法可包含使用多个投影线来确定所述几何图形的投影轮廓。所述投影轮廓的值可对应于每一特定投影线，且可基于所述特定投影线与几何图形的相交点之间的距离。
[0012]在另一特定实施例中，所述方法可包含识别对应于图像区域的多个几何图形，所述图像区域中的每一者对应于文本的至少一部分。可确定所述多个几何图形的第一投影轮廓来估计所述文本的歪斜。可确定所述多个几何图形的第二投影轮廓来估计所述文本的倾斜。
[0013]在另一特定实施例中，所述方法可包含从一组图像区域提取若干图像区域，所述图像区域中的每一者对应于所述文本的至少一部分。所述方法可进一步包含将所述所提取的图像区域分割为多个群集，且独立于其它群集中的每一者来确定每一群集的投影轮廓。
[0014]在另一特定实施例中，所述方法可包含对对应于在在图像数据中识别的图像区域的第一组几何图形执行第一投影轮廓分析。所述第一投影轮廓分析可将所述第一组几何图形分割为第二组几何图形和第三组几何图形。所述方法可进一步包含对所述第二组几何图形执行第二投影轮廓分析。所述第二投影轮廓分析可将所述第二组几何图形分割为第四组几何图形和第五组几何图形。
[0015]由所揭示的实施例中的至少一者提供的特定优点包含与通常需要与背景色彩有区别的文本色彩的常规二值化技术相比，在不需要与背景色彩有区别的文本色彩的情况下辨识图像内的文本的能力，以及与色彩分段技术相比减小的计算需求。
[0016]在检视整个申请案后，将明白本发明的其它方面、优点和特征，申请案包含以下部分:【专利附图】

【附图说明】、【具体实施方式】和权利要求书。
【专利附图】

【附图说明】
[0017]图1是用以提供文本检测的系统的特定实施例的框图；
[0018]图2是图1的系统可以执行的文本检测方法的流程图；
[0019]图3图解说明包含图1的系统可以检测到的文本的图像的实例；
[0020]图4是描绘图1的系统可以执行的斑点提取的说明性实例的图；
[0021]图5是描绘图4的斑点提取的结果的说明性实例的图；
[0022]图6图解说明图1的系统可以检测到的文本图像数据的实例；
[0023]图7是描绘图1的系统可以执行的投影轮廓分析的说明性实例的图；
[0024]图8是描绘图1的系统可以执行的斑点抽象化的说明性实例的图；
[0025]图9图解说明图1的系统可以执行的文本效果补偿的实例；
[0026]图10图解说明图1的系统可以执行的文本效果补偿的另外实例；[0027]图11是描绘图1的系统可以执行的倾斜补偿的说明性实例的图；
[0028]图12是描绘图1的系统可以检测和校正的文本歪斜和倾斜的说明性实例的图；
[0029]图13图解说明图1的系统可以执行的对抽象化斑点的中心线处理的特定实施例；
[0030]图14是描绘图1的系统可以执行的笔划宽度确定的说明性实例的图；
[0031]图15描绘基于斑点的文本检测的特定说明性实施例的流程图；
[0032]图16图解说明图1的系统可以执行的斑点抽象化的实例；
[0033]图17描绘图1的系统可以执行的使用几何图形的斑点抽象化方法的特定说明性实施例的流程图；
[0034]图18是描绘图1的系统可以执行的斑点投影的说明性实例的图；
[0035]图19描绘图1的系统可以执行的使用几何图形的斑点投影方法的特定说明性实施例的流程图；
[0036]图20是描绘图1的系统可以执行的投影轮廓分析的说明性实例的图；
[0037]图21描绘图1的系统可以执行的投影轮廓分析方法的特定说明性实施例的流程图；
[0038]图22是描绘图1的系统可以执行的分割一组斑点的说明性实例的图；
[0039]图23描绘图1的系统可以执行的分割一组斑点的方法的特定说明性实施例的流程图；
[0040]图24是描绘图1的系统可以执行的对于几何图形的多个投影轮廓分析的说明性实例的图；
[0041]图25描绘图1的系统可以执行的对于几何图形执行多个投影分析的方法的特定说明性实施例的流程图；以及
[0042]图26是包含基于斑点的文本提取器的便携型装置的框图。
【具体实施方式】
[0043]参看图1，图解说明包含基于图像区域的文本检测(例如斑点提取)的系统100的特定实施例。系统100包含文本斑点提取器104，其耦合到斑点抽象化器112。斑点抽象化器112耦合到文本区域检测器和二进制化引擎114。文本斑点提取器104经配置以接收图像数据102并且在斑点提取器106处识别斑点。“斑点”是图像数据102的基本上均质的区域。举例来说，斑点提取器106可经配置以扫描图像数据102，并且识别图像数据102的具有基本上不变的像素色彩值或强度的区域。为了说明，可以识别图像色彩空间的区域，并且具有经识别的色彩空间内的像素值的一组连续像素可以被识别为斑点。斑点提取器106可以是“通用”斑点提取器，其经配置以识别图像数据中的斑点，而未具体经配置以检测任何斑点是文本候选还是非文本候选。可以向文本斑点选择器107提供斑点提取器106识别的斑点的指示105。举例来说，所述指示105可包含经识别的斑点的列表，例如每一经识别的斑点的索引和对应于每一经识别的斑点的图像数据102的像素的列表。作为另一实例，所述指示105可包含指向斑点像素数据的指针的列表或阵列。作为另一实例，所述指示105可包含图像数据102或图像数据102的子集，并且针对每一像素可以指示所述像素所属于的每一斑点(如果存在的话)。[0044]在特定实施例中，文本斑点选择器107包含稳定并且曲线的斑点选择器108和重叠区域移除器110。文本斑点选择器107可经配置以接收斑点提取器106所识别的斑点的指示105并且选择稳定并且曲线的一组斑点。举例来说，斑点的稳定性可以指示斑点的大小不会随阈值的变化而大幅改变。为了说明，阈值可以对应于图像色彩空间中的一个区域的边界，并且色彩空间区域的边界中的较小变化可能导致稳定斑点的大小的相对较小变化，而不稳定斑点可能会响应于色彩空间区域边界中的较小变化而显著改变大小。在定位了一个或一个以上稳定斑点后，稳定并且曲线的斑点选择器108即刻可经配置以确定所识别稳定斑点是否也是曲线的。如本文所使用，“曲线的”对应于具有与斑点的大小相比较小的笔划宽度。举例来说，包含字母“s”的斑点可以具有对应于字母“s”的外部尺寸的大小，并且可以具有对应于字母的横截面的厚度的笔划宽度。因为文本往往是曲线的(例如，字母和字符往往是由可以通过笔或其它书写工具形成的直线和曲线形成的)，所以不是曲线的斑点可能不被视为文本候选。稳定并且曲线的斑点选择器108在识别出满足稳定性要求并且进一步满足曲线性要求的斑点后，即刻可以向重叠区域移除器110提供所识别的斑点的指示。
[0045]重叠区域移除器110可以移除被斑点提取器106识别的并且与稳定并且曲线的斑点选择器108选择的特定稳定并且曲线的斑点重叠的斑点。为了说明，斑点提取器106可以识别图像的单个区域内可以彼此重叠的多个斑点。因为重叠斑点可能会在文本检测中引入模糊，所以一旦识别出可能对应于辨识出的字母或对应于其它文本的稳定并且曲线的斑点，重叠区域移除器110就定位和移除所有其它与经识别的稳定并且曲线的斑点重叠的斑点。可假设图像数据102中出现的字母或其它文本不彼此重叠。因此，一旦一个斑点被选择为满足字母或文本的准则，就可以移除任何与所选的斑点重叠的斑点。在重叠区域移除器110已经移除重叠斑点之后，稳定并且曲线的斑点选择器108就可以继续处理斑点提取器106所识别的所述组斑点中的其余斑点，以便识别符合稳定性和曲线要求的另外斑点，直到文本斑点选择器107已经识别出一组稳定、曲线的并且不重叠的斑点为止。文本斑点提取器104输出这组被识别为很可能对应于图像数据102中的文本的斑点。
[0046]在特定实施例中，斑点抽象化器112经配置以对从文本斑点提取器104接收到的斑点执行一个或一个以上计算，并且执行分析以辅助文本区域检测器和二进制化引擎114处的操作。举例来说，如相对于图8所解释，斑点抽象化器112可经配置以确定对应于所识别的斑点的一组几何形状，并且处理所述几何形状以确定歪斜、倾斜或其它可能会影响后来的光学字符辨识(OCR)处理的文本辨识的效果。举例来说，通过将所识别的斑点抽象化成几何图形而不是成组的像素，可以显著减少计算要求。减少的计算要求可以使得能够在手持式装置或其它与桌上型计算系统相比可以具有相对有限处理资源的装置上执行文本提取。
[0047]文本区域检测器和二进制化引擎114经配置以从斑点提取器112接收输出，并且执行文本区域检测和二进制化。举例来说，文本区域检测器和二进制化引擎114可经配置以定位图像数据102中的对应于文本的区域，并且产生具有对应于具有一值的文本区域的像素和对应于具有另一值的非文本区域的像素的二值图像，例如具有黑色背景上的白色文本或白色背景上的黑色文本的黑白图像。文本区域检测器和二进制化引擎114可以产生文本图像数据116，其可包含将检测到的文本与图像的非文本区域对比的二值图像。图9到11中图解说明文本图像数据的实例。
[0048]参看图2，使用斑点的文本辨识方法的特定实施例被描绘并且总地来说标示为200。可以在基于斑点的图像处理文本引擎(例如图1的系统100)处执行方法200。方法200包含在202处识别斑点。举例来说，可以接收图像数据，并且可以对接收到的图像数据执行一个或一个以上测试或过滤，以便识别图像的基本上均质的区域。为了说明，可以选择像素值的一个或一个以上范围，并且可以将成组的像素识别为在连续区域中并且具有在所选范围中的值。作为另一实例，可以识别特定像素，并且可以定位邻近于具有在所识别的像素的像素值的预定义范围内的像素值的所识别像素的其它像素。以此方式，可以将图像的具有基本上均质的像素值或色彩空间值的区域识别为斑点。
[0049]在204-212处，在处理环路中对所识别的斑点进行处理以便识别测试候选(相对于图4描绘另一实例)。在204处选择所识别的斑点中的最稳定的斑点。举例来说，可以处理所述斑点中的每一者以便确定每一斑点的特定稳定性值。为了说明，可以使用不同阈值多次执行一个可以类似于二进制化的进程。可以确定响应于所识别斑点中的每一者的阈值变化的斑点大小变化。举例来说，斑点的大小相对于阈值变化的变化程度或衍生值可以被识别并且用作稳定性的测量标准。在识别出所识别斑点中的最稳定斑点之后，在206处确定斑点是否为曲线的。举例来说，可以将斑点的笔划宽度与斑点的大小比较。相对于图14图解说明斑点曲线确定的实例。
[0050]响应于在206处确定所识别斑点是曲线的，在208处移除重叠的斑点。举例来说，在208处可以移除任何与被曲线的斑点占据的区域重叠的斑点。因此，在假设文本不与图像内的其它文本重叠的情况下，可以移除所识别的斑点组中的重叠斑点所引起的模糊。响应于在206处确定斑点不是曲线的，或在208处移除所识别曲线的斑点的区域中的重叠斑点之后，在210处处理继续以确定是否剩下任何更多的所识别斑点有待处理。响应于在210处确定剩下更多的斑点有待处理，在212处选择下一个最稳定斑点，并且在206处处理继续以确定下一个最稳定斑点是否为曲线的。处理可以一直继续，直到在202处识别的所有斑点都已经被处理并且被识别为稳定的曲线的斑点或被移除为止。
[0051]在处理期间，可以响应于在206处确定斑点不是曲线的或响应于确定斑点与被确定为曲线的另一斑点重叠而在208处从所述组所识别的斑点中移除一个斑点。在其它实施例中，可以响应于确定斑点不是稳定的来移除斑点。当在210处确定了没有更多的斑点有待处理时(例如每个所识别的斑点已经在206处被确定为曲线的或已被移除)，在214处对其余的斑点(即尚未移除的斑点)进行抽象化。举例来说，可以识别对应于所述斑点的参数化的几何形状以进行额外图像文本处理，如相对于图8描述。在214处对其余的斑点进行抽象化之后，在216处检测一个文本区域并且产生一个或一个以上归一化的二值图像。可以基于对其余的斑点进行抽象化的结果来执行检测文本区域和产生归一化的二值图像。举例来说，作为说明性实例，归一化可包含处理图像数据以移除包含歪斜和倾斜的文本效果。
[0052]通过使用斑点识别和应用选择曲线的并且稳定的斑点的准则来执行文本提取，方法200能够在与基于色彩分段的方法相比大幅减少的处理复杂度下检测输入图像的字符类型的区域。举例来说，色彩分段可能必需对于基于个人计算机的实施方案在计算方面要求很高的处理。此外，通过执行斑点提取和斑点抽象化，可以高效地产生归一化的二值图像，而并不明确地或隐含地要求图像数据具有单个背景色彩和不同于所述背景色彩的单个文本色彩。而是，基于图像的满足非重叠的、稳定的并且曲线的准则的均质区域(均质区域可以是任何色彩)来识别文本。图3中图解说明其中可以使用图1的系统100或通过执行图2的方法200来识别文本的图像的实例。
[0053]图3图解说明含有可以使用斑点提取检测的文本的图像302、304和306。图像302包含其中文本色彩和背景色彩相同的文本。不基于斑点提取的二进制化引擎(例如基于色彩的二进制化)可能无法正确地识别第一图像302中的文本，因为二进制化引擎可能预期文本色彩不同于背景色彩。但是，相对于图1和图2描述的斑点提取和抽象化可以将字母中的每一者识别为不同色彩的边界内的均质区域，并且因而可以正确地识别图像302中的文本。
[0054]图像304包含具有基本上类似于图像背景色彩的色彩并且与不同色彩的区域交界的亚洲字符文本。常规文本提取引擎可能难以识别与图像背景共享相同色彩并且被不同色彩的像素的大型区域包围的文本字符。
[0055]图像306包含叠加在具有复杂色彩方案(具有许多边缘和各种色彩)的背景图象上的白色文本的标志。因为图像306中的文本的背景具有多种色彩并且比较复杂，并且因为文本的色彩(例如词语“fish”中的“ish”)类似于背景的部分，所以常规二进制化和文本提取可能不能够区分所述文本。但是，图2的基于斑点的方法200使得能够识别图像306中的文本，如相对于图4所图解说明。
[0056]参看图4，图解说明图2的方法200的应用的总图被图解说明并且总地来说标示为400。检查对应于图3的图像306的图像402以进行文本提取。在处理期间，可以识别一组斑点并且评估其稳定性。举例来说，对图像402的区域404的处理可能会引起识别多个斑点。可以将斑点406识别为所识别斑点中最稳定的斑点。斑点406对应于图像402中基本上类似色彩的大型区域。斑点406可以是涵盖来自图像402中的短语“fish & chips”的字母“ish”和“&”的多个重叠斑点中的最大斑点。
[0057]在将斑点406识别为图像402中或区域404中的一组所识别斑点中的最稳定斑点之后，确定408斑点406是否为曲线的。因为斑点406的笔划宽度与斑点406的大小相比较大(如相对于图14更详细描述)，所以确定斑点406不大可能对应于图像402中的文本。
[0058]识别所述组所识别斑点中的下一个最稳定斑点。举例来说，另一斑点410 (与斑点406重叠)可以被识别为下一个最稳定斑点。斑点410被检查并且被确定为不是曲线的。因此，移除斑点410不予考虑。可以基于斑点410的稳定性并且独立于斑点410是否与先前检查的斑点406重叠来选择斑点410进行曲线测试。
[0059]当另一斑点412被识别为下一个最稳定斑点时，检查斑点412的曲线性。确定斑点412不满足曲线性的约束，并且将其移除而不予考虑。当斑点416 (接近地对应于词语“fish”中的字母“s”)被识别为下一个最稳定斑点时，测试斑点416的曲线性，并且确定414斑点416是曲线的。因为斑点416是稳定的曲线的斑点，所以斑点416可能很可能对应于文本并且与斑点416重叠的斑点被移除。类似地，当斑点418(对应于字母“i”)被识别为下一个最稳定斑点并且被确定为是曲线的时，移除与斑点418重叠的斑点而不予考虑。
[0060]可以将斑点420识别为下一个最稳定斑点。斑点420包含字母“c”并且还包含图像背景的具有与字母“c”基本上类似色彩的部分。斑点420被识别为不是曲线的，并且被移除而不予考虑。斑点420与仅含有字母“c”的斑点重叠，所述斑点可以被确定为下一个最稳定斑点并且被确定为是曲线的。因此，保留含有字母“C”的斑点作为文本的候选物。以此方式，使用稳定性和曲线准则的斑点提取可以成功地识别图像402的与类似色彩的背景重叠的字母，从而显露出对应于区域404中的文本的斑点。
[0061]虽然斑点406被描述为最稳定的斑点，并且重叠斑点410、412和416被描述为连续的下一个最稳定斑点，但是应理解，斑点稳定性的确定可以与斑点大小和/或重叠无关。举例来说，可以确定斑点406是最稳定斑点。在确定斑点406不是曲线的之后，可以确定斑点416是下一个最稳定斑点。在这个实例中，在确定斑点416是曲线的之后，因为与曲线的斑点416重叠,所以重叠斑点410和412被移除而不予考虑,而无需测试斑点410或412是否为曲线的。作为另一实例，可以确定斑点416(而非斑点406)是最稳定斑点。在确定斑点416是曲线的之后,移除与斑点416重叠的斑点406、410和412而不予考虑,而无需确定斑点406、410和410中的任一者是否为曲线的。
[0062]参看图5，图解说明对应于图4的图像402的图像502和根据图2的方法200执行图像504的区的斑点提取的结果。一组斑点506对应于图像502的稳定的、曲线的并且非重叠的区段。在执行文本区域检测和产生归一化的二值图像之前，可以向斑点抽象化器提供所述组斑点506以便进行抽象化，如相对于图8更详细地描述。
[0063]参看图6，基于斑点的文本提取的实例600包含第一图像602和第一图像602的斑点提取/归一化结果，图解说明为斑点组603。所述斑点组603图解说明已经根据斑点提取和稳定性、曲线性和非重叠准则的应用而识别了第一图像602中的标志中存在的字母中的每一者。已经通过移除文本效果以产生所述组斑点603而将所识别的斑点归一化。
[0064]实例600进一步包含第二图像604，其包含具有与背景不同色彩的第一组字母“boo”和具有与背景相同色彩并且具有画出每一字母的白色边界的第二组字母“hoo”。相对于图1-5描述的斑点提取进程可以产生提取出的斑点，通过移除文本效果可以将所述斑点归一化以产生斑点组605。斑点组605包含对应于字母“boo”的第一组斑点和对应于字母“hoo”的第二组斑点。
[0065]参看图7，投影轮廓分析的实例被图解说明并且总地来说标示为700。第一实例702图解说明使用遵循第一投影方向(其与一系列经识别的斑点交叉)的第一组投影线706的投影轮廓分析，并且产生文本行的投影轮廓708。投影轮廓分析的第二实例704图解说明遵循第二投影方向的第二组投影线710，从而产生文本行的较大投影轮廓712。
[0066]可以对通过图1的文本斑点提取器104识别或相对于图2的方法200的斑点提取部分描述的斑点执行投影轮廓分析。投影轮廓分析可包含选择多个待测试的方向(例如M个方向)，并且可以对图像的具有宽度W和高度H的区域的每一像素执行投影轮廓分析，从而产生大约WXHXM的执行投影轮廓分析的总复杂度。投影轮廓分析可包含选择最小所确定的投影轮廓(例如选择小于投影轮廓712的投影轮廓708)，并且可包含识别对应于投影轮廓的线(即产生最小计算投影轮廓的线)相对于水平方向的角度的文本歪斜。虽然可以对作为像素群组提取的斑点执行图7中图解说明的投影轮廓分析，但是通过在投影轮廓分析之前执行斑点抽象化可以显著减少确定文本歪斜和倾斜的计算复杂度，如相对于图8更详细解释。
[0067]参看图8，斑点抽象化的实例被描绘并且总地来说标示为800。图像802包含具有数字和韩语字符的文本。对应于图像802的斑点提取产生图像804中图解说明的斑点的识另lj。图像804将所提取的斑点图解说明为白色像素对照黑色背景。可以通过斑点抽象化进程处理图像804中提取的斑点，以便产生图像806中的经抽象化的斑点。
[0068]可以通过定位基本上覆盖或涵盖所识别的斑点中的每一者的椭圆形(或其它形状)来执行斑点抽象化。可以使用参数图形，例如椭圆形、三角形、矩形或其它可以使用相对很少数目的参数来识别的形状，作为使用所识别的斑点作为各个像素的集合(并且因而具有等于每一斑点中的像素数目的数目个参数)的计算成本较低的替代方案。如图像806中描绘的斑点抽象化结果中图解说明，已经使来自斑点提取的每一斑点与椭圆形(例如代表性椭圆形807)配合。可以根据能量最小化技术、最小平方误差技术或一个或一个以上其它技术来选择椭圆形，以便获得几何形状与其对应斑点的配合，使得几何形状总地来说对应于与斑点相同的跨距和倾斜角度。
[0069]图8包含一个包含文本的图像808的第二实例。在包含对应于图像808中的文本的斑点并且还包含一个或一个以上其它非文本斑点的图像810中提供斑点提取的结果。在图像812中描绘执行斑点抽象化的结果。如图解说明，图像812中的斑点抽象化的结果包含一组椭圆形，每一椭圆形总地来说对应于对应斑点的大小，并且具有基本上与其对应斑点的定向对准的定向(即长轴)。已经因为非文本斑点的对应椭圆形无法满足一个或一个以上最小大小阈值而排除非文本斑点。
[0070]在执行斑点抽象化之后，在一个实施例中可以通过使用在所识别的几何图形内封闭的像素(例如在图8中图解说明的椭圆形内的像素)执行投影轮廓分析而在计算方面简化投影轮廓分析。在另一实施例中，通过根据描述几何图形的等式确定几何图形中的每一者的投影值，可以更加显著地减少计算复杂度。举例来说，确定椭圆形的投影值的计算相对直接，从而产生复杂度为nxM的总投影轮廓分析，其中η对应于抽象化的斑点的数目(即椭圆形的数目)，并且其中M对应于待测试的文本投影角度的数目。
[0071]与直接对所提取的斑点执行投影轮廓分析相比，通过在投影轮廓分析之前使用斑点抽象化可以节省的计算循环，使得可以执行额外处理操作，而不会在文本提取期间引入大量延迟。举例来说，虽然投影轮廓分析可以实现文本行的歪斜的确定(例如相对于图12更详细描述)，但是也可以执行其它处理，例如估计倾斜、对于微弱透视失真的补偿和多重歪斜处置，相对于图10更详细地描述其中的每一者。
[0072]参看图9，描绘图像中的基于斑点抽象化的文本歪斜和倾斜校正的实例900。图像902被图解说明为具有文本，所述文本被识别为在被图解说明为平行四边形的文本区域内。所述文本具有倾斜，这指示每一字母是倾斜的(例如使用斜体)，并且文本总地来说遵循水平文本行并且因而具有极少或没有歪斜。可以使用斑点提取来识别图像902中的文本，并且将其抽象化成椭圆形或其它参数形状。可以执行投影轮廓分析以识别斑点中的每一者的倾斜量(即所识别文本中的字母中的每一者的倾斜)，并且可以补偿针对斑点中的每一者识别的倾斜，以便产生经补偿的斑点组903。经补偿的斑点组903被图解说明为基本上没有倾斜。因此，通过排除因为倾斜而引起的字符重叠，可以用提高的可靠性来执行字符辨识，如相对于图11更详细地描述。
[0073]图9图解说明包含所识别文本区域内的字符的第二图像904。在斑点提取、抽象化和歪斜与倾斜补偿之后，将所识别文本区域内的字符图解说明为经补偿的斑点组905。图9图解说明包含两个文本区的第三图像906。提供应用于第三图像906的斑点抽象化、提取和补偿的结果作为经补偿的斑点组907。
[0074]参看图10，图解说明输入图像以及对应斑点提取、抽象化和补偿结果的第一实例1002。第一实例1002图解说明应用于文本“Software That Sees”并且还应用于文本“HOME”和“ENTERTAINMENT”的倾斜补偿。在倾斜补偿之后，可以用更大可靠性执行光学字符辨识。第二实例1004图解说明微弱透视补偿。微弱透视可以是可能在远处的对象的图像俘获期间引起的相对常见失真。对于微弱透视效果的补偿可以类似于歪斜检测和补偿以及倾斜检测和补偿。第三实例1006图解说明文本行分离，其使得能够通过将图像的区域识别为分开的文本行来检测多个文本行。第四实例1008提供多重歪斜处置的实例。实例1008中的图像具有三个文本行，前两个文本行具有第一歪斜方向，并且第三文本行具有第二歪斜方向。多重歪斜处置可以执行第一投影轮廓分析，其将文本的底部行识别为单个文本行并且将两个上部文本行识别为另一文本行，所述两行均具有水平偏斜。对图像的上部部分的二级投影轮廓分析可以识别两个分开的文本行，其中的每一者具有类似的非水平歪斜。实例1002-1008图解说明倾斜补偿、透视补偿、文本行分离和多重歪斜处置，其因为斑点抽象化所产生的效率而具有减少的计算要求。
[0075]参看图11，图解说明包含倾斜的图像文本的实例1102。图像文本的每一字母是倾斜的，使得识别对应于每一有待检查的字母的垂直间隙的字符分段例程可能未识别字母之间的清晰分离。举例来说，字母“f” 1106的分段可能会省略“f”的两端，从而导致“f”在光学字符辨识期间不可辨识。类似地，还可能归因于与“f”重叠而误识别邻近于“f”的字母“ο”和“t”。作为另一实例，字母“h” 1110的分段可能在光学字符辨识期间产生误差，因为“h”的左侧部分已被切掉。
[0076]经倾斜补偿的文本的实例1104可能起因于应用于具有倾斜的文本的实例1102的相对于图8图解说明和描述的斑点抽象化。举例来说，可以对在实例1102中图解说明的斑点执行斑点抽象化和投影轮廓分析以便估计斑点的倾斜，并且可以基于估计的倾斜来修改斑点，以便产生实例1104的经倾斜补偿的文本。经倾斜补偿的文本图解说明字母“f”1108和字母“h” 1112的字符分段在倾斜补偿之后可以更准确地区分字母。
[0077]参看图12，描绘文本的歪斜和倾斜的说明性实例1200，其可以被检测和补偿以便在相对于图1到11描述的投影轮廓分析之前使用基于斑点的文本提取和斑点抽象化。文本1202图解说明为具有基线1204。基线1204总地来说对应于文本1202的字母中的每一者的底部。基线1204相对于水平线1208形成一个角度1210。角度1210被称作文本1202的歪斜。此外,文本1202的每一字符形成相对于垂直于基线1204的行1206的角度1214。字符相对于垂直于基线1204的行1206的角度1214被称作字符的倾斜度。如本文中图解说明和描述，可以检测字符歪斜和倾斜两者，并且对其进行补偿以便在投影轮廓分析之前使用由于斑点提取和斑点抽象化而引起的减少的处理复杂度。
[0078]图13描绘一个展示文本图像和斑点提取和抽象化结果1310的实例1300。在实例1300中，将文本图解说明为韩语字符。已提取文本，并且已经根据被图解说明为椭圆形的代表性斑点抽象化1304对所识别的斑点进行抽象化。因为许多类型的文本(例如亚洲字符和其它字母表)可能不严密符合压头线和基线(例如图12中图解说明的基线)，所以可以补充或代替其它对准准则而使用中心线识别。
[0079]举例来说，第一抽象化斑点1304具有比第二抽象化斑点1306显著小的大小。因此，基础分析可能未产生对文本1302的文本行的正确识别。但是，发现穿过斑点的中心的行1308(例如使用最小均方分析)可以产生对中心线的识别以便实现歪斜估计。
[0080]可以根据所揭示的系统和方法使用的歪斜估计方法的其它实例包含基线/压头线配合(这可能对于字母表是有效的)、投影轮廓歪斜估计(例如相对于图7描述，这可能对于多个行的文本是有效的)，和基于斑点抽象化的中心线配合，如在图13中图解说明。因为使用抽象化斑点的歪斜估计方法中的每一者的计算负荷可能相对较小，所以可以执行多个歪斜估计方法，并且可以使用所述多个歪斜估计方法的最有意义的结果或最佳结果作为所选歪斜以用于进一步处理。
[0081]图14提供使用笔划宽度确定曲线性的方法的说明性实施例1400。实施例1400图解说明一个斑点，其包含具有多个像素的字母A，所述像素例如是第一代表性像素p1、第二代表性像素P2和第三代表性像素p3。字母A横跨具有宽度W和高度H的像素区。可以例如根据随机或伪随机选择来选择一组点(例如包含pl，p2，p3)。作为一实例，可以选择一百个点。对于每一所选点，可以通过确定穿过所选点的一组行(例如图解说明为穿过Pl的代表性的一组行1404)而获得对笔划宽度的估计。每一行W可以成不同角度，并且具有穿过第i个所选点的最短长度的行可以对应于穿过所选点(Si)的笔划宽度:
[0082]Si = min (W1, w2, w3...}
[0083]为了说明，穿过像素pl的图解说明的代表性行1404的组中的最短行1402指示在像素Pi处的斑点的笔划宽度。类似地，可以针对每一所选点确定笔划宽度，并且可以将平均笔划宽度确定为针对所选点所确定的笔划宽度的算术平均值。举例来说，可以通过下式确定平均笔划宽度:
[0084]
【权利要求】
1.一种计算机实施的方法，其包括: 接收在图像数据中识别的一组图像区域的指示；以及从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。
2.根据权利要求1所述的计算机实施的方法，其中所述组图像区域中的每一图像区域是对应于所述图像数据的具有大体上类似的像素值的相连像素群组的斑点。
3.根据权利要求1所述的计算机实施的方法，其中至少部分基于图像区域曲线性来进一步选择所述图像区域。
4.根据权利要求3所述的计算机实施的方法，其中至少部分基于图像区域大小与图像区域笔划宽度的比较来确定所述图像区域曲线性。
5.根据权利要求3所述的计算机实施的方法，其中选择所述图像区域包含: 识别所述组图像区域中的满足稳定性准则的一图像区域；以及确定所述所识别的图像区域是否满足曲线性准则。
6.根据权利要求5所述的计算机实施的方法，其进一步包括确定所述组图像区域中的每一图像区域的稳定性量度，且其中识别满足所述稳定性准则的所述图像区域包括基于所述所确定的稳定性量度的比较来选择所述组图像区域中的最稳定图像区域。
7.根据权利要求6所述的计算机实施的方法，其中每一所确定的稳定性量度指示相对于阈值中的改变的图像区域大小中的改变。
8.根据权利要求5所述的计算机实施的方法，其中选择所述图像区域进一步包含，在确定所述所识别的图像区域满足所述曲线性准则之后，从所述组图像区域移除与所述所识别的图像区域重叠的所有图像区域。
9.根据权利要求1所述的计算机实施的方法，其进一步包括: 确定对应于所述选定的图像区域的一组几何图形；以及确定所述组几何图形的投影轮廓。
10.根据权利要求1所述的计算机实施的方法，其中选择所述组图像区域中的至少一个图像区域以用于文本提取，且其中不选择所述组图像区域中的至少另一图像区域以用于文本提取。
11.根据权利要求1所述的计算机实施的方法，其中所述组图像区域中的至少一个图像区域与所述组图像区域中的另一图像区域重叠。
12.—种设备,其包括: 图像区域提取器，其经配置以产生在图像数据中识别的一组图像区域的指示；以及文本图像区域选择器，其经配置以从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取。
13.根据权利要求12所述的设备，其中所述文本图像区域选择器进一步经配置以至少部分基于图像区域曲线性来选择所述图像区域。
14.根据权利要求13所述的设备，其中所述文本图像区域选择器包含: 选择器，其经配置以从所述组图像区域中选择稳定且曲线的图像区域；以及重叠区域移除器，其经配置以从所述组图像区域移除与所述选定的稳定且曲线的图像区域重叠的图像区域。
15.根据权利要求12所述的设备，其进一步包括图像区域抽象化器，其经配置以确定对应于所述选定的图像区域的一组几何图形。
16.根据权利要求12所述的设备，其进一步包括文本区域检测器，所述文本区域检测器经配置以确定所述组几何图形的投影轮廓。
17.—种设备,其包括: 用于识别图像数据中的一组图像区域的装置；以及用于从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取的装置。
18.根据权利要求17所述的设备，其中所述图像区域是至少部分基于图像区域曲线性而进一步选择。
19.一种计算机可读存储媒体，其存储可由处理器执行的程序指令，所述程序指令包括: 用于接收在图像数据中识别的一组图像区域的指示的代码；以及用于从所述组图像区域中选择若干图像区域以用于至少部分基于图像区域稳定性进行文本提取的代码。
20.根据权利要求19所述的计算机可读存储媒体，其中所述程序指令进一步包括用于至少部分基于图像区域曲线性来进一步选择所述图像区域的代码。
21.—种计算机实施的方法，其包括:` 识别对应于图像区域的几何图形，所述图像区域对应于在图像数据中识别的文本的至少一部分；以及至少部分基于所述几何图形而确定所述文本的限定框。
22.根据权利要求21所述的计算机实施的方法，其进一步包括: 响应于所述几何图形相对于所述图像区域的第一配合错误超过阈值，识别对应于所述图像区域的多个几何图形。
23.根据权利要求22所述的计算机实施的方法，其中所述第一配合错误对应于与所述图像区域的总面积相比位于所述几何图形之外的所述图像区域的面积。
24.根据权利要求22所述的计算机实施的方法，其进一步包括响应于所述多个几何图形的第二配合错误小于所述第一配合错误而对所述多个几何图形执行投影轮廓分析。
25.根据权利要求22所述的计算机实施的方法，其中所述多个几何图形是由两个几何图形组成。
26.根据权利要求22所述的计算机实施的方法，其中所述几何图形是椭圆形且其中所述多个几何图形包含多个椭圆形。
27.根据权利要求21所述的计算机实施的方法，其进一步包括: 使用多个投影线来确定所述几何图形的投影轮廓，其中对应于每一特定投影线的所述投影轮廓的值是基于所述特定投影线与所述几何图形的相交点之间的距离。
28.根据权利要求21所述的计算机实施的方法，其进一步包括: 识别对应于图像区域的多个几何图形，所述图像区域中的每一者对应于所述文本的至少一部分；确定所述多个几何图形的第一投影轮廓来估计所述文本的偏斜；以及确定所述多个几何图形的第二投影轮廓来估计所述文本的倾斜。
29.根据权利要求28所述的计算机实施的方法，其中确定所述第一投影轮廓包含确定对应于多组平行投影线与所述多个几何图形相交的角度的多个投影线，以及从所述多个投影轮廓中选择小于所述多个投影轮廓中的任何其它投影轮廓的一投影轮廓。
30.根据权利要求29所述的计算机实施的方法，其中所述偏斜对应于与水平参考相对应的所述平行投影线的所述角度。
31.根据权利要求28所述的计算机实施的方法，其中确定所述第二投影轮廓包含确定对应于多组平行投影线与所述多个几何图形相交的角度的多个投影线，以及从所述多个投影轮廓中选择具有比所述多个投影轮廓中的任何其它投影轮廓少的平行投影线与所述多个几何图形的相交点的一投影轮廓。
32.根据权利要求21所述的计算机实施的方法，其进一步包括: 从一组图像区域中提取若干图像区域，所述图像区域中的每一者对应于所述文本的至少一部分；将所述所提取的图像区域分割为多个群集；以及独立于其它群集中的每一者来确定每一群集的投影轮廓。
33.根据权利要求32所述的计算机实施的方法，其中分割所述所提取的图像区域是至少部分基于所述文本的笔划宽度。
34.根据权利要求32所述的计算机实施的方法，其中分割所述所提取的图像区域是至少部分基于所述文本的色彩。
35.根据权利要求21所述的计算机实施的方法，其进一步包括: 对对应于在所述图像数据中识别的图像区域的第一组几何图形执行第一投影轮廓分析以将所述第一组几何图形分割为第二组几何图形和第三组几何图形；以及对所述第二组几何图形执行第二投影轮廓分析以将所述第二组几何图形分割为第四组几何图形和第五组几何图形。
36.根据权利要求35所述的计算机实施的方法，其中所述第三组几何图形对应于所述文本的第一条线，其中所述第四组几何图形对应于所述文本的第二条线，且其中所述第五组几何图形对应于所述文本的第三条线。
37.一种设备,其包括: 处理器；以及存储器，其存储可由所述处理器执行以进行以下操作的指令: 识别对应于图像区域的几何图形，所述图像区域对应于在图像数据中识别的文本的至少一部分；以及至少部分基于所述几何图形而确定所述文本的限定框。
38.根据权利要求37所述的设备，其中所述指令进一步可由所述处理器执行以响应于所述几何图形相对于所述图像区域的第一配合错误超过阈值，识别对应于所述图像区域的多个几何图形。
39.根据权利要求27所述的设备，其中所述指令进一步可由所述处理器执行以使用多个投影线来确定所述几何图形的投影轮廓，其中对应于每一特定投影线的所述投影轮廓的值是基于所述特定投影线与所述几何图形的相交点之间的距离。
40.根据权利要求27所述的设备，其中所述指令进一步可由所述处理器执行以:识别对应于图像区域的多个几何图形，所述图像区域中的每一者对应于所述文本的至少一部分；确定所述多个几何图形的第一投影轮廓来估计所述文本的偏斜；以及确定所述多个几何图形的第二投影轮廓来估计所述文本的倾斜。
41.根据权利要求27所述的设备，其中所述指令进一步可由所述处理器执行以: 从一组图像区域中提取若干图像区域，所述图像区域中的每一者对应于所述文本的至少一部分；将所述所提取的图像区域分割为多个群集；以及独立于其它群集中的每一者来确定每一群集的投影轮廓。
42.根据权利要求27所述的设备，其中所述指令进一步可由所述处理器执行以: 对对应于在所述图像数据中识别的图像区域的第一组几何图形执行第一投影轮廓分析以将所述第一组几何图形分割为第二组几何图形和第三组几何图形；以及对所述第二组几何图形执行第二投影轮廓分析以将所述第二组几何图形分割为第四组几何图形和第五组几何图形。
【文档编号】G06K9/32GK103765441SQ201280041787
【公开日】2014年4月30日申请日期:2012年7月31日优先权日:2011年9月6日
【发明者】丘衡一, 延奇宣申请人:高通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丘衡一;延奇宣
技术所有人：高通股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。