图像处理方法和图像处理系统与流程

文档序号:22123239发布日期:2020-09-04 16:50阅读:194来源:国知局
图像处理方法和图像处理系统与流程

本发明涉及用于识别图像中所包括的字符的图像处理方法和图像处理系统。特别地,本发明涉及图像的字符识别。



背景技术:

进行字符识别,以将图像中所包括的文本转换成机器编码文本。可以使用字符识别软件分析的图像包括所扫描的文档、文档的照片、场景的照片、录像和叠加在文档上的文本。可以转换的图像中的文本包括打字的、手写的和打印的文本。机器编码文本包括用于电子通信的任何字符编码标准,诸如ascii、unicode和emoji等。字符识别的应用包括:

-向用户显示与图像中所包括的文本相对应的机器编码字符;

-用机器编码字符覆盖图像,使得用户可以选择文本;

-通过允许机器编码文本的搜索来提供图像中所包括的文本的搜索功能;

-机器读取,其中计算装置解释图像中所包括的文本的上下文;

-与图像中所包括的文本相对应的机器编码字符的数据输入;

-自动车牌识别;以及

-实时地转换手写体,以将文本输入到计算装置中。

字符识别软件被配置为接收图像作为输入,并且输出机器编码文本。此外,字符识别软件可以进行错误分析,以确定所输出的机器编码文本的置信度度量。

术语字符识别是指对图像中的各个字符进行辨认(identification)和识别(recognition)。然而,术语字符识别也用于包括单词识别,其中一次辨认和识别一个单词。字符识别以光学字符识别、光学单词识别、智能字符识别和智能单词识别为例。

字符识别是基于文档中所包括的书写系统(诸如拉丁文、西里尔文、阿拉伯文、希伯来文、印度语、孟加拉语、梵文、泰米尔文、中文、日语、韩语、摩斯码和盲文字符等)定制的。字符识别是基于图像中所包括的文本的语言进一步定制的。文本的书写系统和语言可以由用户辨认,或者可替代地,文本的书写系统和语言可以通过字符识别软件从所识别的字符和单词的上下文辨认。此外,字符识别可被定制为处理包括采用多个书写系统或语言的文本的文档。

字符识别通过将机器编码字符与在图像中可以找到的字形的至少一个示例相关联而发生。通过增加表示机器编码字符的字形的数量来提高字符识别的准确度。这对于提高识别各种字体时的准确度特别有用。通过使用机器学习以训练利用神经网络的计算机系统来实现智能识别。智能识别增强了对与作为示例所存储的字形不对应的字符的识别。

机器编码文本经常包含错误。用户可以通过校对机器编码文本来纠正这些错误。这给用户带来负担,因此可利用技术来提高字符识别的准确度并增强对错误的检测。例如,如果输出受到作为预计在文档中将发生的单词的字典的词典影响,则可以提高字符识别准确度。可以通过进行拼写检查或语法检查来增强对错误的检测,以评估机器编码文本的上下文。

开发了专门用于在特定条件下进行检测的字符识别。如果图像的条件是可变的,则字符识别特别困难,在这种情况下,应仔细选择最合适的字符识别技术。例如:

-字符识别软件通常被定制为读取通过多功能外围装置已扫描的文档的干净页面,在这种情况下,如果图像包括水印,则可能会遇到错误;

-字符识别软件可被定制为读取低质量的文档,在这种情况下,与被定制为读取高质量的文档的字符识别软件相比,输出字符将具有提高的准确度;以及

-自动车牌识别被定制用于读取车辆牌照,该自动车牌识别被进一步增强以应对不同的天气条件和不同样式的车辆牌照。

字符识别软件是专用的,由此提高了准确度。然而,字符识别软件消耗诸如处理能力等的计算机资源。此外,要使用的计算机资源影响了执行字符识别软件的时间。要消耗的计算机资源取决于所选择的字符识别技术,并且计算机资源也取决于图像的质量。因此,需要在可用的计算机资源和期望的准确度水平之间达成折衷。



技术实现要素:

本发明的各方面由独立权利要求来阐述。

根据第一方面,提供一种图像处理方法,用于识别图像中所包括的字符,所述图像处理方法包括:对与所述图像的第一区域相对应的包括一个或多个字符的第一字符组进行识别;计算所述第一字符组的置信度度量;基于所述置信度度量来确定是否要进行进一步识别;在确定为要进行进一步识别的情况下,选择所述图像的包括所述第一区域的第二区域;以及对与所述图像的所述第二区域相对应的第二字符组进行进一步识别。

根据第二方面,提供一种图像处理系统,用于识别图像中所包括的字符,所述图像处理系统包括:第一字符识别单元,其被配置为对与所述图像的第一区域相对应的包括一个或多个字符的第一字符组进行识别;测量单元,其被配置为计算所述第一字符组的置信度度量;确定单元,其被配置为基于所述置信度度量来确定是否要进行进一步识别;选择单元,其被配置为在确定为要进行进一步识别的情况下,选择所述图像的包括所述第一区域的第二区域;以及第二字符识别单元,其被配置为对与所述图像的所述第二区域相对应的第二字符组进行进一步识别。图像处理系统的特征可以由一个或多个装置来提供。

可选地,所述图像处理系统包括图像处理设备,所述图像处理设备包括所述第一字符识别单元和所述第二字符识别单元。

可选地,所述图像处理系统包括:第一图像处理设备,其包括所述第一字符识别单元;以及第二图像处理设备,其包括所述第二字符识别单元。

根据第三方面,提供一种程序,所述程序在由图像处理系统实现的情况下,使得所述图像处理系统进行根据第一方面的方法。

根据第四方面,提供一种计算机可读介质,其存储有根据第三方面的程序。

有利地,最好使用多个字符识别单元来识别图像中的字符。因此,使用对图像定制的字符识别单元来进行字符识别。如果图像包括多个条件,则向字符识别单元分配定制这些字符识别单元所针对的图像的区域。通过提供对被辨认为质量低的图像的区域所要进行的计算密集型字符识别,来优化资源的分配。

可选地,所述图像处理系统所进行的所述图像处理方法还包括:对与所述图像的多个第一区域相对应的各自包括一个或多个字符的多个第一字符组进行识别;计算所述多个第一字符组中的各第一字符组的置信度度量;基于相应的置信度度量,针对所述多个第一字符组中的各第一字符组来确定是否要进行进一步识别;在确定为要进行进一步识别的情况下,选择所述图像的各自包括相应的第一区域的多个第二区域;以及对与所述图像的所述多个第二区域相对应的多个第二字符组进行进一步识别。有利地,对多个第二区域进行进一步识别,因此将纠正多个错误。

可选地,确定是否要进行进一步识别包括:基于针对所述多个第一字符组中的各第一字符组的置信度度量,来选择最大数量的第一字符组。有利地,进行最大次数的进一步识别,使得适当地分配可用的计算资源。

可选地,对所述第一字符组的识别包括以下至少之一:矩阵匹配,其中将所述第一区域与字形进行比较;以及特征提取,其中将所述第一区域与字形的多个特征进行比较。矩阵匹配和特征提取是由第一字符识别单元进行的技术。矩阵匹配和特征提取可以单独地或组合地进行。有利地,在第一字符的识别和第二字符的进一步识别之间存在协同,使得第一字符识别单元使用少量处理,由此计算资源可用于进行纠错。

可选地,所述置信度度量是基于针对所述第一字符组中的所有字符的平均权重的。有利地,辨认出如下的单词,其中对于该单词,在该单词的所有字符上,置信度度量平均为低。

可选地,所述置信度度量是基于针对所述第一字符组中的所有字符的最大权重的。有利地,辨认出如下的单词,其中对于该单词,针对该单词的特定字符,置信度度量低。

可选地,在所述置信度度量低于阈值的情况下,确定为要进行进一步识别。有利地,评估是否要进行进一步识别,使得适当地分配计算机资源。因此,如果辨认出多个错误,可以通过按优先级顺序进行进一步识别来处理这些错误。

可选地,在所述第一字符组对应于所述第一区域中的被辨认为具有低于所述阈值的像素数的文本的情况下,确定为要进行进一步识别。有利地,像素数低表明有可能字符识别将包含错误。

因此,进一步识别可被定制用于分析包含具有低像素数的字符的文档。

可选地,如果第一字符组对应于第一区域中的被辨认为具有低于阈值的高度的文本,则确定为要进行进一步识别。有利地,低高度会得到具有低像素数的字符,这表明有可能字符识别将包含错误。因此,进一步识别可被定制用于分析包含不同高度的文本的文档,诸如杂志和报纸的封面等。

可选地,所述第二字符组的进一步识别是针对低质量的图像定制的。有利地,通过使用针对所选择的图像的类型定制的第二字符识别单元来提高字符识别的准确度。

可选地,所述第二字符组的进一步识别是针对图像的第二区域定制的。有利地,通过使用针对所选择的第二区域的类型定制的第二字符识别单元来提高字符识别的准确度。

可选地,所述第二字符组的进一步识别专门用于低质量的图像的区域。可以对第二区域进行评估,以确定质量水平,其中选择第二字符识别单元,这将导致输出置信度度量将会较高的第二字符组。有利地,通过使用被定制为分析低质量图像的第二字符识别单元来提高字符识别的准确度。

可选地,所述第二字符组的进一步识别利用神经网络。所使用的神经网络经训练以识别多个单词串。有利地,这些单词串为神经网络提供上下文信息,使得第二字符识别单元被定制为识别难以孤立识别的单词。

可选地,所述第二区域包括所述第一区域和其它区域,其中所述其它区域先前也经过字符识别。因而,其它区域的字符识别允许将该其它区域用于提供用于进行第二区域的进一步识别的上下文。可选地,第二区域还包括被辨认为与第一区域相邻的一个或多个单词。有利地,相邻单词向第一区域提供上下文,因此预期将增强置信度度量,从而增加错误将被纠正的可能性。

可选地,所述第二区域还包括被辨认为位于与所述第一区域相同的文本行上的一个或多个词。有利地,位于与第一区域相同的文本行上的单词向第一区域提供上下文,因此预期将增强置信度度量,从而增加错误将被纠正的可能性。

可选地,所述第二区域还包括被辨认为向所述第一区域提供上下文的单词。有利地,使用上下文度量来主动地辨认将向第一区域提供上下文的第二区域。因此预期将增强置信度度量,从而增加错误将被纠正的可能性。

附图说明

现在将参考附图仅通过示例的方式来说明实施例,其中:

图1是示出用于识别图像中所包括的字符的图像处理系统的示意图;

图2是示出用于识别图像中所包括的字符的图像处理方法的流程图;

图3a是示出字符识别得到第一字符组的第一区域和字符识别得到第二字符组的第二区域的图;

图3b是示出字符识别得到多个第一字符组的多个第一区域和字符识别得到多个第二字符组的多个第二区域的图;

图4a提供基于置信度度量被确定为包含错误的第一字符组的示例;

图4b提供包括第一字符组的字符组的示例;以及

图4c提供错误已被纠正的第二字符组的示例;

图5a提供第一区域的示例,对于该第一区域,基于置信度度量而确定为要进行进一步识别;

图5b提供图像处理系统所选择的第二区域的示例,其中该第二区域包括第一区域;以及

图5c提供图像中的辨认第一区域和第二区域的文本行的示例。

具体实施方式

以下将参考附图来详细说明本发明的各种典型实施例、特征和方面。以下所述的本发明的各个实施例可以单独实现,或者在需要的情况下或在将各个实施例中的元件或特征组合成一个实施例有益的情况下作为多个实施例或这些实施例的特征的组合来实现。

图1是示出用于辨认图像中所包括的文本的图像处理系统100的示意图。图像处理系统100包括输入101和输出102、多个字符识别单元120、处理器130、以及存储器140。图像处理系统100以包括多个字符识别单元120的单个图像处理设备100为例。作为替代,图像处理系统100可以包括各自具有字符识别单元的多个图像处理设备。

多个字符识别单元120至少包括第一字符识别单元121和第二字符识别单元122,并且可以包括其它的字符识别单元。各字符识别单元120进行用于辨认图像的区域中的字符、并将所辨认出的字符与机器编码文本相关联的功能。基于对图像的区域中的像素的分析来辨认和识别图像的字符。可以用多种字体通过语言的选择来识别字符。

对不同的字符识别单元120进行定制,使得字符识别针对具体条件而被优化。具体条件的示例包括图像的质量、文本的语言、文本的字体、文本是打字的还是手写的、以及可用的计算资源。

第一字符识别单元121被配置为识别图像中的所有文本,并且特别地,识别与图像的第一区域相对应的第一字符组。第一字符识别单元121利用传统技术进行字符识别以识别图像中的文本。使用过分割来辨认图像的字符。将在图像中辨认出的字符与图像处理系统100的存储器中所存储的多个参考字形进行比较。多个技术可用于将在图像中辨认出的字符与参考字形进行比较(诸如矩阵匹配和特征提取等)。矩阵匹配涉及将所辨认出的字符的像素的模式与参考字形的像素的模式进行比较。特征提取将所输入的字符分解成诸如线、闭环、线方向和线交点等的特征,然后将所提取的这些特征与参考字形的相应特征进行比较。

作为对第一字符组进行分析的结果,通过回顾对整个图像进行字符识别来辨认图像的第一区域。可替代地,可以在进行字符识别之前或期间辨认第一区域。第一识别单元121是快速的,并且在分析未被掩盖的明文时是可靠的。

第二字符识别单元122被配置为进一步识别与图像的第二区域相对应的第二字符组。第二字符识别单元122通过利用经训练以识别多个单词串的神经网络来对第二字符组进行进一步识别。第二字符识别单元122利用可用于使用神经网络来识别图像中的文本的传统技术。在第一光学字符识别单元121对整个文档的识别与之后第二光学字符识别单元122对第二区域的进一步识别之间存在协同,从而赋予计算资源用于进行纠错这一技术效果。

单词串为神经网络提供上下文信息,使得第二字符识别单元122被定制为识别难以孤立识别的单词。此外,神经网络可被训练,使得可以准确地识别出低质量图像。神经网络的训练是通过输入要识别的字符的表示来实现的。训练阶段进行梯度下降技术,使得通过减少输出错误来优化神经网络。机器编码文本的输出是基于来自与在训练阶段输入的文本的样本的比较的概率度量。进行神经网络的前馈处理,使得存在向着概率度量的收敛。使用神经网络来定制第二字符识别单元,使得第二字符识别单元可以对在神经网络的训练期间未遇到的字符进行字符识别。

第二字符识别单元122提供已被掩盖的文本的增强识别,尽管这在识别未被掩盖的明文时与第一识别单元121相比准确度低。第二字符识别单元122提高了识别低质量图像中的文本时的准确度。然而,第二字符识别单元122的性能是计算密集型的,这导致图像处理缓慢地进行且占用更多的处理资源。

因此,需要在期望的准确度水平与资源的分配之间找到平衡。这通过使用第一字符识别单元121对整个文档进行图像识别来实现,并且如果确定为要进行进一步的字符识别,则使用第二字符识别单元122来进行进一步的字符识别。

处理器130用作测量单元131、确定单元132和选择单元133。测量单元131被配置为计算第一字符组的置信度度量。确定单元132被配置为基于置信度度量来确定是否要进行进一步识别。选择单元133被配置为选择图像的第二区域,其中该第二区域包括第一区域。因此,处理器130被配置为通过利用多个字符识别单元120所提供的字符识别来辨认如何提高准确度并有效地分配资源。

第一字符识别单元121对整个图像的分析得到与在图像中已辨认出的所有文本相对应的一串机器编码字符。测量单元131提供置信度值,使得确定单元132可以确定该串机器编码字符是否包括错误。错误的辨认可以由选择单元133用于回顾,以辨认图像的要进行进一步识别所针对的第一区域。一旦确定为要进行进一步识别,则选择单元133辨认图像的包括第一区域的第二区域,由此提供将用于进一步评估第一区域的附加信息。

作为替代,可以在第一字符识别单元121对整个文档进行字符识别之前选择第一区域。这允许将第一区域预先确定为图像的应检查第一字符组的部分。例如,如果用户已辨认出图像的该部分特别重要、或者如果已确定为图像的第一区域是低质量的,则这允许优先考虑图像的这些部分。

输入101和输出102被配置为接收和发送电子数据。输入101被配置为例如从局域网、因特网或外部存储器接收要分析的图像。此外,输入101被配置为经由例如鼠标或键盘从用户接收指示。输出102被配置为输出已辨认出的文本。输出102包括用于向用户辨认文本的显示器。输出102包括用于经由因特网进行通信的网络连接。

图像处理设备100的特征可以按不同的方式布置。例如,各个字符识别单元120可以包括处理器130,该处理器130被配置为用作测量单元131、确定单元132和选择单元133。多个字符识别单元120可以是同一设备的一部分,或者可替代地作为系统分布在多个装置上。

图像处理设备100可以是个人计算机的一部分。可替代地,图像处理设备100可以是多功能外围装置的一部分,该多功能外围装置进一步包括扫描仪、复印机、传真机和打印机。

图2是示出用于辨认图像300中所包括的文本的图像处理方法s200的流程图。图像处理方法s200由图像处理系统100实现。一种程序,其在由图像处理系统100实现的情况下,使得图像处理系统进行图像处理方法s200。计算机可读介质存储该程序。

在步骤s210中,第一字符识别单元121进行用于识别与图像300的第一区域相对应的第一字符组111的功能。

第一字符识别单元121对图像进行过分割,从而辨认图像中的字符。将图像分割成数块,然后识别各块。将这些块组装,并且使用上下文信息来对歧义情况作出决定。过分割辨认文档的单词,各单词包括一组字符。过分割辨认文档中所包括的文本行,各文本行包括一组单词。这些单词和行可用于为图像中的字符的识别提供上下文。

第一字符识别单元121对整个文档进行字符识别,因此将分析图像中的所有文本。有利地,该操作是快速进行的,并且提供用于辨认文档中的文本的第一技术。

过分割用于辨认从图像中提取的文本的单词和字符。第一字符组对应于在文本中辨认出的单词。第一字符组是从图像中提取的文本的子集。第一区域是图像的包括第一字符组的部分。可以通过辨认第一字符识别单元121的字符识别为低质量的第一区域来提高文本的准确度。注意,第一字符组可以包括一个或多个字符,诸如针对单词包括单个字母的情形仅辨认出的单个字符等。

在一些情况下,文本包括第一字符识别单元121的字符识别为低质量的多字符组。在这种情况下,辨认图像的多个第一区域,这些第一区域中的各第一区域对应于不同的第一字符组。有利地,可以通过辨认应纠正的多个错误来提高文本的准确度。

各第一区域与已识别出的相应第一字符组相关联。因此,可以在输入图像和输出文本之间进行映射。在需要通过再次对第一字符组进行字符识别来进一步详细地研究第一字符组的准确度的情况下,将第一区域与第一字符组相关联是有用的。此外,在向图像添加层以提供覆盖文档的原始图像的可选择的机器可读文本时,这对于在输入图像和输出文本之间进行映射是有用的。

在步骤s220中,测量单元131进行用于计算第一字符组111的置信度度量的功能。

置信度度量针对字符识别单元120所检测到的各个字符辨认置信度水平。有利地,置信度水平允许在从第一字符识别单元121输出的文本中辨认出并消除错误。

如果图像包括之前未遇到的样式(诸如不同字体或已被掩盖的文本等),则通常会发生错误。可能存在识别标点符号的错误,这导致识别字符的困难。此外,图像中的缺陷可能会掩盖文本。图像的质量会影响在识别文本时遇到的错误,因为这会引入歧义。如果没有足够的像素则很难识别字符,因为低分辨率降低了映射到存储器中所存储的字符集上的准确度。辨认高度低的文本特别困难,因为这样会得到具有低像素数的字符。

低置信度度量表明字符识别单元120的识别包括错误。各种技术可用于辨认错误,例如:

-向各字符指派权重w,该权重w辨认所识别的字符准确地表示图像中所辨认出的字符的概率;

-向各单词指派权重average(w),该权重average(w)表示针对该单词的所有字符的平均权重;

-向各单词指派权重maximum(w),该权重maximum(w)表示该单词的特定字符的最大权重;

-向各行指派如下的权重,该权重表示该行的所有字符的平均权重或最大权重;

-进行拼写检查,以确定所检测到的单词是否包括在字典中;

-确定所检测到的单词是否包括任何不一致的特征,例如包含标点符号等;

-比较已识别的不同单词以评估这些单词是否具有适当的上下文,诸如检查语法等;

-确定组成图像中的字符的像素数,因为这表示已用于获得第一字符组的第一区域的分辨率;

-确定图像中的字符的高度,因为字符的低高度导致组成字符的像素数低;以及

-上述技术的任何组合,例如组合地采用度量average(w)和maximum(w)等。

除了在第一区域和第一字符组之间存在关联之外,这两者还进一步与置信度度量相关联。对于已辨认出与多个第一字符组相对应的多个第一区域的情形,计算多个置信度度量。一旦第一字符组被辨认为具有低置信度值,可以回顾性地发生第一区域的辨认。

在步骤s230中,确定单元132进行用于基于置信度度量来确定是否要进行进一步识别的功能。如果置信度度量低,则这表明第一字符组可能包括错误。因此,如果置信度度量低于阈值,则这表明应进行进一步处理。对于辨认出具有低置信度度量的多个第一字符的情形,通过选择要进行进一步识别的最大数量的第一字符组,来分配计算机资源以针对最低的置信度度量进行进一步识别。

置信度度量对应于第一字符组。因而,置信度度量对应于第一区域。机器编码文本和图像之间的映射可以在计算出置信度度量之后发生,使得第一字符组与第一区域相关联。可替代地,可以在计算置信度度量之前建立第一区域和第一字符组之间的映射。

如果不进行进一步识别,则方法s200结束,这对应于在第一字符识别单元121所输出的机器编码文本中未辨认出错误的情形。然而,如果要进行进一步识别,则方法s200进入步骤s240。对于辨认出多个第一区域的情形,针对确定为要进行进一步识别的第一区域,方法s200进入步骤s240。因此,如果无需进行进一步识别,则这允许节省资源,从而加快字符识别的进行。

与是否要进行进一步识别有关的确定是基于置信度度量的。如果阈值度量低于阈值,则这表明第一字符识别的质量低,因此要进行进一步识别。特别地,考虑组成置信度度量的权重值。此外,可以考虑组成字符的像素数,诸如确定字符的高度等。

对于辨认出多个第一区域的情形,基于置信度度量来对各个第一区域进行排序。有利地,优先向最需要进一步识别的第一区域分配资源。用于提供进一步识别的可用处理量是有限的,因此可以进一步分析最大数量的第一区域。该最大数量可以由用户选择,根据图像文档的大小来确定,或者通过评价所计算出的多个置信度度量来确定。可替代地,对多个第一区域进行排序允许进行进一步识别,直到可用资源耗尽为止,诸如可用于进一步识别的处理量是有限的等、或者诸如表明无进一步的时间可用于进一步识别的处理的计时器等。

在步骤s240中,如果确定为要对第一区域进行进一步识别,则选择单元133进行用于选择图像300的包括第一区域的第二区域的功能。

第一区域对应于形成一个或多个单词的字符组。第二区域包括第一区域,因为要对该第一区域进行进一步识别步骤。然而,第二区域大于第一区域,因为第二区域还包括图像的将向第一区域提供上下文的部分。第二区域包括向第一区域的附加信息,诸如以下等:

-与第一区域相邻的单词;

-包括第一区域的整行文本;以及

-图像的被辨认为向第一区域提供上下文的部分。

在步骤s250中,第二字符识别单元进行用于进一步识别与图像300的第二区域相对应的第二字符组222的功能。

第二区域是图像的子集。因此,尽管第一字符识别单元121对整个文档进行字符识别,但第二字符识别单元122对图像的更小部分进行字符识别。因此,第二字符识别单元122关注于已被辨认为包括错误作为第一区域的一部分的第二区域。此外,第二字符识别单元122利用被辨认为向第一区域提供上下文的附加信息。

预期第二字符识别单元122的输出与第一字符识别单元121的输出相比将更准确。因此,第一字符识别单元121所输出的文本的相应部分被第二字符识别单元122的输出取代。有利地,通过在平衡计算资源的分配的同时、利用针对正分析的图像定制的多个字符识别单元,来提高字符识别的准确度。

作为替代,多个字符识别单元120可以包括专门用于纠正字符识别中的错误的其它字符识别单元。第二字符识别单元122可被定制为对诸如低质量扫描等的特定类型的图像进行字符识别。因而,基于被辨认为具有低质量的第二区域来选择第二字符识别单元122。因此,使用适当的字符识别单元120来对图像进行图像处理方法s200。有利地,选择最合适的第二字符识别单元122来进行进一步识别。

图3a是示出图像处理方法s200如何辨认图像300中所包括的文本的图。

在步骤s210中,第一字符识别单元121对第一区域1进行字符识别,由此获得第一字符组111。进行步骤s220~s240以确定是否要进行第一区域1的进一步识别。

在步骤s250中,第二字符识别单元122对第二区域2进行字符识别,由此获得第二字符组222。

图3a示出与文本行相对应的第二区域2。选择文本行是因为,该文本行被认为有可能为第一区域1的分析提供上下文。有利地,第二字符识别单元122被定制为分析低质量图像,因此预期第二字符组具有比在利用第一字符识别单元121进行第一区域1的字符识别时所确定的低置信度度量更高的置信度度量。

图3b是示出图像处理方法s200如何辨认图像300中所包括的文本的图。

在步骤s210中,第一字符识别单元121对多个第一区域1a~1c进行字符识别,由此获得多个第一字符组111a~111c。可选地,第一字符识别单元121被配置为分析整个文档,尽管可替代地,第一字符识别单元121被配置为分析文档的一部分。进行步骤s220~s240,以确定是否要对第一区域1a~1c中的各第一区域进行进一步识别。

在步骤s250中,第二字符识别单元122对多个第二区域2a~2c进行字符识别,由此获得多个第二字符组222a~222c。

图3b示出同与第一区域1a~1c相邻的单词相对应的第二区域2a~2c。可以使用与第一区域1a~1c相邻的一个或多个单词。预先指定要包括在第二区域2a~2c中的单词的数量。可替代地,可以通过证实是否有足够的单词提供上下文来确定单词的数量。如果第一区域1a是第一个单词,则在第一区域1a之前将不存在单词,因此第二区域2a将由出现在第一区域1a之后的相邻单词组成。同样,如果第一区域是最后一个单词,则在第一区域1a之后将不存在单词,因此第二区域2a将由出现在第一区域1a之前的相邻单词组成。

图3a和3b示出可以单独地或组合地提供的由图像处理系统100进行的图像处理方法s200的示例。因此,选择单元133基于预先选择的与应根据图3a选择行还是应根据图3b选择相邻单词有关的设置,来选择第二区域。可替代地,可以评估第二区域是否提供第二字符识别单元122所要使用的上下文。

图4a~4c和图5a~5c示出可以如何辨认第一区域111和第二区域222的示例。作为替代,可以组合地提供图4a~4c和图5a~5c的示例以辨认第一区域111和第二区域222。此外,图4a~4c和图5a~5c用于说明第二区域222所提供的上下文可以如何用来对第一区域111进行识别。

图4a~4c提供利用上下文的字符识别的示例,对于该上下文,使用与第一字符组41相关联的置信度值来确定为要利用第二字符识别单元122对第一区域111进行进一步识别。

图4a提供基于置信度度量而确定为包含错误的第一字符组41的示例。

上下文在阅读文本行时非常重要。例如,你读到了什么?

“m4k35”

测量单元计算置信度值,其中由于第一字符组41包括字母和数字,因此该置信度值低。因此,确定单元132确定要进行进一步识别。

第一字符组41对应于第一区域111。

图4b提供包括第一字符组41的字符组42的示例。

尝试阅读该行:

“exampleofalinewherecontextm4k35adifference”。

选择单元133辨认作为用于向第一字符组41提供上下文的候选的从第一字符识别单元121所输出的字符42。

上下文的提供可以是主动的或被动的。作为提供被动上下文的第一示例,字符42可被辨认为在与第一字符组41相同的文本行上。作为提供被动上下文的第二示例,字符42可被辨认为与第一字符组41相邻的单词。作为提供主动上下文的示例,上下文度量可以肯定地辨认为该字符组42将向第一字符组41提供上下文。

选择单元133利用该字符组42来辨认将要用于提供进一步识别的第二区域222。

图4c提供错误已被纠正的第二字符组43的示例。

第二字符组43是通过第二字符识别单元122对图像的第二区域222进行字符识别所输出的。

因此,对文本进行纠正以读为:

“exampleofalinewherecontextmakesadifference”。

对于第二字符识别单元121所输出的第二字符组43,测量单元131计算比第一字符识别单元122所输出的字符组42高的置信水平。

第一字符识别单元121所引入的错误已由第二字符识别单元122纠正。因此,第一字符识别单元121所输出的字符42被第二字符识别单元所输出的第二字符组43取代。

图5a~5c提供利用上下文的字符识别的另一示例,对于该上下文,使用与第一区域51相关联的置信度值来确定为要由第二字符识别单元122进行进一步识别。

图5a提供图像处理系统100所检测到的第一区域51的示例。

第一字符识别单元121对整个图像进行字符识别。考虑辨认包括形成单个单词的两个或三个字符的第一字符组111的情形。此外,第一字符组111被识别为机器编码字符“lo”。第一字符组111与第一区域51相关联。测量单元131所计算出的置信度值低,这可能是因为:

-区域51的像素数低;

-像素无法精确地映射到第一字符识别单元121所存储的机器编码字符中的任何机器编码字符;以及

-对单词“lo”进行拼写检查表明有可能存在错误。

难以从视觉上辨认与图5a所示的图像相对应的字母,这是因为该图像的质量低,并且不存在用以确定所检测到的像素的任何含义的上下文。

图5b提供图像处理系统100所选择的第二区域52的示例。

第一区域51包括在第二区域52中。第二区域52通过包括与第一区域51相邻的单词中的一些单词,来向第一区域51提供上下文。

第二字符识别单元122在第二区域上进行,这样得到第二字符组:

“describesingreaterdetail”。

图5c提供文本行53的示例。行53的第一区域51对应于图5a所示的第一区域51。行53的第二区域52对应于图5b所示的第二区域52。

由第二区域52所包括的相邻单词向第一区域51提供的上下文得到提高的置信度度量。因此,第二字符组222取代第一字符识别单元111所识别的相应字符。

因此,对文本行53进行了识别以读为:

“thenextsectiondescribesingreaterdetail”。

还可以通过读出并执行记录在存储器装置上的程序以进行上述示例的功能的系统或设备(或者诸如cpu或mpu等的装置)的计算机和通过下面的方法来实现上述示例,其中,该系统或设备的计算机通过例如读出并执行存储器装置上所记录的程序以进行上述示例的功能来进行上述方法的步骤。为此目的,该程序例如经由网络或者从用作存储器装置的各种类型的记录介质(例如,诸如非暂时性计算机可读介质等的计算机可读介质)被提供给计算机。

尽管已经参考实施例说明了本发明,但是应该理解,本发明不限于所公开的实施例。本发明可以以未背离本发明的主要特征的各种形式来实现。所附权利要求书的范围符合最宽的解释,以包含所有这类修改、等同结构和功能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1