文档图像识别方法和设备的制作方法

文档序号:6494079阅读:228来源:国知局
文档图像识别方法和设备的制作方法
【专利摘要】本发明公开了文档图像识别方法和设备。用于识别具有混合的主要语言和次要语言的字母的文档图像的方法包括分割步骤,用于将文档图像分割成至少一个长字符串;提取步骤,用于从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊字符提取字符串单元;以及识别步骤,用于基于各识别的字符串单元来识别该文档图像。
【专利说明】文档图像识别方法和设备
【技术领域】
[0001]本发明涉及用于识别文档图像的方法和设备。特别地,本发明涉及用于通过辨识(distinguish)从文档图像分割出的长字符串中的各部分的语言来识别文档图像的方法和设备。
【背景技术】
[0002]在光学字符识别(OCR)领域中,大多数OCR系统常常需要应对一些多语言混合的文档图像。已经开发出了许多用于这样的具有多种语言的混合的文档的辨别(distinct ion)或者分类(categorization )的技术。一些技术在对于包含不同语言的文档进行OCR之前实现对该文档的分类。
[0003]例如,文献I和2中公开了用于区分这种类型的文档的方法,该文献I和2通过引用将全文并入此。在此方法中,已经开发出了如下这样的系统,即该系统可识别二十三种基于拉丁语的语言(英语、法语等)以及三种基于汉语的语言(汉语、日语和韩语)。首先,该系统使用向上凹度(upward concavity)的分析来区分基于拉丁语的脚本与基于汉语的脚本。然后,该系统通过分析字符单元的光学密度来辨识基于汉语的语言。对于基于拉丁语的语言,系统通过分析语言的单词形状标志来对它们进行辨识。
[0004]文献3和4公开了其它的分类方法,文献3和4通过引用将全文并入此。在此方法中,已经开发了如下系统,该系统可识别阿拉伯语、表意字和拉丁语脚本。系统通过使用各种属性(行的高度分布、字符密度和水平投影)来归类(classify)出这三种主要的脚本(阿拉伯语、表意字和拉丁语脚本)。
[0005]这些方法的缺陷在于它们不能区分包含具有相同或相似形状的字符(character)的语言,例如基于汉语的语言中的简体中文和繁体中文;俄语(希腊语)和拉丁语等。将以具有混合的俄语(希腊语)/拉丁语字母的文档图像为例来描述出现不正确的结果的原因,并且该表述“混合的俄语(希腊语)/拉丁语字母”指的是混合的俄语和拉丁语字母或者混合的希腊语和拉丁语字母。出现不正确的结果的原因在于为了识别具有混合的俄语(希腊语)/拉丁语字母的文档图像中的字符,OCR系统需要基于俄语(希腊语)字符集和拉丁语字符集两者来实现识别。拉丁语的字符集由两部分构成:ASCII字符集和扩展字符集。而且,对于拉丁语,基本上,它们的ASCII字符集部分中定义的字符全部与扩展字符集部分中定义的字符一起被用于拉丁语单词中。对于俄语和希腊语字符集,ASCII字符集中定义的字符没有被用于俄语(希腊语)单词中。在俄语(希腊语)字符集中,存在许多具有与拉丁语字母中的字符相似的形状、但是具有不同的代码的字符。例如,其代码在IS0-8859-7(俄语字符集)中定义为OxBO的俄语字符的形状与在IS0-8859中定义为0x41的拉丁字符‘A’的形状相同。OCR系统不能基于它们的形状特征区分俄语(希腊语)和拉丁语字母中定义的这些相似的字符。因此,这些相似字符的识别结果常常是不正确的。
[0006]为了应对包括具有相同或相似形状和不同代码的字符的这类文档图像,中国专利申请N0.200810108571.1中公开了基于OCR结果的分类方法,该中国专利申请通过引用将全文并入此。该方法用于区分简体中文和繁体中文。首先,通过基于大量的已知语言文档的训练处理来生成简体中文和繁体中文两者中的识别置信度范围。然后,通过简体中文OCR和繁体中文OCR分别识别未知语言文档。基于该识别置信度范围,选择简体中文或者繁体中文识别结果中的特殊字符。该方法通过对这些特殊字符的在简体中文和繁体中文两者中的平均识别置信度进行比较,来确定文档的语言。
[0007]该方法的缺陷在于其执行了整个文档的语言的辨别,但是不能区分文档的句子中的不同语言的单词。图1A示出了与此情况类似的示例性句子,其包括许多具有混合的不同语言的单词。在该句子中根据不同语言的特殊字符确定该句子的语言可能是不可靠的。
[0008]通过引用而将全文并入此的文献5中公开的方法通过计算一个单词中的各字符的候选的分值以用于确定是否由其它语言字符进行替换来实现混合字母文档中的语言确定。为了替换类似的字符,该方法生成拉丁一西里尔(西里尔一拉丁)变换表。此方法的缺陷在于需要字符的各候选的三重频率(trigam frequency)和Levenstein距离。因此,该方法的过程费时并且具有巨大的开销。此外,这些数据的生成依赖于可能是互联网的大的子集的大的文档。因此,文献5中公开的方法不能快速且高效地准确识别混合字母文档图像。
[0009]美国专利3988715中公开了用于也基于OCR识别结果对包括具有相同或者相似形状的字符的不同语言进行分类的另一种方法,该美国专利通过引用将全文并入此。此专利提出了一种用于应对混合有多种语言和数字的文档的方法。首先,一种字符识别引擎识别字符并且对于每个字符输出η个通道结果,其中每个通道对应于一种语言或数字。对于一个字符串,此方法计算第i个通道识别结果的组合条件概率(jointed conditionprobability)的乘积。通过比较字符串的η个通道中的组合条件概率的乘积,该方法辨识整个字符串的语言或数据类型,其中组合条件概率指的是在第i个通道中输出结果正确的条件下其它η -1个通道中的识别结果的组合概率。
[0010]该方法没有使用结果的具有更有用的信息的识别置信度;该方法假定在一个字符串中,仅存在一种语言。因此,如果由于单词分割错误而使得一个字符串包括不同语言部分,则该方法的辨别结果将是不可靠的,如图1B所示。
[0011]因此,如果一个长字符串包括两种或更多种语言的部分时,现有技术将不能准确地确定整个单词的语言。现有技术中的用于区分多种语言的技术没有公开任何应对这种类型的字符串的步骤或设备。也就是说,现有技术不能可靠地和准确地识别包括不同语言部分的字符串。
[0012]由于不同字母表中定义的相似字符总是具有相同或相似的形状,
[0013]现有技术没有公开任何基于该相似字符区分多种语言的步骤或设备。
[0014]现有技术没有公开任何应对全部由相似字符构成的单词的步骤或设备。
[0015]引用文献列表
[0016][I].P.Sibun and A.L.Spitz.Language Determination:Natural LanguageProcessing from Scanned Document Images.1n Proceeding of the Fourth Conferenceon Applied Natural Language Processing.Pp.423-433, Las Vegas,Aprill995.[0017][2].L.Spitz.Determination of the Script and Language Content ofDocument Images.1EEE Transaction on Pattern Analysis and Machine Intelligence,Voll9, n0.3,pp.235-245,1997.[0018][ 3 ].Y.Suen,S.Bergler,N.Nobile, B.Waked, C.P.Nadal andA.Bloch,Categorizing Document Image Into Script and Language Classes, In theprocessings of the International Confidence on Advances in Pattern Recognition,23-25Novemberl998, Plymouth, UKj pp.297-306.[0019][4].N.Nobile, S.Berglerj C.Y.Suen and S.Khoury.Language Identificationof On-Line Documents Using Word Shapes.1n Proceedings of the FourthInternational Conference on Document Analysis and Recognition, August1997,Ulmj Germany, pp.258-262.[0020][5].Christoph Ringlstetterj Klaus U.Schulz, Stoyan Mihov and KaterinaLouka.The same is Not The Same - Postcorrection of Alphabet Confusion Errorsin Mixed-Alphabet OCR Recognition.Proceedings of the 2005 Eight InternationalConference on Document Analysis and Recognition(ICDARr 05).
【发明内容】

[0021]本发明旨在解决上述问题。本发明的一个目的是提供一种解决上述问题中的任一个的方法和系统。
[0022]本发明的一个目的是提供一种用于可靠和准确地识别文档图像中的包括不同语言部分的字符串的方法和设备。
[0023]本发明的另一个目的是提供一种用于可靠和准确地识别文档图像中的完全由相似字符构成的字符串的方法和设备。
[0024]在本发明的一个方面,提供了一种具有混合的主要语言和次要语言的字母的文档图像的识别方法,包括:分割步骤,用于将文档图像分割成至少一个长字符串;提取步骤,用于从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊字符提取字符串单元;以及识别步骤,用于基于各识别的字符串单元来识别该文档图像。
[0025]在本发明的另一个方面,提供了一种具有混合的主要语言和次要语言的字母的文档图像的识别设备,包括:分割装置,被配置为将文档图像分割成至少一个长字符串;提取装置,被配置为从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊字符提取字符串单元;以及识别装置,被配置为基于各识别的字符串单元来识别该文档图像。
[0026]从参照附图的示例性实施例的以下描述,本发明的其它特征将变得清晰。
【专利附图】

【附图说明】
[0027]并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于解释本发明的原理。在附图中,相似的附图标记指示相似的项目。
[0028]图1A和IB示出具有混合的主要语言字母和次要语言字母的两个可能的单词。
[0029]图2是用于实现文档图像识别的计算设备的布置的框图。
[0030]图3是示出第一实施例的文档图像识别方法的流程图。
[0031]图4是示出第一实施例的文档图像识别设备的框图。
[0032]图5是示出第一实施例中的提取步骤的过程的流程图。[0033]图6是示出提取装置的框图。
[0034]图7A和7B是特殊符号的解释性示图。
[0035]图8示意性地示出字符的图像几何特征。
[0036]图9A和9B是示出第二实施例的文档图像识别方法的流程图。
[0037]图1OA和IOB示出俄语和拉丁语中的相似字符表。
[0038]图1lA和IlB示出希腊语和拉丁语中的相似字符表。
[0039]图12是示出基于代码的确定步骤的过程的流程图。
[0040]图13是示出第二实施例的第一确定步骤的过程的流程图。
[0041]图14是示出第二实施例的第三确定步骤的过程的流程图。
[0042]图15示出不相似字符的前三个候选的比较。
[0043]图16是示出修正步骤的过程的流程图。
[0044]图17是示出第三实施例的文档图像识别方法的流程图。
[0045]图18是示出基于置信度的确定步骤的过程的流程图。
[0046]图19是字符串单元中的非相似字符的前三个候选的置信度。
[0047]图20是示出本发明的实施例的文档图像识别设备的框图。
[0048]图21A至21C示出示例I。
[0049]图22示出示例I的比较例。
[0050]图23A和23B示出示例2。
[0051 ]图24示出示例2的比较例。
【具体实施方式】
[0052]下文将参照附图详细描述本发明的实施例。
[0053]为了有助于透彻地并且适当地理解本发明,下文将首先解释本发明的说明书以及权利要求书中所使用的术语。
[0054]在本申请的说明书和权利要求中,尤其是当在文档图像中使用时,术语“主语言”或“主要语言”是在文档图像中具有较大比例的单词的语言,并且术语“次语言”或“次要语言”是文档图像中具有较小比例的单词的语言。例如,在主要由俄语写成的文档中,俄语是主要语言,并且诸如意大利语(英语、德语、法语等)的其它语言可以是次要语言。
[0055]在本发明中,例如,将基于作为主要语言的俄语或希腊语以及作为次要语言的拉丁语来进行描述。为了方便起见,在以下的方法的各步骤的描述中主要描述在具有混合的俄语/拉丁语的文档的上下文中的识别,并且基于俄语和拉丁语的混合生成以下的特殊数据和阈值。由于俄语/拉丁语和希腊语/拉丁语中的辨别和修正具有相同的步骤,并且实际上,俄语(希腊语)/拉丁语中采用的特殊数据或阈值依赖于文档中混合的语言,因此以下的步骤也可应用于具有混合的希腊语和拉丁语的文档图像的识别。
[0056]在该实施例中,俄语字符的代码在IS0-8859-7 (从OxaO到Oxff)中被定义,并且希腊语字符的代码在IS0-8859-5 (从OxaO到Oxff的代码)中被定义。拉丁语字符在IS0-8859-1, -2,— 4 中被定义。
[0057]但是,本发明并不限于此,并且可应用于具有混合的主要语言和次要语言的任何其它文档的识别。[0058]术语“候选”是通过包含主要语言和次要语言字符的OCR字典利用一个字符识别引擎识别字符的初步识别结果,并且候选是该初步识别的字符可能是的字符。一般来说,一个字符可具有多个候选,并且该多个候选可按置信度的顺序被排序,而不管它们的语言类型如何,并且一个候选的置信度指的是通过利用包含主要语言和次要语言字符的OCR字典进行识别所获得的置信度。
[0059]术语“相似字符”指的是与主要语言和次要语言中的具有相似形状的两个对应字符之一相一致的字符。特别地,相似字符可指的是主要语言中的字符或者次要语言中的对应的相似的字符,主要语言中的相似字符和次要语言中的对应的相似字符具有相同或者相似的形状,但是在主要语言和次要语言各自的字符集中具有不同的代码。
[0060]术语“相似字符表”由相似字符(B卩,主要语言中的相似字符和次要语言中的对应的相似字符)构成,因此相似字符表通常包括两个子表,一个子表由主要语言中的相似字符构成,并且另一子表由次要语言中的相似字符构成。只要一个字符被包含在相似字符表、即其两个子表中的任一个中,则该字符被认为是相似字符。
[0061]术语“非相似字符”指的是不在该相似字符表中的字符。
[0062]术语“特殊符号”是一种字符,并且是逗号(‘,’)、句点(’)、连字符()等中的一个。在多语言文档中,不同语言的一些词语可能被用特殊符号链接以形成一个长字符串。
[0063]图2是示出根据实施例的实现文档图像识别过程的计算设备的布置的框图。为了简便起见,该过程被示出为内置在单个计算设备中。但是,不管该过程被内置在单个计算设备中还是被内置在作为网络系统的多个计算设备中,该过程都是有效的。
[0064]如图2所示,计算设备100用于实现文档图像识别的过程。计算设备100可包括CPU101、芯片组102、RAM103、存储控制器104、显示控制器105、硬盘驱动器106、CD — ROM驱动器107、以及显示器108。计算设备100还可包括连接于CPUlOl和芯片组102之间的信号线111、连接于芯片组102和RAM103之间的信号线112、连接于芯片组102和各种外围设备之间的外围设备总线113、连接于存储控制器104和硬盘驱动器106之间的信号线114、连接于存储控制器104和CD - ROM驱动器107之间的信号线115、以及连接于显示控制器105和显示器108之间的信号线116。
[0065]客户设备120可直接或经由网络130连接到计算设备100。客户设备120可例如向计算设备100发送执行文档图像识别的处理所需要的指令和/或参数,并且计算设备100可将信息返回给客户设备120或者在显示器108上显示信息。
[0066][第一实施例]
[0067]将参照图3和4描述根据本发明的第一实施例,其中,图3是示出根据该实施例的识别具有混合的主要语言和次要语言的字母的文档图像的方法的流程图。
[0068]在步骤S301 (分割步骤(segmenting step))中,将文档图像分割成至少一个(通常为多个)长字符串。作为用于分割的常用技术,具有混合的主要语言和次要语言单词的文档图像被一个字符识别引擎利用包括主要语言和次要语言的OCR字典初步识别,其中识别过程包括但不限于行分割,字符分离以及单个字符识别,然后从由此获得的识别结果中根据其中的空格字符来分割出长字符串。应注意,上述技术仅是示例性的,并且本发明并不因此受限。
[0069]在步骤S302 (提取步骤)中,从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊字符提取字符串单元。由于在具有混合的主要语言和次要语言单词的文档的上下文中,在大多数情况下,长字符串可包括属于不同语言的一些单词,并且长字符串中的不同语言的单词总是通过诸如连字符的特殊符号相链接,因此该提取步骤可将可能的混合语言长字符串划分成较短的字符串单元,每个字符串单元属于单一语言,从而长字符串的各部分的语言的确定将更加容易,因此长字符串可被更加可靠和准确地识别,而不会使得该长字符串被认为属于一种语言。下文将描述提取步骤的操作。
[0070]在步骤S303 (识别步骤)中,基于各提取的字符串单元来识别文档图像。基于提取步骤的提取结果可以可靠和准确地识别长字符串继而识别整个文档图像。识别技术不被具体限制。
[0071]图4是示出第一实施例的识别文档图像的设备的框图。该设备400可包括被配置为将文档图像分割成至少一个(通常为多个)长字符串的分割装置401,被配置为从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊字符提取字符串单元的提取装置402,以及被配置为基于各提取的字符串单元来识别该文档图像的识别装置403。
[0072]将参照图5详细描述该提取步骤。在步骤S501 (匹配确定步骤)中,根据长字符串中包含的各字符的候选的代码确定具有如下的至少一个候选的字符,该至少一个候选中的每一个候选是符号并且与该长字符串中包含的特殊符号的预定列表中包含的一个特殊符号匹配。更具体而言,特殊字符的匹配确定包括首先选择长字符串中的其第一候选为次要语言符号(即拉丁语符号)的字符,然后将该第一候选和所选字符的后续候选的代码与特殊符号列表中的代码相比较。如果该字符的一个候选的代码在该特殊符号列表中被找到,则该候选与和在该特殊符号列表中找到的代码对应的特殊符号相匹配,并且该字符可能是该特殊符号。但是,一个字符可能具有若干个候选,该若干个候选的代码可能由于初步OCR的精度而都在该特殊符号列表中被找到,也就是说,该字符可能与若干个不同的特殊符号相匹配。
[0073]图7A和7B是特殊符号的说明性示图,其中图7A示出包含特殊符号的一个长字符串的示例,并且图7B示出该特殊符号的字符的候选。如图7A和7B所示,字符的第一候选和第二候选都与特殊符号列表中的符号相匹配。
[0074]如果存在与特殊符号的预定列表中的符号相匹配的任何候选,则过程前进到步骤S502,以便更准确地确定该字符实际上是哪个特殊符号,否则该长字符串将被示为属于单一语言的字符串单元。
[0075]在步骤S502 (检测步骤)中,具有匹配的候选的字符对应于哪个特殊符号是通过将该字符的图像几何特征与对应的匹配特殊符号中的每一个的图像几何特征进行比较来确定的,其中当字符的图像几何特征在一个特殊符号的图像几何特征的阈值的范围内时,该字符被视为该特殊符号。更具体而言,对于与特殊符号列表中的符号相匹配的一些候选,确定长字符串中的与匹配的候选对应的字符的图像几何特征是否与该特殊符号列表中的该符号中的任一个的图像几何特征相一致。
[0076]如果具有匹配的候选的字符的图像几何特征和特殊符号列表中的对应的匹配特殊符号中的任一个的图像几何特征相一致,则长字符串中的匹配的字符被视为特殊符号,并且该长字符串可基于该特殊符号被划分成字符串单元。否则,该长字符串将被示为属于
单一语言的字符串单元。[0077]字符的图像几何特征可包括字符图像的宽/高比,字符图像的底部距第一基准线的距离,以及字符的顶部距第二基准线的距离。应注意,图像几何特征并不局限于此。
[0078]在上述图像几何特征中,第一基准线和第二基准线可与包含该字符的字符串有关,例如,该第一基准线可以是该字符串的底部边界线,而该第二基准线可以是该字符串的顶部边界线,但是,第一和第二基准线不因此受限。
[0079]图8示意性地示出字符的图像几何特征,其中,在字符串图像上呈现可能的特殊符号的图像几何特征。
[0080]特殊符号列表中的符号的图像几何特征被预先确定:和’的宽/高比分别被设为[1.5,5.0],[0.7,1.3];对于(字符代码为IS0-8859中定义的0x2d),字符图像底部至行的底部边界的距离阈值被设定为[行高度*0.350,行高度*0.691];对于’(字符代码为IS0-8859中定义的0x2e),字符图像顶部至行的顶部边界的距离阈值被设定为[行高度*0.580,行高度*0.912]。其中,上述阈值范围中的行高度对应于行的实际高度。
[0081]图6示出第一实施例中的提取装置402的配置。提取装置402可包括匹配确定装置601和检测装置602,该匹配确定装置601被配置为根据长字符串中包含的各字符的候选的代码确定具有如下的至少一个候选的字符,该至少一个候选中的每一个候选是符号并且与该长字符串中包含的特殊符号的预定列表中包含的一个特殊符号匹配,该检测装置602被配置为通过将具有匹配的候选的字符的图像几何特征与对应的匹配特殊符号中的每一个的图像几何特征进行比较来确定该具有匹配的候选的字符对应于哪个特殊符号。
[0082][良好效果]
[0083]通过上述方法,可以可靠和准确地识别具有混合的主要语言和次要语言字母的文档图像。
[0084]一般来说,在多语言文档中,一些不同语言的单词可通过特殊符号被链接以形成一个长的字符串。并且,这些新的长字符串总是被识别为一个单词而不被分割。因此,整个长字符串将基于一种语言被识别,在此情况下该长字符串的一些字符继而该长字符串将被不正确地识别。作为对比,第一实施例的方法可根据特殊符号提取多个长字符串中的每一个中包含的字符串单元,因此将识别对象局限于各属于单一语言的字符串单元,并且可包括两种或更多种语言的部分的该长字符串的各部分可被以相应语言准确地识别。因此,这样的长字符串可被可靠和准确地识别。
[0085][第二实施例]
[0086]将参照图9A至图16来描述根据本发明的第二实施例。第二实施例与第一实施例的不同之处在于识别步骤、即基于字符串单元识别文档图像的过程。因此,第二实施例的与第一实施例相似的步骤和部分将被省略并且将不被详细描述。
[0087]一般来说,不同字母表中的相似字符总是具有相同或相似的形状,并且如果它们不被正确地识别则将使得文档图像的识别结果劣化。现有技术没有公开任何用于基于相似字符区分多种语言的步骤或设备。作为对比,根据本发明的第二实施例的方法基于字符串单元中的相似字符的判定结果来确定字符串单元的语言,因此可以讯速和高效地确定字符串单元的语言,从而包含该字符串单元的长字符串继而整个文档图像可被准确和高效地识别。
[0088]图9A至9B是示出第二实施例的文档图像识别方法的流程图,其中图9B示出图9A中的语言确定步骤包括基于代码的确定步骤。
[0089]在如图9A所示的步骤S901 (判定步骤)中,基于字符串单元中的各字符的候选的代码以及相似字符表,判定字符串单元中包含的各字符是相似字符还是不相似字符。一个字符在其的第一非符号且非数字候选的代码被包含在相似字符表中时被视为相似字符,否则该字符是非相似字符。下文将详细描述相似字符表。
[0090]在步骤S902 (语言确定步骤)中,基于判定步骤的结果确定字符串单元的语言。下文将详细描述步骤S902。
[0091]现在将参照图1OA和IOB以及图1IA和IlB描述相似字符表。相似字符表可被用于确定字符串单元中的字符是否是可与其它语言中的一个或多个对应字符具有相同或相似形状的相似字符。相似字符表的结构在图1OA和IOB以及图1lA和IlB中被示出。可看至IJ,相似字符表实际上为彼此对应的一对相似字符子表,一个子表由主要语言中的相似字符构成,而另一个子表由次要语言中的相似字符构成并且与主要语言中的相似字符一一对应。
[0092]例如,图1OA和IOB示出主要语言为俄语并且次要语言为拉丁语的情况下的相似字符表。图1OA示出俄语的相似字符子表Rus 口,并且呈现俄语中的相似字符的代码和形状,图1OB示出拉丁语的相似字符子表Latin_Rus[],并且呈现拉丁语中的对应的相似字符的代码和形状。在子表Latin_Rus[]中,各字符与Rus[]中的各字符对应,并且对应的两个字符具有相似的形状和不同的代码。
[0093]图1lA和IlB示出主要语言为希腊语并且次要语言为拉丁语的情况下的相似字符表。图1lA示出希腊语的相似字符子表Grk□,图1lB示出拉丁语的相似字符子表Latin_Grk[]。在这两个字符表中也可找到希腊语和拉丁语中的相似字符。
[0094]相似字符表是通过如下操作生成的,即察看主要语言(诸如俄语或希腊语)以及次要语言(诸如拉丁语)中的字母表集合中的字符,并且选择具有相似或相同形状的字符对。此外,相似字符表中的字符对可基于具有混合的主要语言/次要语言的常用字体下的一些文档图像的识别结果被调整。
[0095]现在将参照图9B详细描述步骤S902的处理,其中图9B示出语言确定步骤S902包括步骤S902 -1 (基于代码的确定步骤),用于基于在判定步骤中所判定的字符串单元中的字符的候选的代码来确定字符串单元的语言。
[0096]现在将参照图12描述步骤S902 — I的过程,图12是示出基于代码的确定步骤S902 -1的过程的流程图。
[0097]在步骤S1201 (第一确定步骤)中,在字符串单元中包含的各字符的第一非符号且非数字候选被判定为相似字符的情况下,通过利用次要语言单词词典(Minor Languageword lexicon)来确定字符串单元的语言。
[0098]更具体而言,首先选择字符串单元中的各字符的即不是符号也不是数值的第一候选。如果字符串单元的所选择的第一候选都是根据相似字符表的相似字符,则难以仅通过候选的代码来确定该字符串单元的语言。为了辨识这种单词,使用常用的次要语言单词词典来确定其所有的第一候选都是相似字符的字符串单元是否是常用的次要语言单词。在主要语言是俄语或希腊语并且次要语言是拉丁语的情况下,次要语言单词词典由拉丁语单词构成。也就是说,如果俄语是主要语言,则次要语言单词词典将包含在俄语文档中出现的所有常用的拉丁语单词。下文将详细描述基于词典进行的字符串单元的语言的确定以及次要语言单词词典的确定。
[0099]在步骤S1202 (第二确定步骤)中,在字符串单元中包含的各字符的第一非符号且非数字候选被判定为主要语言中的非相似字符的情况下,确定该字符串单元的语言为主要语言,如果根据相似字符表,
[0100]所选择的第一候选都是非相似俄语字符,则将字符串单元的语言确定为俄语。
[0101]在步骤S1203 (第三确定步骤)中,在字符串单元中包含的各字符的第一非符号且非数字候选并非全部都是相似字符或主要语言中的非相似字符的情况下,仅基于字符串单元中包含的非相似字符确定字符串单元的语言。在这样的情况下,由于非相似字符的数量通常小,
[0102]因此将大大降低计算开销。
[0103]接下来,将在俄语是主要语言的情况下描述常用次要语言单词词典的产生。在针对俄语文档的常用次要语言单词词典中,拉丁语单词被如下地生成。首先,收集在准备好的俄语文档中出现的在Latin_Rus[]中的相似字符所构成的拉丁语单词,并且记录它们的出现次数。其次,根据收集的拉丁语单词中的字符,选择Rus[]中的对应的相似字符以形成对应的俄语单词,并且它们在同一俄语文档中出现的次数也被记录。如果一个这样的拉丁语单词的出现次数大于对应的俄语单词的出现次数,并且大于或者等于预定阈值TH,则此拉丁语单词将被包含在针对俄语的常用次要语言单词词典中。阈值TH可以是5,但是该预定阈值还可以是任何其它值。
[0104]例如,在准备的俄语文档中拉丁语单词“PM”(代码:IS0_8859中的0x50,0x4d)被发现5次。基于该拉丁语单词,Rus口中的对应相似俄语字符(代码:IS0-8859-7中OxcO,Oxbc)被选择以形成对应的俄语单词“PM”并且记录其在同一俄语文档中的出现次数。由于俄语单词“PM”的出现次数为0,因此,单词“PM”被存储在针对俄语的次要语言单词词典中。
[0105]类似的,对于希腊语文档,针对希腊语/拉丁语的常用次要语言单词词典可基于Grk[]、Latin_Grk[]生成并且在同一步骤中被准备,其中希腊语是主要语言。
[0106]次要语言单词词典的生成还等同地应用于其它主要语言和次要语言的情况。
[0107]现在将参照图13描述基于次要语言单词词典的字符串的语言的确定,图13是示出第二实施例的第一确定步骤的流程图。
[0108]在步骤S1301中,字符串单元中包含的各字符的第一非符号且非数字候选被用它们的对应的次要语言相似字符替换以形成次要语言单词。例如,在俄语/拉丁语的情况下,如果要被确定的字符串单元中包含的各字符是相似俄语字符,则各字符可被用子表Latin_Rus[]中的对应的相似字符替换,然后获得全部由次要语言字符(诸如拉丁语字符)构成的替换后的字符串单元。当然,如果字符的第一非符号且非数字候选是次要语言中的相似字符,则该字符的第一候选将被使用而不进行替换。
[0109]在步骤S1302中,将由此获得的替换后的次要语言单词与次要语言单词词典中的单词进行比较以确定它们是否匹配。
[0110]结果,当替换后的次要语言单词与次要语言单词词典中的一个单词匹配的情况下,将该字符串单元的语言确定为次要语言,否则,将该字符串单元的语言确定为主要语言。
[0111]现在将参照图14描述第三确定步骤的过程,并且第三确定步骤可包括基于各非相似字符的多个非符号且非数字候选确定字符串单元的语言的步骤(步骤S1401)。结果,在该非相似字符的至少前三个非符号且非数字候选都是主要语言非相似字符的情况下,确定该字符串的语言为主要语言。
[0112]更具体而言,如果字符串单元的语言不能仅通过所选择的第一候选被确定,则检查包括各非相似字符的所有选择的第一候选以及它们的后续候选的多个候选,以确定一个字符的至少一个所选择的第一候选以及其后续候选是否都是非相似主要语言字符。如果可找到全部为非相似主要语言(诸如俄语)候选的至少一个字符,则设定字符串的语言为主要
;五古
P口口 ο
[0113]要被用于确定语言的候选的数量没有被具体限制,并且通常不小于3,也就是说,要被用于确定非相似字符的语言的候选通常包含非相似字符的前三个非符号且非数字候选,包括第一非符号且非数字候选。
[0114]例如,如图15所示,最后一个字符的所有候选(例如前三个候选)都是非相似俄语字符,因此此字符串的语言被设定为俄语。
[0115]如图16所示,识别步骤进一步包括根据相似字符表以及确定的语言来修正字符串单元中包含的字符的步骤(修正步骤)。其中,在字符串单元中的相似字符的第一非符号且非数字候选的语言与确定的语言不一致的情况下,该相似字符被用相似字符表中包含的确定的语言的相似字符来替换,否则,该字符将不被改变。
[0116]更具体而言,如果字符串单元中的字符的第一非符号且非数字候选不属于确定的字符单元语言,然后确定该第一字符是否是相似字符。如果是,则根据所选择的第一候选的代码,找到相似字符表中的与确定的该字符单元语言对应的相似字符,并且该字符被用所找到的相似字符替换。
[0117]如果所选择的第一候选是非相似字符,则在字符串单元中包括其第一候选而不进行任何操作。
[0118]由此,字符串单元将通过使用适当的语言被最终确定,由此包含该字符串单元的长字符串继而该文档图像可被适当地识别。
[0119][良好效果]
[0120]除了上述可包含通过特殊符号链接的一些不同语言的部分的长字符串之外,第二实施例中的方法至少还可有效且准确地应用于如下这样的字符串单元,该字符串单元完全由特殊(非相似)单一字母表字符或者相似字符构成。
[0121]对于完全由相似字符构成的字符串单元,该方法采用相似字符以及常用次要语言单词词典来确定该字符串单元的语言。
[0122]不同于普通的相关背景字典,该方法中所使用的次要语言单词词典不需要包含相关语言中的大量单词。次要语言单词词典仅包含在主要语言文档中频繁出现的完全由相似字符构成的次要语言单词。例如,对于一个俄语(希腊语)文档,拉丁语是次要语言,并且对于一个拉丁语文档,俄语(希腊语)是次要语言。此词典的规模很小,以致于搜索时间可被忽略,因为其仅包含一些特殊的次要字符单词。
[0123]该实施例中使用的相似字符表仅记录了相似字符代码,而不包括任何附加信息,诸如受训练数据的范围和规模约束的发生频率。仅相似字符被记录在相似字符表中,而没有它们在文档中的发生频率的任何统计信息。因此,计算开销和记录成本将大大减小。
[0124]相似字符表和词典的规模很小,以致于搜索的时间成本可以低。
[0125]因此,此方法可基于相似字符表或者常用次要语言词典快速且高效地确定完全由特殊单一字母表字符或者相似字符构成的单词的语言,并且其计算开销小。
[0126]综上所述,此实施例中的方法可降低时间成本,这是因为语言主要是基于相似字符表和次要语言单词词典来确定的,并且不存在任何计算,而仅仅存在两个小规模的表和(或)词典中的搜索。
[0127][第三实施例]
[0128]将参照图17至19描述根据本发明的第三实施例。第三实施例与第二实施例的不同之处在于语言确定步骤,更具体而言,第三实施例的方法中的语言确定步骤可进一步包括基于字符串单元中的非相似字符的置信度来确定语言。因此,第三实施例的与第二实施例相似的步骤和部分将被省略,并且不再被详细描述。
[0129]对于由相似字符和非相似字符两者构成的字符串单元,现有技术不能高效和可靠地确定该字符串单元的语言。作为对比,根据本发明的第三实施例的方法仅采用字符串单元的非相似字符的置信度来确定其语言,也就是说,该方法专注于其数量通常较小的非相似字符,这样将降低时间成本并且高效,并且基于非相似字符的置信度的确定总是可靠的。因此,根据本发明的第三实施例的方法可高效且可靠地确定字符串单元的语言。
[0130]图17是根据本发明的第三实施例的语言确定步骤的流程图,其中如图17所示的语言确定步骤进一步包括步骤S902-2 (基于置信度的确定步骤),用于基于在判定步骤中判定的字符串单元中的字符的置信度来确定字符串单元的语言。
[0131]现在将参照图18详细描述步骤S902-2的过程。
[0132]基于置信度的确定步骤可包括用于计算字符串单元中的各个非相似字符的主要语言最大置信度的总和以及各个非相似字符的次要语言最大置信度的总和的步骤S1802(置信度总和计算步骤),以及用于将次要语言最大置信度的总和与主要语言最大置信度的总和的比值与第一阈值进行比较以确定字符串单元的语言的步骤S1803,其中,当该比值小于第一阈值时,该字符串单元的语言被确定为主要语言,否则该字符串单元的语言被确定为次要语言。
[0133]在步骤S1802中,对于字符串单元中的各非相似字符,分别获得它们的所有俄语(主要语言)候选的最大置信度并且进行求和,然后分别获得它们的所有拉丁语(次要语言)候选的最大置信度并且进行求和。非相似字符的拉丁语的最大置信度的总和以及非相似字符的俄语的最大置信度的总和可被并行计算。非相似字符的置信度总和的计算中的函数如下所示:
【权利要求】
1.一种具有混合的主要语言的和次要语言的字母的文档图像的识别方法,包括: 分割步骤,用于将文档图像分割成至少一个长字符串; 提取步骤,用于从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊符号提取字符串单兀;以及 识别步骤,用于基于各提取的字符串单元来识别该文档图像。
2.根据权利要求1所述的方法,其中,所述提取步骤包括: 匹配确定步骤,用于根据长字符串中包含的各字符的候选的代码确定具有如下的至少一个候选的字符,该至少一个候选中的每一个候选是符号并且与该长字符串中包含的特殊符号的预定列表中包含的一个特殊符号匹配,以及 检测步骤,用于通过将具有匹配的候选的字符的图像几何特征与对应的匹配特殊符号中的每一个的图像几何特征进行比较来确定该具有匹配的候选的字符对应于哪个特殊符号, 其中,当该字符的图像几何特征在一个特殊符号的图像几何特征的阈值的范围中时,该字符是特殊符号,并且字符串单元基于该特殊符号被提取。
3.根据权利要求2所述的方法,其中, 该图像几何特征是选自以下组中的一个,该组包括字符图像的宽/高比,字符图像的底部距第一基准线的距离, 以及字符图像的顶部距第二基准线的距离。
4.根据权利要求1-3中任一项所述的方法,其中,所述识别步骤包括: 判定步骤,用于基于字符串单元中的字符的候选的代码以及相似字符表,判定该字符串单元中包含的一个或多个字符是相似字符还是非相似字符;以及 语言确定步骤,用于基于通过所述判定步骤获得的结果来确定该字符串单元的语言,其中,当字符的第一非符号且非数字候选的代码被包含在相似字符表中时,该字符是相似字符,否则该字符是非相似字符。
5.根据权利要求4所述的方法,其中,所述语言确定步骤包括: 基于代码的确定步骤,基于判定步骤中所判定的字符串单元中的字符的候选的代码来确定字符串单元的语言。
6.根据权利要求5所述的方法,其中,所述基于代码的确定步骤包括: 第一确定步骤,用于在字符串单元中包含的各字符的第一非符号且非数字候选为相似字符的情况下,通过利用次要语言单词词典来确定该字符串单元的语言; 第二确定步骤,用于在字符串单元中包含的各字符的第一非符号且非数字候选为主要语言的非相似字符的情况下,确定该字符串单元的语言为主要语言;以及 第三确定步骤,用于在字符串单元中包含的各字符的第一非符号且非数字候选并非全部都是相似字符或主要语言的非相似字符的情况下,仅基于该字符串单元中包含的非相似字符确定该字符串单元的语言。
7.根据权利要求6所述的方法,其中,所述第一确定步骤包括: 替换步骤,用于使得字符串单元中包含的各字符的第一非符号且非数字候选被次要语言相似字符替换以形成次要语言单词;以及 比较步骤,用于将替换后的次要语言单词与该次要语言单词词典中的单词进行比较以确定它们是否匹配,其中,在它们匹配的情况下确定字符串单元的语言为次要语言,否则将字符串单元的语言确定为主要语言。
8.根据权利要求6所述的方法,其中,所 述第三确定步骤包括: 基于字符串单元中的各非相似字符的多个非符号且非数字候选来确定该字符串单元的语言的步骤, 其中,在非相似字符的至少前三个非符号且非数字候选都是主要语言非相似字符的情况下,该字符串单元的语言被确定为主要语言。
9.根据权利要求4所述的方法,其中,所述语言确定步骤进一步包括: 基于置信度的确定步骤,用于基于所述判定步骤中判定的字符串单元中的字符的置信度来确定该字符串单元的语言。
10.根据权利要求9所述的方法,其中,所述基于置信度的确定步骤包括: 置信度总和计算步骤,用于计算字符串单元中的各非相似字符的主要语言最大置信度的总和以及各非相似字符的次要语言最大置信度的总和;以及 置信度总和比较步骤,用于将次要语言最大置信度的总和与主要语言最大置信度的总和的比值和第一阈值进行比较以该确定字符串单元的语言, 其中,当所述比值小于所述第一阈值时,该字符串单元的语言被确定为主要语言,否则被确定为次要语言。
11.根据权利要求4所述的方法,其中,所述识别步骤进一步包括: 修正步骤,用于根据相似字符表和确定的语言来修正字符串单元中包含的相似字符, 其中,在字符串单元中的相似字符的第一非符号且非数字候选不属于确定的语言的情况下,该相似字符被用相似字符表中包含的属于确定的语言的对应相似字符替代。
12.—种具有混合的主要语言的和次要语言的字母的文档图像的识别设备,包括: 分割装置,被配置为将文档图像分割成至少一个长字符串; 提取装置,被配置为从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊符号提取字符串单元;以及 识别装置,被配置为基于各提取的字符串单元来识别该文档图像。
13.根据权利要求12所述的设备,其中,所述提取装置包括: 匹配确定装置,被配置为根据长字符串中包含的各字符的候选的代码确定具有如下的至少一个候选的字符,该至少一个候选中的每一个候选是符号并且与该长字符串中包含的特殊符号的预定列表中包含的一个特殊符号匹配,以及 检测装置,被配置为通过将具有匹配的候选的字符的图像几何特征与对应的匹配特殊符号中的每一个的图像几何特征进行比较来确定该具有匹配的候选的字符对应于哪个特殊符号, 其中,当该字符的图像几何特征在一个特殊符号的图像几何特征的阈值的范围中时,该字符是特殊符号,并且该字符串单元基于该特殊符号被提取。
14.根据权利要求13所述的设备,其中, 该图像几何特征是选自以下组中的一个,该组包括字符图像的宽/高比,字符图像的底部距第一基准线的距离,以及字符图像的顶部距第二基准线的距离。
15.根据权利要求12-14中任一项所述的设备,其中,所述识别装置包括:判定装置,被配置为基于字符串单元中的字符的候选的代码以及相似字符表,判定该字符串单元中包含的一个或多个字符是相似字符还是非相似字符;以及 语言确定装置,被配置为基于通过所述判定装置获得的结果来确定该字符串单元的语言, 其中,当字符的第一非符号且非数字候选的代码被包含在相似字符表中时,该字符是相似字符,否则该字符是非相似字符。
16.根据权利要求15所述的设备,其中,所述语言确定装置包括: 基于代码的确定装置,基于判定装置中所判定的字符串单元中的字符的候选的代码来确定该字符串单元的语言。
17.根据权利要求16所述的设备,其中,所述基于代码的确定装置包括: 第一确定装置,被配置为在字符串单元中包含的各字符的第一非符号且非数字候选为相似字符的情况下,通过利用次要语言单词词典来确定该字符串单元的语言; 第二确定装置,被配置为在字符串单元中包含的各字符的第一非符号且非数字候选为主要语言的非相似字符的情况下,确定该字符串单元的语言为主要语言;以及 第三确定装置,被配置为在字符串单元中包含的各字符的第一非符号且非数字候选并非全部都是相似字符或主要语言的非相似字符的情况下,仅基于该字符串单元中包含的非相似字符确定该字符串单元的语言。
18.根据权利要求17所述的设备,其中,所述第一确定装置包括: 替换装置,被配置为使得字符串单元中包含的各字符的第一非符号且非数字候选被次要语言相似字符替换以形成次要语言单词;以及 比较装置,被配置为将替换后的次要语言单词与该次要语言单词词典中的单词进行比较以确定它们是否匹配, 其中,在它们匹配的情况下确定字符串单元的语言为次要语言,否则将字符串单元的语言确定为主要语言。
19.根据权利要求17所述的设备,其中,所述第三确定装置包括: 被配置为基于字符串单元中的各非相似字符的多个非符号且非数字候选来确定该字符串单元的语言的装置, 其中,在非相似字符的至少前三个非符号且非数字候选都是主要语言非相似字符的情况下,该字符串单元的语言被确定为主要语言。
20.根据权利要求15所述的设备,其中,所述语言确定装置进一步包括: 基于置信度的确定装置,被配置为基于所述判定装置中判定的字符串单元中的字符的置信度来确定该字符串单元的语言。
21.根据权利要求20所述的设备,其中,所述基于置信度的确定装置包括: 置信度总和计算装置,被配置为计算字符串单元中的各非相似字符的主要语言最大置信度的总和以及各非相似字符的次要语言最大置信度的总和;以及 置信度总和比较装置,被配置为将次要语言最大置信度的总和与主要语言最大置信度的总和的比值和第一阈值进行比较以确定该字符串单元的语言, 其中,当所述比值小于所述第一阈值时,该字符串单元的语言被确定为主要语言,否则被确定为次要语言。
22.根据权利要求15所述的设备,其中,所述识别装置进一步包括: 修正装置,被配置为根据相似字符表和确定的语言来修正字符串单元中包含的相似字符, 其中,在字符串单元中的相似字符的第一非符号且非数字候选不属于确定的语言的情况下,该相似字 符被用相似字符表中包含的属于确定的语言的对应相似字符替代。
【文档编号】G06K9/20GK103902993SQ201210583676
【公开日】2014年7月2日 申请日期:2012年12月28日 优先权日:2012年12月28日
【发明者】李建杰, 李献 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1