用于多种语言光字符识别的自动语言识别系统的制作方法

文档序号:6412741阅读:288来源:国知局
专利名称:用于多种语言光字符识别的自动语言识别系统的制作方法
技术领域
本发明一般地被用于通信中的各种语言之间的识别,更具体地针对多种语言的文档中不同语言的自动识别,用于光字符识别的目的等。
一般地讲,光字符识别涉及将文档图象划分析为单个符号和多组符号,以及将这些符号图象与代表和字母、数字等有关的各种字符的模式信息进行比较。为增加识别过程的精确度,OCR引擎采用基于特定语言的特征的技术。例如,能够利用语言信息选择合适的分类器、字典、双字母和三字母符号概率,以及识别语言特有的日期格式、数字格式等。
过去,如果OCR系统能够识别不同语言中的文本,那么需要用户人工地指定已被扫描的图象中的文本的语言,使OCR系统能够精确地识别文档图象中的符号和词。对于单语言文档,这个任务相对来说是简单的。然而,对于多种语言页的最佳OCR处理而言,在各种不同的语言中需要划分包含相应文本的不同区域,以及用正确的语言标记标识每个区域。对于这种人工干预的需要可能是强劳力的,这导致更大的费用并大大地降低了整个图象-文本的转换过程。
随着商业全球化的增长,多种语言文档正变得更加普通。这种文档的例子包括可能在一页上有多种语言的用于多个国家的用户手册,以及在各类的多种语言版面设计中提供简明的信息量的旅行小册子。在这类文档中,同种类的信息可能在不同的段落、栏目或页中被不同的语言所描述。多种语言文档的其他的例子包括定期航线杂志,为国际旅客、商业旅客提供信息的航行杂志,可能有以出发国的语言为标题和以到达国的语言为主体的国际商业通讯、以及包含多种语言的说明书的移民入境文档。因此,越来越需要能够自动地区分和识别在单个文档中的不同的语言。
过去,自动语言识别的工作一直利用两个一般方法之一。在其中的一种方法中,语言识别依赖于从词标记的图象中所抽取出的特征。描述这种方法的例子有,例如,T.Nakayama和A.L.Spitz的文章,"European Language Determination From Image",发表在Proc.of Int.Conf.on Document Analysis and Recognition,Tsukuba,Japan,1993;及P.Sibun和A.L.Spitz的文章,"Language DeterminationNaturalLanguage Processing From Scanned Document Images",发表在Proc.of Conf.on App.Natural Language Processing,Stuttgart,Germany,1994;以及A.L.Spitz的文章,"Script And Language DeterminationFrom Document Images",发表在Proc.of Symp.on DocumentAnalysis and Information Retrieval,Las Vegas,Nevada,1994。这些参考资料中所描述的这类技术需要在主题语言中的大量的文本,以便能可靠地加以识别。如果文本语言比较频繁地变化,例如,从行到行,那么不可能获得充分的基于特征的统计数据来将一种语言与另一种语言区分开。
语言识别的另一种方法是利用词频率和双字母概率。描述这种方法的例子有,例如,H.S.Baird,D.Gilbert,和D.J.Ittner的文章,"A FamilyOf European Page Readers",发表在Proc.of Int.Conf.on PatternRecognition,Jerusalem,Israel,1994;以及D.Lee,C.Nohl和H.Baird的文章,"Language Identification In Complex,Unoriented,AndDegraded Document Images",发表在Proc.of IAPR Workshop onDocument Analysis Systems,Malvern,PA,1996。这种方法仅适用于每页只包含一种语言的文本的这类文档。它不提供在同一页上区分两种不同的语言的能力,不存在事先的人工划分。而且,它要求具有较高的保真度的文档图象,以便给语言模型提供可靠的转移概率。
因此,理想的是为自动地区别多种语言和识别多种语言提供一个系统,该系统不需要事先的人工输入,并且能够将图象分成多个同一语言地区,以便在一页上可靠地识别多个不同的语言,并能够更快和更精确地进行光字符识别。
追随前述的目标,本发明利用基于字典的方法将文档图象的不同部分划分成多个同一语言地区。利用由上至下的方法、和由下至上的方法、或者两者结合的方法能够划分该文档。在由上至下的方法中,利用适当的几何特性将文档图象划分成多个区域和词标记。在每个区域中将词标记与每个不同的候选语言关联的字典相比较,以便给每个语言定义一个可信度因子。具有最高的可信度因子的语言初始地被识别作为该区域的语言。每个区域被分成本地的地区,每个本地的地区能够包含一个词或一组词,例如一行。对于那个地区的词,利用基于字典的可信度因子识别每个局部地区的语言。然后,按照与每个地区相关的语言划分局部地区。
在由下至上的方法中,文档图象被分析为单个的词标识,而且为每个词和每个候选语言定义一个可信度因子。文档图象被分成局部地区,该局部地区又能够包含一个词或一组词,例如一行。对于该地区的词,利用基于字典的可信度因子识别每个局部地区的语言。然后,按照与每个地区相关的语言将具有共同语言的局部地区分组,以提供同一语言地区。
在两者混合的方法中,文档图象首先被划分成一个或多个区域,同时为每个区域识别一种语言。然后,执行由下至上的方法,在局部地区的分组定义中利用区域语言构成同一语言地区。
参照在后附的图中示出的示范实施例,本发明的特征及由此提供的优点详细地在后面加以描述。


图1是本发明可能使用的这类计算机系统的方框图;图2是描述在一个文档的光字符识别中所执行的一般步骤的方框图;图3是多种语言文档的一个示意图;图4是本发明的首选实施例的整个过程的流程图;图5是用于确定词语言可信度统计量的子程序的流程图6是用于定义地区语言可信度统计量的子程序的流程图;图7是用于将地区聚集成子区域的子程序的流程图;图8是本发明的次选实施例的整个过程的流程图;图9是用于定义区域语言的子程序的流程图;图10是用于定义地区语言的子程序的流程图;以及图11是用于将地区划分成子区域的子程序的流程图。
为了方便地理解本发明,以后特别参照多语言中包含文本的文档页的光字符识别加以描述。尽管本发明是特别地适于这种应用,但是应理解它不局限于这种特殊的应用。而且,无论在何处需要在不同的语言之间区分及识别不同的语言,都能够在各种不同的上下文中使用构成本发明的原理。
语言的自动识别,更一般地说,光字符识别能够在各种计算机系统中被实现。尽管计算机系统的特定硬件不构成本发明的一部分,但是在此对它们的简单描述是为了提供对这种方式的完全的理解,该方式将本发明的特征与计算机系统的元件相互组合以产生理想的结果。
参照图1,一个示范计算机系统包括计算机10及与之相连的各种外部的外围设备12。计算机10包括一个中央处理器14和与之相连的存储器。该存储器一般地包括一个典型地以随机存取存储器16实现的主存储器或工作存储器、一个可由只读存储器18组成的静态存储器,以及永久性存储设备,例如磁盘或光盘20。CPU通过内部总线22与这些形式的存储器的每一个进行通信。外围设备12包括数据输入设备、例如键盘24,和指示或光标控制设备26、例如鼠标、笔等。显示设备28,例如CRT监视器或LCD屏幕,提供计算机内正在被处理的信息的可视显示,例如正在进行光字符识别的一个文档图象。通过打印机30或类似的这种设备能够提供信息的硬拷贝。通过调制解调器32和/或网络接口卡34能够与其它的计算机进行通信。扫描器36能用于将文档的硬拷贝转换成电子格式以便在计算机内存储、操作和处理。这些外部的外围设备的每一个利用计算机中的一个或多个输入/输出端口38与CPU14交换数据。
在操作过程中,用户可以通过扫描器36扫描文档,由此所产生的描述文档图象的数据文件被存储在主存储器16中。被扫描的文档也可以被显示在监视器28上。尽管在主存储器16中存储图象文件的内容,但是可以在主存储器中执行OCR处理,以便为图象的文本部分获得字符数据。光字符识别的结果是生成一个单独的数据文件,例如ASCII文件。图象文件和字符数据文件的任意一个或两者都可以被存储在永久性存储设备20中,和/或通过调制解调器32或网络被传输给另一个计算机。
图2示出在典型的光字符识别过程中由计算机的CPU 14所执行的基本步骤。参考此处,在步骤40,文档图象首先被输入到计算机,例如利用扫描器36或通过通信网络下载。在可选的预处理步骤42,校正文档图象的偏斜,不然就过滤掉可能干扰字符识别过程的人为因素。例如,如果有缺陷的扫描仪沿图象产生一条垂直的线,那么能够在进一步的处理之前检测并适当地去除该线。然后,在步骤44,文档图象被分成一些区域。这种划分的一个例子显示在图3中。在该图的例子中,页46包含文本的3个栏目,每一栏目包含两段。如果文档是一个多语言用户手册,例如,每一栏目或每一段可以包含不同语言的文本。图象的这种划分能够导致将文档分成3个区域48a、48b、48c,这3个区域分别对应3个栏目。根据所希望的精确度,文档能够更加精确地被分成更小的区域。例如,每一段、甚至每一行或半行可以构成不同的区域。一般地,区域可以是包含两个或更多的词标记的文档的任何部分。
用于校正和删除人为因素的预处理步骤、以及文档的划分能够按照任何的各种众所周知的技术来实现。这类技术的例子在L.O′Gorman和R.Kasturi的文章,Document Image Analysis,IEEE Comp.Soc.Press,1995中被描述,特别是第4章以及该章给出的参考资料。
一旦文档已经被分成多个段,那么用于显示构成个别词的字符符号的组合的词标记,再次使用传统的光字符识别技术来识别。对于每个词标记,利用符号分类器,在步骤50,为构成词标记的可能的字符串生成一个或多个推测。有关这种分类器的详细信息及其操作能够在Duda和Hart的文章Pattern Classification and Scene Analysis,Wiley &Sons 1973中查到。在步骤50,初始的OCR的结果是在每一个词标记中估算字符。每个词估算或推测能够有相关的识别概率,此概率表明相对于同一个词标记的其它的词估算而言其估算是正确的可能性。
一般地说,光字符识别使用识别相应于字母字符、数字和标点符号等的模式或符号的分类器。当已知被处理的文档的具体的语言时,分类器能够被定制成这种语言。然而,在图3的例子中,存在多种语言,而且事先可能并不知道。在这种情况下,用于生成初始的词推测的字符分类器最好是一个对将要被识别的所有候选语言通用的分类器。例如,如果光字符识别技术被设计用来识别和区分各种罗马语言,那么该通用的符号分类器能够被设置用来识别那些语言中所有或大部分的符号。作为通用分类器的另一种使用方法,能够使用针对某种语言的特定的分类器,但是,增加了后处理能力以识别不能用这种语言显示的符号。
一旦已经初始地估算了这些词,那么在步骤52,识别出各个区域中与文本相关的语言,这在下文中更加详细地描述。其结果是在步骤54中实现能提供更高精确度的更具挑战性的光字符识别,其中利用针对每个被识别的语言的特定的分类器。其处理的最终结果是一个代表在原图象中文本的单个字符的数据文件56,例如一个ASCII文件。
一般地说,本发明采用基于字典的方法,在该方法中,在特定语言中被查到的这些词的一个字典用于识别这种语言中的文本。对于每个将被识别的候选语言,为该这种语言中的词建立字典。因此,例如,如果基于罗马字母表的语言将被识别,那么可以为下栏目的每一种语言建立一个字典美式英语、英式英语、法语、意大利语、德语、瑞典语、挪威语、芬兰语、丹麦语、葡萄牙语、巴西式葡萄牙语、西班牙语和荷兰语。每个字典可以是字典的一部分,它仅包含该语言中最常用的词,或是包含该语言中较完整的词的集合的一个完整字典。字典也可以包含这些词的统计信息,例如,这些词一般出现在语言中的频率。作为每个候选语言的使用各自字典的另一种方法,可以使用包含各种候选语言的所有的词的单个字典。在这种情况下,在字典中的每个条目返回说明那个词所代表的语言的数据。
在本发明的一个实施例中,为每种候选语言和文档的每个区域48a-48c计算一个可信度统计量。在本发明的一个比较简单的实施中,能够通过在区域中对在每个相关的字典中被查到的词的数量的统计计算出可信度统计量。另外,也可以使用较复杂的方法计算可信度统计量,这在下文中更加详细地描述。具有最高可信度统计量的语言被确定下来,并被用作该区域的语言的一个初始的估算。
根据所实现的精确度的大小,区域划分中可能出现一个区域中包含不止一种语言的情况。例如,在图3的例子中,在各个区域48a-48c中的每两个段可能使用不同的语言。因此,在初始区域语言已经被识别后,每个区域又被分成多个局部地区。一个局部地区能够象一个词标记一样小。然而,更优选地,一个局部地区由词的一个逻辑组构成,例如文档的一行或多行。利用基于字典的可信度统计量来识别每个地区的语言。然后,将具有同种语言标识的连续的地区合并。在任何已给定的地区,如果候选语言中没有一个具有高的语言可信度统计,那么与那个地区有关的区域语言被用作缺省的地区语言标识。
按照本发明,将一个文档分成多个同一语言地区的前述过程能够以不同的方法来实现。描述这些不同方法的本发明的实施例在图4-11的流程图中被更加详细地描绘。一般地说,这些不同的方法能够被分类为一种由下至上的方法、由上至下的方法和一种利用这两种方法的概念的混合方法。图4描述了按照由下至上的方法的整个语言的识别过程。在步骤100,扫描文档或将文档的图象输入到计算机的随机存取存储器16。对图象能够进行预处理,例如校正偏斜以便使文本的行处于水平方向,否则过滤掉明显的错误。在步骤102,使用常规技术根据图象的几何特性,将文档图象分成多个词标记和局部地区。为便于本发明的理解,下栏目实例将被描述,在该实例中,每个局部地区由文档中的一行文本组成。然而,我们知道局部地区可以是任意要求的大小,甚至象一个词一样小。
一旦已经完成了将文档分成词和局部地区,那么执行进程106,为每个词确定语言可信度统计量。然后,在步骤108,选择第一个地区,再执行另一个进程110以确定那个地区的语言可信度统计量。在步骤112,判断在文档中是否还有任何其他的地区,如果有,那么重复执行在步骤108和110以确定每个地区的语言可信度统计量。在给每个地区确定了可信度统计量之后,在进程114将已给定语言的具有足够高的可信度级别的相邻的地区,例如多个连续的行,聚集成子区域。在所有的地区已经按照这种方式被处理完后,在步骤118结束此处理过程。这个过程的结果是多个子区域的一个有序集合,其中每个区域具有同一语言标识。
在图5的流程图中,更加详细地描绘了在步骤106所执行的用以定义每个词的语言可信度统计量的子程序。在步骤124,选择区域中的第一个词标记,然后,在步骤128,选择第一种候选语言l。在步骤130,计算出统计量w(l),该统计量表明所选的词是否包含在所选语言的可信度级别内。在一个实施例中,该统计量可能简单地是1或0,这依赖于该词是否能够在该语言的字典中被查到。此外,也可以采用更复杂的方法。例如,能够根据该词的长度对每个词的可信度统计量w(l)进行加权。这种方法对于有较长的、唯一的词的语言,例如德语和挪威语,是特别有用的。另一个可以利用的因子是针对每个词所计算出的值进行加权,将其作为分类器识别出的与词标记中的一个字符相关的一个识别概率的函数。利用这种方法,具有较低的识别概率的词估计不会象那些较正确地被识别的词估计一样对语言可信度统计量有大的影响。除去标示所选择的词是否在字典中被查到以外,可信度统计量也能够考虑其他的因子。例如,可能希望利用n字母(n-gram)信息或词频率信息对可信度统计量加权,例如,它是一种描述词标记中的字符串出现在所选择的语言中的概率的因子。
在步骤140,针对所选的词判断是否还有其他的语言要处理。如果有,重复步骤128和130,直到已经将该词与每个候选语言的字典比较完了并且针对每个语言计算出可信度统计量。在已经检测完所有语言和计算出可信度因子之后,选择下一个词,重复步骤124-140。相对于每一种候选语言,一旦计算出每个词的可信度统计量,子程序返回到主程序。
在图6的流程图中详细地描绘了在步骤110所执行的用以确定一个地区的语言可信度统计量的子程序。参考那里,在步骤142,选择第一种候选语言l,并在步骤144初始化该地区的语言可信度统计量r(l),例如设置成0。在步骤146选择该地区中的第一个词,并在步骤148更新所选择的语言的地区可信度因子r(l)。例如,可以在累加器中存储该地区可信度因子。通过给存储在累加器中的数值增加该词的语言可信度统计量w(l)能够更新该因子。
然后,该过程执行步骤150以确定在该地区是否还有其他的词要被检测。对于该地区中的每个词,重复步骤146和148以获取与该地区中在被选择的语言l的字典中可查到的词有关的可信度统计量r(l)。在已经检测完所有的词之后,r(l)的更新值被存储为该地区中所选择的语言的可信度因子。在步骤152,判断该区域是否还有其他的语言要被处理。如果是,重复步骤142-150,直到该区域中的每一个词都已与每一种候选的语言的字典比较完了。作为这个处理的结果,为该地区内的每种语言确定可信度因子r(l)。在已经检测完所有语言和确定了可信度因子之后,子程序返回到主程序。
在图7的流程图中,更加详细地描绘了在步骤114所执行的用以将多个地区聚集成同一语言子区域的子程序。在步骤154,子区域集合Z′初始地被定义成空或null集合。在步骤156,当前子区域的一个临时变量u也被初始化地设置成null值,在步骤158,及当前子区域的语言uL被初始化地设置成任意缺省的语言。然后,在步骤160,选择第一个地区r,在步骤162,判断所选地区的语言的可信度因子r(l)是否表明当前的子区域语言uL可能就是该地区的语言rL。换句话说,比较每种候选语言的可信度因子,然后判断当前的子区域的语言的语言可信度因子r(l)是否是最高的,或者与该地区的其他的可信度因子相比是否至少是足够高的。如果是,在步骤164,将所选的地区r增加到当前子区域的地区集合R(u)中。
如果当前的子区域语言uL不是该地区的概率最大的语言,即该子区域语言的可信度因子r(l)在感兴趣的地区的可信度因子中不是足够高的,在步骤166,判断该地区的最大可信度因子r(l)max是否大于门限值Th。如果是,那么可以开始一个新的子区域。因此,在步骤168,子区域语言uL被修改为所选择的地区的最高的可信度语言。然后,在步骤170,将最新的子区域u增加到子区域集合Z′中,在步骤172,初始化当前的子区域变量u以开始新的子区域。然后,在步骤164,将当前所选择的地区r增加到新的当前子区域中。
如果在步骤166中,该地区最高的可信度因子没有超过门限值,那么开始一个新的子区域的概率较小。在流程图所描述的实施例中,将所选择的地区增加到当前的子区域中的地区集合R(u)中。选代地,当检测下一个地区时,能够临时地取消该地区。如果下一个地区的可信度因子表明正在开始一个新的子区域,那么能够重新检测上一个地区以说明是否应该在新的子区域中包含该地区。因此,在两个子区域之间的一个转换区中,能够利用一个预处理过程来确定这两个子区域的哪一个具有与转换区的语言最相近的一个相关的语言。
针对每个地区r,重复在步骤160-172的过程以定义子区域的一个集合Z′。每个子区域包含已经被识别作为包含同一种语言的文本的一个或多个连续的地区。因此,在每个地区是一行文本的情况下,子区域包含文本的多个连续的行。当遇到具有不同的语言的下一个连续的行时,例如一个新的段落的开始,那么创建一个新的子区域。
在本发明的前述实施例中,在确定各种语言字典的地区可信度因子时,利用每个词标记并且赋给每个词标记相等的加权值。在某些情况下,可能需要对各个不同词所赋予的值有更大的选择性,以提供更大的精确度。例如,可以不考虑只包含一个字符的词标记,因为它们可能代表噪声而不是实际的内容。
在前述的实施例的由下至上的方法中,用于分成不同语言地区的文档图象分析从最小的公共元素,即词标记开始。在另一个由上至下的方法中,首先可以创建较大区域的语言,然后将其分成较小的同一语言地区。在图8中给出了描绘本发明的这个实施例的整个过程的流程图。对此参考,在步骤200,将文档的图象输入到计算机的随机存取存储器16中,然后对该图象进行预处理以校正偏斜,同时过滤掉明显的错误。在步骤202,根据该图象的几何特性,将文档的图象分成多个区域、地区和词标记。在图3的实例中,根据分隔它们的白色粗线能够容易地识别文本的三个垂直栏目,以定义分隔的区域。在每个栏目中,文本的各个行由它们之间的水平白线来识别,以勾划不同的地区。类似地,在每行中,各个词标记由符号之间的相对间隔来识别。尽管图3的实例描绘了多个区域,但是有可能整个页只包含一个区域。
一旦已经完成了文档的分隔,在步骤204,选择一个区域。然后,执行进程206,以定义该区域的语言。然后,在步骤208,选择第一个地区,执行另一个进程210,以确定那个地区的语言可信度统计量。在步骤212,判断在该区域中是否还有任何其他的地区,如果有,重复步骤208和210,以确定每个地区的语言可信度统计量。在给每个地区确定了可信度统计量之后,在进程214中,针对已给定的语言,从与该语言无关的其他的地区分隔出来具有类似的可信度级别的地区。在步骤216,判断是否还有其他的区域要被处理。如果有,针对每个其他的区域,重复步骤204-214。在所有的区域已经按照这种方式被处理之后,在步骤218,结束此处理过程。该处理过程的结果是在每个区域内同一语言子区域的一个有序集合。
在图9的流程图中,更加详细地描绘了在步骤206所执行的用以定义区域语言的子程序。在步骤224,选择第一种候选语言l,在步骤226,初始化该语言的统计量z(l)。在步骤228,选择该区域中的第一个词,在步骤230,根据那个词标记中的字符串是否能够在所选择的语言l的字典中被查到来计算该词的可信度统计量w(l)。然后,在步骤232,根据所确定的可信度值更新语言统计量z(l)。例如,针对所选择的语言,语言统计量z(l)可以是该区域中多个词的各个可信度值w(l)的累加。然后,执行步骤234,以判定该区域中是否还有其他的词需要被检测。
针对该区域中的每个词,重复步骤228-232,以获得所选择的语言的z(l)的最终值。在一个比较简单的实施中,统计量可以是对该区域中可在所选择的语言l的字典中查到的词的数量的统计。在已经检测完所有的字之后,在步骤236,判断是否该区域中还有其他的语言需要被处理。如果是,重复步骤224-234,直到该区域中的每个词与每种候选语言的字典完成了比较。一旦已经按照这种方式检测了所有语言,在步骤240,根据代表最高的可信度值的语言统计量z(l)选择区域语言zL。在前述的简单的实施中,该区域中具有最高的词的频率的语言,也即产生最高统计值的语言,就是最终被选择作为那个区域的区域语言zL。在已经检测了所有语言和识别了区域语言之后,该子程序返回到主程序。
在图10的流程图中详细地描绘了在步骤210所执行的用以定义地区语言的子程序。对此参考,在步骤242,地区语言rL被初始化地设置成前述定义的区域语言zL。然后,在一个类似于图9的流程图中步骤224-236所执行的过程中,检测地区中的每个词以确定所选择的语言l的可信度值r(l)。
一旦给每个地区确定了可信度值,该过程返回到主程序。然后,在子程序214中,这些地区被分成同一语言子区域。例如,这能够用一种类似于在图7的流程图中所描绘的聚集过程的方法加以实现。然而,在这个实施例中,区域语言zL被用于确定多个子区域。图11描绘了这种差别。对此参考,在步骤266,当判断某个地区的可信度值r(l)不是高到足以转换为一个新的子区域时,在步骤267,一个新的子区域的子区域语言uL缺省地被设置成区域语言zL。换句话说,当不能确定某个地区的主语言时,假定那个地区以该区域的主语言来显示,并将与这种语言有关的某个子区域聚集。因此,区域语言的初始化判定允许聚集过程采用较为保守的关于当遇到低的可信度时是否转换子区域的规范。
参考混合的方法,本发明的第三个实施例采用在开始的两个实施例中的每一个所使用的某些技术。具体地,在本实施例中,如同在由上至下的方法中一样,首先给每个文档的区域确定区域语言。然后,按照由下至上的方法执行此处理以确定每个词的可信度因子,以及每个地区的地区语言。在这种情况下,如同在由上至下的方法中一样,该区域语言能够被用来辅助将多个地区聚集成子区域。
了解本领域技术的那些人知道在不背离本发明的实质或基本特征的情况下,本发明能够以其他的特定形式来实施。例如,在所附的流程图中所描述的具体的实现中,为区域中的每个词、每种候选语言计算出可信度统计量。然后,在区域语言和地区语言的判定中使用所有已计算出的可信度。然而,在首选的实现中,可能不需要为每个词或每种语言计算出可信度统计量。相反,如果一种语言的可信度统计量高到足以能可靠地确定已经正确地识别某个词的语言,那么,此时结束该计算,不再计算任何其他语言的可信度值。类似地,如果已经确定出某个区域或地区内足够多的词都是同一种语言,那么不需要再检测每个剩余的词就能够选出那个区域或地区的语言。因此,目前公开的实施例应认为是阐述性而不是限制性的。本发明的范围由后附的权利要求书来决定,而不是由前述的说明来决定,而且在那里将包含在同等意义和范围内的所有的修改。
权利要求
1.一种用来自动地确定与文档中的文本有关的一种或多种语言的方法,其中包括步骤-将文档分成多个词标记;-在所述词标记中构成字符的至少一个推测;-为多种语言的每一种语言定义一个字典;-针对所述词推测的所述多种语言确定可信度因子,其中这些因子是根据各个字典是否包含这些词推测得出的;-定义文档中的多个地区,其中每一个地区包含至少一个词;-根据与该地区中的词有关的可信度因子确定每个地区的语言可信度因子;以及-针对已给定的语言,将具有比较高的可信度因子的地区聚集成由已给定的语言来标识的一个子区域。
2.权利要求1的方法,其中一个推测仅由具有至少两个字符的最小长度的词构成。
3.权利要求1的方法,其中所述被推测的词的可信度因子按照所推测的词的长度进行加权。
4.权利要求1的方法还包括以下步骤确定每个推测的识别概率和按照识别概率对所述的可信度因子加权。
5.权利要求1的方法,其中,按照被推测的词在各种语言中出现的频率对所述被推测的词的可信度因子进行加权。
6.权利要求1的方法,其中所述初始的推测通过用所述的多种语言中的每一种通用的分类器构成。
7.一种用来自动地将文档分成同一语言子区域的方法,包括步骤-在包含多个词的文档中定义至少一个区域;-为多种语言的每一种语言定义一个字典;-为区域中的每一个词,确定相对于所述的多种语言中的每一种语言的一个可信度因子,其中这些因子是根据各个字典是否包含该词得出的。-根据与该区域中的词有关的可信度因子,识别区域中的区域语言;-选择包含至少一个词的区域中的一个局部地区;-根据与该地区中的词有关的可信度因子,识别局部地区中的地区语言;-判定地区语言与区域语言是否相同;以及-如果地区语言与区域语言是不相同的,那么将局部地区从区域中的其他的地区分离出来。
8.一种用来自动地确定与文档中的文本有关的一种或多种语言的方法,其中包括步骤-将文档分成包含词标记的多个地区的多个区域;-在所述的词标记中构成字符的至少一个推测;-为多种语言的每一种语言定义一个字典;-为每一个被推测的词确定哪些所述字典包含该词的推测,并为每个语言确定可信度值;-根据与该区域中的词有关的可信度值,识别每个区域的区域语言;-根据与该地区中的词有关的可信度值,识别每个地区的地区语言;-如果与地区中的词有关的可信度值是不够高,那么将该区域语言定义为地区语言。-将具有相同的地区语言的某个区域中多个地区聚集成由某个特定的语言来标识的子区域。
9.权利要求8的方法,其中只为其预定最小字符数大于一的词构成推测。
10.权利要求8的方法,还包括根据被推测的词的长度来加权所述的可信度值的步骤。
11.权利要求8的方法,还包括确定每个推测的识别概率的步骤和根据识别概率来加权所述可信度值的步骤。
12.权利要求由8的方法,其中所述初始推测通过用所述的多种语言的每一种通用的分类器构成。
13.一种用来自动地确定与文档中的文本有关的一种或多种语言的方法,其中包括步骤-将文档分成多个词标记;-在所述词标记中构成字符的至少一个推测;-为每个词推测,确定用于表明该词是否包含在所述多种语言中的每一种语言中的可信度因子;-定义文档中的多个地区,其中每个地区包含至少一个词;-根据与该地区中的词有关的可信度因子,确定每个地区的语言可信度因子;以及-将具有已给定语言的比较高的可信度因子的地区聚集成由该已给定的语言来标识的子区域。
14.一种用来自动地将文档分成同一语言子区域的方法,其中包括步骤-在包含多个词的文档中定义至少一个区域;-为区域中的每一个词,确定用于表明该词是否包含在所述的多种语言中的每一种语言中的可信度因子;-根据与该区域中的词有关的可信度因子,识别区域中的区域语言;-选择包含至少一个词的该区域中的一个局部地区;-根据与该地区中的词有关的可信度因子,识别局部地区中的地区语言;-判定地区语言与区域语言是否相同;以及-如果地区语言与区域语言是不相同的,那么将局部地区从该区域中的其他的地区分离出来。
全文摘要
本发明揭示的是利用基于字典的方法识别在多种语言的文档中的不同的区域内的语言。首先,利用适当的几何特性将文档图象划分成各种区域、地区和词标记。在每个区域中,将词标记与相关的各种候选语言的字典进行比较,而显示出最高的可信度因子的语言初始地被定义为该区域的语言。其次,将每个区域分成多个地区。然后,利用那个地区的词的可信度因子,识别每个地区的语言。对于具有低的可信度值的任何语言的判定,该区域以前所判定的语言被用于辅助该识别过程。
文档编号G06K9/68GK1276077SQ9718240
公开日2000年12月6日 申请日期1997年11月20日 优先权日1997年9月15日
发明者伦纳德·K·庞, 塔帕斯·卡努格, 琼·杨, 肯尼思·C·乔伊, 敏迪·R·博克瑟 申请人:卡艾尔公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1