自动文本校正的制作方法

文档序号：2829212阅读：606来源：国知局

专利名称：自动文本校正的制作方法
技术领域：
本发明涉及通过使用与相应正确参考文本的比较而自动校正错误文本的领域。
由于各种原因，语音-文本转换方法所生成的文本文档通常不是没有错误的。尽管自动语音识别(ASR)和自然语言处理(NLP)系统的技术发展水平已经提供了关于语音-文本转换和自动插入非言语标点、自动文本分段、标题插入、自动编排日期、单元、缩写等的可观性能，但是所得到的文本仍然存在系统错误。例如，自动语音识别系统会将一个特定单词误译为相似发音的单词。而且，自动语音识别系统所使用的词典或字典中的条目可能会存在错误。因而，当在提供的语音中识别出该特定字典条目时，该自动语音识别或语音转录系统会系统生成错误拼写的单词。
一般地，所有ASR和NLP系统都是易于出错的。特别地，复杂的语音-文本转换器通常对于复杂任务显示高出错率，例如当必须执行多个格式化操作时会受到ASR系统的识别错误的妨碍。尽管这些事实是众所周知的，然而没有一种通用的方案来检测和消除ASR和NLP系统的系统错误。
文献US 2002/0165716公开了当在语音识别期间使用共识性解码(consensus decoding)时减少错误数量的技术，一般地，对于在实时语音识别期间抽取的模糊集(confusion set)应用多个校正规则。该校正规则是在该语音识别系统的训练期间确定的，其需要使用许多训练模糊集。使用一个学习过程来生成多个可能的规则，称为模板规则，其可以被应用到该训练模糊集。该学习过程还根据该模板规则确定校正规则。该校正规则对于该实时模糊集处理以从该模糊集中选择假想词，其中该假想词不必须是具有最高分值的单词。
在文献US 2002/0165716中，通过使用许多训练模糊集来确定校正规则，该训练模糊集是通过共识性解码从字格(word lattice)转换得来的。该字格相应地由解码器使用该识别器的词典条目生成。以这种方式，校正规则的确定和获得是基于该语音识别系统的词典。以这种方式，该识别器的词典以外的词是不可用的，因而确定校正规则的整个过程是基于该语音识别系统中已知的词。此外，每个模糊集包括一个识别词和一组能够替换该识别词的可选词，即该组提供了用另一单个词替换单个词的机会，其中潜在地包括了对应于删除的“空字(empty word)”。
因此，本发明的目的是提供一种检测和消除任何类型的给定文本的系统错误的通用方案，该文本可以通过与ASR或NLP特定训练数据、词典或其他预定文本数据库无关的ASR或NLP系统生成。
本发明提供了一种通过使用至少一个有错训练文本和相应的正确参考文本来生成用于自动文本校正的文本转换规则的方法。本发明的方法比较至少一个有错训练文本和该正确参考文本，并且通过使用该训练文本和参考文本之间的偏差来获得一组文本转换规则。这些偏差是通过该有错训练文本和正确参考文本之间的比较来检测的。在获得一组文本转换规则之后，通过对该训练文本应用每个转换规则而评估该组文本转换规则。取决于这种对于该文本转换规则的评价，选择该组评估文本转换规则中的至少一个用于该自动文本校正。
该有错训练文本可以通过自动语音识别系统或任何其他类型的语音-文本转换系统提供。该参考文本相应地对应于该训练文本，并且应当是无错误的。该正确参考文本可以由ASR和/或NLP系统的识别文本的校对者人工生成。可选地，可以为本发明的文本校正系统即可以用于执行本发明方法的系统提供任意参考文本，典型地为电子形式，并且可以通过将该参考文本作为语音输入到ASR和/或NLP系统和接收转录的文本作为由该ASR和/或NLP系统生成的有错训练文本而生成该有错训练文本。
该生成文本转换规则的方法还使用了检测该参考文本和有错训练文本之间的偏差。偏差检测绝不仅限于词-词比较，而是还可以包括短语-短语比较，其中每个短语具有该文本的一组单词。而且，该训练文本和参考文本之间的偏差可以是指语音-文本转录系统可能产生的任何类型的可能错误。以这种方式，将检测和分类该有错训练文本中的任何类型的错误。
对检测错误的分类典型地是指文本的置换、插入或删除。例如，该训练文本中的每个单词可以被指定到参考文本中的相应单词，从而当该两个单词完全匹配时被标记为正确。如果一个特定单词被该ASR和/或NLP系统误译，例如该系统将“bone”转录为“home”，那么可以将单词“home”标记为用单词“bone”置换。在其他将多个单词转录为一个单词或者反之的情形，可以通过删除或插入来标记该检测的偏差，典型地与置换相结合。这可以例如用于当把“a severe”误译为“weird”时。
每个检测偏差典型地被分配到正确参考文本的相应单词。训练文本的文本部分与相应正确文本部分的对齐可以通过使用一些标准技术来完成，例如最小编辑距离或Levenshtein对齐。基于错误文本部分与相应正确文本部分之间的分配或对齐和适当的分类，可以生成文本转换规则。对于以上给出的例子，其中“a severe”被误译为“weird”，一个文本转换规则可以规定总是要用“a severe”来替换“weird”。然而，这一文本转换规则可能不对应于该ASR或NLP系统的系统错误，当一致地应用到文本时，每个出现的单词“weird”都会被替换为“asevere”，而不考虑是否存在单词“weird”被正确转录的其他情形。
文本转换规则的生成可以以与基于转换的学习(TBL)相似的方式完成，该基于转换的学习是在获得用于校正标记过程的转换规则的框架中已知的，其中将一些语法信息或语义内容与单词流对齐。根据本发明，对基于转换的学习进行修改和适应以便将参考文本与错误文本部分对齐。
为了区分重复、系统的和偶然、不能再现的错误，必须评估已经自动生成的文本转换规则。因而，必须确定哪一个生成的文本转换规则对应于该语音-文本转录过程的系统错误。该评估典型地这样完成，对训练文本应用每一个生成的文本转换规则，随后与参考文本进行比较以确定一个文本转换规则是否提供了错误消除或者其应用导致向训练文本中引入了更多错误。即使一个生成的文本转换规则可以消除一个特定的错误，它也会向训练文本的正确文本部分中引入多个附加的错误。
对该组文本转换规则的评估允许对该文本转换规则进行排列级别，以便直观地仅选择在应用到训练文本时改善该训练文本的那些文本转换规则。因而，该自动生成的文本转换规则组中的仅仅那些文本转换规则被选择和提供到自动文本校正，以检测和消除ASR和/或NLP系统的系统错误。
根据本发明一个优选实施例，根据训练文本和参考文本的文本区域的对齐来实现文本转换规则的获得。这些文本区域规定了相邻和/或非相邻的短语和/或单个或多个单词和/或数字和/或标点符号。以这种方式，本发明的方法可以广泛应用到任意类型的文本片段或文本区域，而不论它们是否表示单词、标点符号、数字或其组合。这些训练文本和参考文本的文本区域之间的分配或对齐可以通过单词-单词映射来实现，例如用其相应的正确的参考部分来替换一个错误单词。
因为单词-单词分配(assignment)经常是不确定的，所以该方法绝不仅限于单词-单词映射。而且，训练文本和参考文本之间的分配可以在一个较大的范围内进行。因而，一个具有多个单词的文本可以被划分成无错和有错区域。基于这种划分，可以在全部错误区域之间执行映射以减少不确定性和学习更长距离的短语-短语映射。这种短语-短语映射例如可以表示为错误文本部分“the patient hasweird problem”与正确表示“the patient has a severe problem”之间的映射。
此外，可以基于规定错误区域的子区域的部分错误区域来进行分配。这可以优选地应用于错误区域的短距离错误可能在其他上下文中再次出现的情形中。例如，一个部分错误区域可以规定一些语法错误的表达，例如“one hours”。
在检测到训练文本和参考文本之间的偏差或不匹配时，不仅会生成单个文本转换规则，而且还可以生成多个重叠的文本转换规则。根据局部检测的偏差和特定文本转换规则的生成，该方法不知道该生成的文本转换规则的整体性能和质量。因此，生成可以应用于一个检测错误的多个规则是有利的。例如，如果句子“the patient has a severeproblem”被转录为“the patient has weird problem”，那么就会生成一组完整的文本转换规则。一个非常简单的单词-单词转换规则可以规定用“severe”替换“weird”。另一个文本转换规则可以规定用短语“a severe”替换“weird”。另一个文本转换规则可以规定用“has a severe”替换“has weird”，等等。
显然，当严格应用到文本上时，这种自动生成的文本转换规则中的一些不会改善而仅仅是降低文本的质量。因此，必须应用对于该组文本转换规则的评估以找出该生成的文本转换规则组中的合理的文本转换规则。
根据本发明的另一优选实施例，文本转换规则包括训练文本的文本区域与参考文本的文本区域之间的至少一个分配，和进一步使用规定该分配可接受的情形的应用条件。以这种方式，文本转换规则可以规定仅当满足一个附加条件时用正确文本区域来替换特定的文本区域。这样使得能够制定足够特别以校正错误的一些文本转换规则而不影响正确的文本。
例如，简单地在任意两个单词之间或者任一出现的单词“and”之前引入逗号将会向文本中插入比所引入的正确逗号更多的不合适的逗号。在这种情况下，该应用条件可以表示为断言的形式，例如要求下一个单词是“and”并且在该“and”之前两个位置存在逗号以插入一些缺失的逗号。
而且，该应用条件可以规定例外，其可以禁止一些文本转换规则的可用性。例如，一个文本转换规则可以规定用“”替换“冒号”。当单词“冒号”例如前接一个冠词时禁止该文本转换规则适用是有利的。更多的应用条件也是可能的，甚至可以利用由词类表示的单词上下文。这种词类例如可以定义度量单位，并且一个应用条件可以规定，如果下一个单词是来自一类度量单位，那么用“1”来转换单词“one”。这仅仅是一个基本示例，应用条件还可以使用更长距离的上下文条件，其利用了文本分段(text segmentation)和主题标记技术。
根据本发明的另一个优选实施例，对于该组文本转换规则的评估采用了单独评估该组文本转换规则中的每个文本转换规则。这种对于文本转换规则的单独评估还使用了错误减少度量，包括步骤对训练文本应用该文本转换规则，确定正计数(positive count)的数量，确定负计数(negative count)的数量，以及基于正和负计数而获得错误减少度量。
对训练文本应用文本转换规则是指严格应用该文本转换规则和提供一个转换的训练文本。然后将原始的和该转换的训练文本都与正确参考文本比较，以确定该特定的文本转换规则的性能。以这种方式，可以精确地确定应用该文本转换规则多久能消除原始训练文本中的错误。对于训练文本中每一个错误消除，递增该文本转换规则的正计数。以同样的方式，转换的训练文本和参考文本之间的比较允许确定该文本转换规则的应用多久能在该训练文本中生成错误。在这种情况下递增负计数的数值。
基于这些正和负计数的数值，可以获得错误减少度量。典型地，可以通过从正计数中减去负计数来获得错误减少度量。如果该结果是正的，那么该特定的文本转换规则总的来说将改善该训练文本。在另一种情况下，当结果为负时，当被自动文本校正系统应用时，该特定文本转换规则的严格应用将对文本有不利影响。此外，该误差减少度量可以通过一些错误量化器来衡量，其确定了该特定文本转换规则的单独应用会产生或消除多少错误。这就允许获得能够用于比较各种文本转换规则的性能的通用错误减少度量。
理论上，通过对每个文本转换规则使用错误减少度量，就已经能够选择出对于训练文本具有积极影响的文本转换规则。在这种情况下，不考虑该文本校正规则组中各个规则之间的可能的相互作用。因为该各个文本转换规则可能重叠，即它们涉及相同的或者部分重叠的文本区域，所以对相同的文本区域随后应用各个规则会相应地导致该文本的退化(degradation)。
根据本发明的另一优选实施例，评估和获得该组文本转换规则还包括迭代执行评估过程。这里，在第一步，通过使用该规则错误减少度量来对该组文本转换规则进行级别排列。然后，对于训练文本应用最高级别的文本转换规则以生成第一转换的训练文本。该最高级别规则是指该整组文本转换规则中为该文本提供最大增强和最小退化的规则。因为该最高级别文本转换规则的应用会影响原始的训练文本，所以必须至少对其他剩余的所有规则进行再次评估和/或设计以处理该修改的训练文本。
一般地，该剩余规则的级别排列不再有效。因此，基于该参考文本和第一转换的训练文本获得第二组文本转换规则。获得该第二组文本转换规则典型地与生成第一组文本转换规则类似，即通过比较该第一转换的训练文本与该参考文本，检测该两个文本之间的偏差和生成正确的文本转换规则。
在获得该第二组文本转换规则之后，基于该第二组文本转换规则和第一转换的训练文本执行第二次级别排列。该级别排列与对该组文本转换规则的最初级别排列类似进行，因而它对该第二组文本转换规则中的每个规则使用错误减少度量。然后，对该第一转换的训练文本应用第二组文本转换规则中最高级别的规则以生成第二转换的训练文本。然后，重复应用该整个过程，并基于该第二转换的训练文本与原始参考文本之间的比较而生成第三组文本转换规则。优选地，这一迭代过程可以被执行直到n次转换的训练文本等于该参考文本或者直到n次转换的训练文本相对于(n-1)次转换的训练文本不显示任何改善。典型地，每个迭代中的最高级别规则被选择作为用于该自动文本校正系统的文本转换规则。
通过使用这一迭代过程，考虑了各个文本转换规则之间的相互作用，并且提供了一种执行评估和规则生成过程的可靠方案。然而，这一迭代评估过程在计算上是昂贵的，因而需要不合适的计算时间和计算资源。
根据本发明的另一优选实施例，评估该组文本转换规则包括如果该组文本转换规则中的第一和第二文本转换规则实质上是指训练文本的相同文本区域，那么丢弃该第一和第二文本转换规则中的第一文本转换规则。如果该第一文本转换规则被评估为比第二文本转换规则更差，即该第一规则的错误减少度量比第二规则的错误减少度量更差，那么丢弃该第一文本转换规则。丢弃决不是限于成对(pairswise)丢弃。而且，排列所有涉及相同文本区域的规则和对涉及该文本区域的那些规则排列级别是有利的。然后，对于每个文本区域，仅选择那些具有最大错误减少度量的规则和提供到文本校正系统。以这种方式，不需要明确应用该迭代过程以便相对于规则相互作用而找到好的规则。
根据本发明的另一优选实施例，获得该组文本转换规则还使用了特别针对一种文本错误的至少一类文本单元或“单词”。典型地，这类文本单元，也称为词类，是指一个语法规则或一些上下文特定规则。词类例如可以规定一类度量单位，例如米、千米、毫米。有利地，一个转换规则可以采用这种词类以便例如当后接由该词类说明的度量表示时，用相应的数字来替换书面数字(written number)。其他示例可以涉及不定冠词的类，例如“a，an，one”，其永远不会后接复数词例如“houses，cars，pencils，...”。使用词类的文本转换规则还可以被实施为使用上述用于文本转换规则的应用条件。
根据本发明的另一优选实施例，文本转换规则本身可以被指定为将一些文本区域转换成另一文本区域，除非满足某些条件，该某些条件典型地指示一种将正确文本区域转换为错误文本区域的非预期转换。以这种方式，文本转换规则可以不仅以正面方式规定一种替代、插入或删除，而且还禁止对于具有较高正确概率的文本区域进行转换。
根据本发明的另一优选实施例，评估和/或选择文本转换规则还包括向用户提供该组文本转换规则中的至少一些。然后用户可以人工评估和/或人工选择任何一个被提供的文本转换规则。以这种方式，可以通过与用户交互来执行评估和选择高度执行文本转换规则的鉴定任务。典型地，可以以可视方式向用户提供文本转换规则，例如可视化文本转换规则的具体替代和提供表示用于该文本转换规则的应用条件的逻辑表达式。用户可以提供一组例如涉及相同文本区域的驾御性(conquering)文本转换规则。然后用户可以选择该提供的可选文本转换规则中的一个。
根据本发明的另一优选实施例，该有错误的训练文本被提供一个自动语音识别系统、自然语言理解系统或一般为语音-文本转换系统。因而，本发明的方法是专用于基于这些系统的文本输出和与相应的正确参考文本比较而检测这些系统的系统错误。
本发明的方法还自动生成允许补偿该检测的系统错误的文本转换规则。而且，本发明的方法一般允许比较有错误文本与参考文本而不考虑其来源。以这种方式，本发明的方法甚至可以应用在教育程序中，其中一些受训者或学生产生潜在有错误的文本，并且本发明的方法可以用于在校正该文本之后或将该文本与参考文本比较后向学生提供反馈。
在另一方面，本发明提供了一种使用文本转换规则校正有错文本的文本校正系统。该文本校正系统适于通过使用至少一个有错训练文本和相应的正确参考文本来生成该文本转换规则。本发明的文本校正系统包括用于将该至少一个有错训练文本与该正确参考文本相比较的装置，用于通过使用该训练文本与参考文本之间的偏差来获得一组文本转换规则的装置，从而通过该比较来检测该偏差。该文本校正系统还包括通过对该训练文本应用每个转换规则而评估该组文本转换规则的装置，和选择该组被评估的文本转换规则中的至少一个用于该文本校正系统的装置。
在另一方面，本发明提供了一种生成用于自动文本校正的文本转换规则的计算机程序产品。该计算机程序产品适于处理至少一个有错训练文本和相应的正确参考文本。该计算机程序产品包括可操作以比较该至少一个有错训练文本与正确参考文本、和通过使用该训练文本与参考文本之间的偏差来获得该组文本转换规则的程序装置。典型地，通过该计算机支持的比较来检测这些偏差。该计算机程序产品的程序装置还可以通过对训练文本应用每个转换规则来评估该组文本转换规则和最终选择该组被评估的文本转换规则中的至少一个用于该文本校正系统。
在另一方面，本发明提供了一种用于将语音转录为文本的语音-文本转换系统。该语音-文本转换系统具有使用文本转换规则以校正文本的错误的文本校正模块，并且具有通过使用该语音-文本转换系统生成的至少一个有错训练文本和相应的正确参考文本来来生成文本转换规则的规则生成模块。该语音-文本转换系统特别是其规则生成模块包括用于存储该参考和训练文本的存储模块，用于比较该至少一个有错训练文本和正确参考文本的比较模块，用于获得一组文本转换规则的转换规则生成器，适于通过对训练文本应用每个转换规则而评估该组文本转换规则的评估器，和最后选择该组评估的文本转换规则中的至少一个用于该文本校正模块的选择模块。
根据本发明的另一优选实施例，该语音-文本转换系统和/或文本校正系统包括一个用户界面，用于可视显示生成的文本转换规则结合对于每个文本转换规则评估或计算的错误变化或错误减少度量的信息。该用户界面包括允许排序和/或选择和/或丢弃一个特定规则或一组规则的选择工具。而且，该用户界面还可以提供由用户人工定义和生成文本转换规则。因而，用户自己可以定义或制定任意规则。然后，该用户定义的规则可以提供到评估模块，并且用户可以被提供关于该制定的规则的性能的反馈。用户定义的规则还可以被包括在自动生成的规则的级别中，从而可以组合统计证据和人的感知以获得最佳效果。
而且，该用户界面可以可视显示词类以使得用户能够人工控制和规定对于词类的修改，例如合并或分解词类。此外，该用户界面可以图形化高亮被应用了文本转换规则的修改文本中的区域。高亮可以与撤消(undo)功能组合提供，该撤消功能允许容易地补偿由某个规则引入的修改。
根据另一优选实施例，通过比较一个或多个训练和参考文本而生成用于其应用的规则和条件列表。代替了基于生成规则的数据对该规则进行评估，可以存储它们以备以后使用。然后，在从特定用户接收训练和参考文本的基础上，可以基于这些文本而评估所有规则。该方案使得能够从先前生成和存储的较长规则列表中进行用户制定的规则选择，其可以来自具有不同错误特性的多个不同用户。从较大的数据集中预先生成规则会比仅从通常限制的用户制定数据中提取规则提供更多规则，或者用于使用或禁止一些规则的改进的条件。此外，还可以减少在联机系统中生成规则的时间。
因此，本发明提供了一种广泛适用于任意两个对应文本的方法，其中一个文本具有多个错误。该方法和文本校正系统能够广泛实施在语音-文本转换系统中，并且允许补偿这些系统的系统错误或者至少为用户提供如何才能消除文本中的错误以用于该语音-文本转换系统的未来应用，例如ASR和/或NLP。
还应该注意到，权利要求中的任何参考标记都不能被解释为对于本发明的范围的限制。
以下将通过参照附图来更详细地描述本发明的优选实施例，其中

图1示出了本发明的生成文本转换规则的方法的流程图，图2示出了参考文本、训练文本和文本转换规则列表的示意性框图，图3示出了迭代评估文本转换规则的流程图，图4示出了生成用于自动文本校正系统的文本转换规则的规则生成模块的框图。
图1示出了使用至少一个有错训练文本和相应的正确参考文本来执行本发明的生成文本转换规则的方法的流程图。典型地，该参考文本已经被提供给自动文本校正系统并存储在适当的存储器中。然后，在第一步100，有错文本，也被表示为训练文本，被接收和存储在适当的存储器中。以这种方式，有错文本和参考文本被分别存储以允许比较和修改该有错文本。
典型地，该有错文本由自动语音识别系统和/或自然语言处理系统或任何其他类型的语音-文本转换系统提供。在步骤100接收该有错文本之后，在随后的步骤102，比较有错文本和参考文本。该比较可以是基于单词-单词比较或者是基于比较整个文本区域包括多个单词、数字、标点符号和类似的文本单元。有利地，该比较可以通过最小编辑距离和/或Levenshtein对齐来进行，甚至还提供对于有错文本部分和对应的正确文本部分之间的偏差的度量。
基于该比较，在步骤104可以获得一组文本分配，在步骤106可以获得一组分配条件。文本分配可以涉及为了将有错文本转换成其对应的正确部分而必要的任何类型的文本修改。以这种方式，文本分配可以涉及插入、删除或替换。例如，一个错误表达例如“the patienthas weird problem”可以被分配到参考文本的正确表达“the patienthas a severe problem”。
典型地，对于每个检测的偏差，可以生成有错文本部分和对应正确文本部分之间的多个可能的文本分配。参照上述例子，将“weird”替换为“severe”和将“weird”替换为“a severe”以及其他许多方式都是可以接受的。除了该文本分配之外，在步骤106可以获得用于每个文本分配的一组分配条件。分配条件可以规定当满足一些特定的分配条件时必须应用一个特定的文本分配。例如当一个文本分配规定在单词“and”前插入逗号时，该分配条件可以规定该文本分配规定的插入仅适用于在“and”出现前的两个位置存在冒号时。另一个文本分配的例子可以是用符号“”替换单词“colon”。这里，该分配可以规定，如果在前单词是冠词或属于一类文本元素或文本区域例如“a，an，the”，那么不应用该文本分配。另一个禁止条件可以是表示当前句子属于例如一些肠胃诊断的一些更高水平的文本分段。
该用于文本分配或文本映射的分配条件可以通过对相关文本映射进行统计评估来提取。因而，通过严格应用特定的文本分配和确定该文本分配的严格应用是否消除或引入错误，当考虑到该文本分配的周围文本部分时，可以获得分配条件。在上述将“the patient has weirdproblem”映射到“the patient has a severe problem”的例子中，替换中心是用“a severe”替换“weird”，可以以正面形式将其周围单词规定为一个条件。这里，一个可能的条件可以描述为“在前单词是‘has’或者来自包含‘has’的一些词类”。
当然，也可以从该比较的文本中直接提取更长距离的相关性，包括非相邻文本区域，例如在条件“两个单词前必须有一个逗号”中。
理论上，在步骤104生成的获得的文本分配和在不周106获得的对应组分配条件足以规定一个文本转换规则。在一个最简单的实施例中，已经获得文本分配例如替换、插入和删除就可足以规定一个特定的文本转换规则。
有利的，在步骤108通过使用前两个步骤104和106来获得和生成该各个文本转换规则，即一组文本转换规则。以这种方式，文本分配和分配条件被有效地结合。一旦该文本转换规则已经在步骤108生成，它们就被一些种类的存储器存储。在步骤108获得该组文本转换规则之后，在随后的步骤，必须评估全部文本转换规则以选择表示生成有错文本的语音-文本转换系统的系统错误的那些文本转换规则。
对于文本转换规则的评估可以以多种不同的方式进行。一种基本的方案通过分别对训练文本应用每个文本转换规则和将转换的训练文本与参考文本相比较，以确定该文本转换规则是否对训练文本的错误率有正面或负面影响。例如，对于每个文本转换规则，基于因为应用该规则而消除或生成一个错误，分别递增正和负计数器。基于这些正和负计数，可以获得指示该文本转换规则对于该有错文本的整体性能的错误减少度量。
一种评估该多个文本转换规则的更复杂方案是基于迭代评估过程的进行。相对于例如其错误减少度量而对该多个文本转换规则排列级别，并且仅仅将最高级别的文本转换规则应用到该有错文本。然后，重复将修改的有错文本与参考文本比较以生成第二组文本转换规则。也对该第二组文本转换规则排列级别，并且再次将最高级别的规则应用到该修改的训练文本以生成第二个修改的训练文本。该过程被重复进行并且允许相对于各个规则之间的相互作用而评估该各个文本转换规则。
另一个方案使用了相对于各个规则的公共文本分配来排列各个文本转换规则。该排列考虑了应用到例如相同类型错误上的部分重叠的规则。以这种方式，生成各组文本转换规则，并且对于每组文本转换规则，实际上选择单个规则，典型地为具有最佳性能的那一个，即具有最高级别的那个。因而，在步骤110执行的对于文本转换规则的评估可以与随后的步骤112相联系，其中选择各个文本转换规则用于该文本校正系统。
一旦在步骤112选择出这些规则，就在步骤114将它们提供到文本校正系统，其适于按照选择的顺序严格应用这些文本转换规则。因为该评估和选择的文本转换规则是特别用于该有错文本的系统错误或生成该有错文本的ASR系统或语音-文本转换系统的系统错误的，所以该生成的规则可以广泛用于补偿ASR系统的系统错误或者重新设计该ASR系统。因而，本发明的生成文本转换规则的方法可以广泛用于任何商业可用的语音-文本转换系统。然后，该生成的文本转换规则可以被适于校正该语音-文本转换系统的系统错误的自动文本校正系统使用，或者作为反馈用于改进该语音-文本转换系统。
图2中所示的框图示出了参考文本200和具有有错文本部分的训练文本204。作为一个例子，该参考文本具有文本部分202例如“thepatient has a severe problem”，训练文本204具有对应的有错文本部分206“the patient has weird problem”。通过比较该参考文本200和训练文本204，将检测到两个表达202、206之间的偏差。该对于训练文本204的有错部分的检测可以通过使用单词-单词比较、短语-短语比较或者将有错文本部分206分割为正确和错误文本区域来完成。
两个文本元素或文本区域202、206之间的偏差可能是由于许多原因。因此，对于该检测到的偏差，生成完整的一组文本转换规则，如表208所示。典型地，该文本转换规则规定了存储在栏216中的有错文本必须被栏218中所示的正确文本替换。这些可选分配中的每个规定了不同的文本转换规则210、212、214，它们中的每个可以具有由栏220给出的应用条件。如上所述，用“has a severe”替换“hasweird”的规则214还可以被表示为例如规则212，用“a severe”替换“weird”，以及附加条件220即在前的单词必须是“has”。以这种方式，可以根据对周围文本部分的分析自动提取条件。类似地，如果一些更高水平的分段或任何类型的标记(tagging)是可用的，那么该附加信息可以用作条件220。
相对于有错文本元素206及其正确对应部分202，各种替代都是可接受的。例如，规则210可以规定必须用“severe”替换“weird”。规则212可以规定必须用两个单词“a severe”替换“weird”，规则214可以规定必须用表述“has a severe”替换表述“has weird”。这些规则210、212、214的生成被执行，而不考虑这些规则的内容和这些规则的潜在性能。例如，普遍使用“severe”替换“weird”显然不是一个好的选择，因为任何使用单词“weird”的正确文本部分都会被单词“severe”替代。因此，需要对该多个生成的规则210、212、214进行评估和排列级别，包括其相关的条件220，如果存在的话。
图3示出了执行该迭代评估过程的流程图。该迭代评估过程使用了通过比较该有错训练文本和正确参考文本而检测和生成的多个文本转换规则。在第一步骤300中，对于该组文本转换规则中的每个文本转换规则，确定一个错误减少度量。该错误减少度量的确定可以通过将一个文本转换规则严格应用到该有错文本和随后将转换的文本与原始参考文本比较而有效进行。以这种方式，可以检测到该文本转换规则的应用是否导致错误的消除或生成。通过使用正和负计数来确定是否出现新生成的错误和消除的错误，从而可以获得每个文本转换规则的错误减少度量。该错误减少度量例如可以通过从正计数中减去负计数来确定，从而指示该特定的文本转换规则是否对该有错训练文本产生增强或退化影响。
基于该错误减少度量，可以在随后的步骤302中对该组文本转换规则进行排列级别和重新排序。因而，可以相对于其错误减少度量对该多个文本转换规则排序。典型地，可以丢弃那些具有负错误减少度量的文本转换规则，即那些引入错误比消除错误更多的规则。
在步骤302对该文本转换规则进行级别排列之后，在随后步骤304中，将最高级别的文本转换规则应用到训练文本。该最高级别文本转换规则的应用是指仅严格应用该特定的转换规则。因此，该训练文本将被适当修改。然后，在步骤306，将严格应用该最高级别转换规则所得到的转换的训练文本与参考文本比较。在步骤306中执行的该比较利用了与生成最初的一组文本转换规则所应用的相同的技术。因而，可以检测到该转换的训练文本与参考文本之间的偏差，并且生成相应的文本转换规则。
基于在步骤306执行的比较，在随后步骤308中生成下一组文本转换规则。然后，在步骤310，检验用于该迭代评估过程的停止准则。该停止准则例如可以规定该评估过程应该在第十次迭代后停止。可选地，该停止准则可以规定，当在步骤308中仅生成有限数量的转换规则从而表明转换的训练文本和参考文本几乎完全匹配时，停止该过程。如果步骤310中的停止准则被满足，那么该过程将继续到步骤312，其中停止对于该组文本转换规则的评估，并且选择每次迭代中最高级别的规则作为提供给该文本校正系统的文本转换规则。
在另一情况下，当在步骤310中不满足该停止准则时，该过程继续到步骤314，其中单独评估由步骤308生成的下一组文本转换规则。该单独评估是指对于该下一组文本转换规则中的每个文本转换规则确定一个错误减少度量，如在步骤300中对于最初一组文本转换规则所进行的。相应地，基于该单独的文本转换规则的错误减少度量，对该下一组文本转换规则进行级别排列。然后，该过程返回步骤304，其中将最高级别的文本转换规则应用到训练文本。
优选地，在步骤304的重复运行中，不是将该最高级别的文本转换规则应用到原始训练文本，而是应用到根据该最初一组文本转换规则的最高级别转换规则的第一次应用而得到的训练文本。
该评估和选择文本转换规则的迭代过程允许考虑各个文本转换规则之间的相互作用，例如当文本转换规则有某种重叠时。以这种方式，在应用该最佳评估的文本转换规则之后，重复应用将修改文本与训练文本比较、确定一组文本转换规则和对该文本转换规则进行评估和排列级别的整个过程。
图4示出了适于生成和评估文本转换规则的规则生成模块400的框图。该规则生成模块400可以与为该规则生成模块400提供有错文本输入的自动语音识别系统402相互作用。此外，该规则生成模块400还适于与文本校正系统404和用户406交互。可选地，所示规则生成模块400可以被实施在文本校正系统404和/或语音-文本转换系统中例如ASR 402中。
该规则生成模块400具有存储模块408，其用于分别将有错文本作为训练文本存储在训练文本存储模块422中和将正确参考文本存储在参考文本存储模块424中。典型地，训练文本和参考文本被存储在一个可重新配置存储模块408的不同存储模块中。该训练文本和参考文本典型地以电子形式提供到规则生成模块400。
规则生成模块400还具有比较模块412、规则生成器414、规则存储器416、显示器418、规则选择器420、用户界面428和规则评估器410。典型地，规则评估器410还具有存储器，特别地为临时存储模块426。
比较器412用于将训练文本与参考文本相比较以找出参考文本和训练文本之间的任何偏差。该比较可以使用两个文本之间的单词-单词比较和单词-单词匹配，但决不限于单词-单词映射。而且，该比较器模块412适于执行Levenshtein对齐或使用最小编辑距离算法，以找出和分类该训练文本和参考文本的文本元素或文本区域的任何偏差。该比较器模块412可以使用短语-短语匹配和将文本分割为有错和无错区域。
基于该比较器模块412的结果，规则生成器414适于为每个有错文本区域生成至少一个规则。典型地，该规则生成器为有错文本区域分配相应的正确文本区域，并且还可以为该分配规定应用条件。典型地，规则生成器414适于为每个检测的偏差生成一组可选规则。这对于覆盖大量可接受和适于消除所检测错误的校正规则是特别有利的。
规则存储模块416适于存储通过规则生成器414生成的规则。规则评估器410适于与规则生成模块400的几乎任何其他组件相互作用。该规则评估器用于将规则生成器414生成的规则应用到存储在存储模块422中的训练文本。规则评估器410具有临时存储模块426，用于例如存储由于严格应用存储在规则存储模块416中的特定规则而修改的修改训练文本。
除了应用该特定规则和将结果存储在临时存储模块426中之外，规则评估器410还适于比较参考文本和修改的训练文本。典型地，该比较可以通过比较器412完成。以这种方式，规则评估器410控制比较器412以比较该修改的训练文本和参考文本。该比较的结果可以提供到规则评估器，其可以相应地提取和获得该被应用规则的错误减少度量。然后，可以将该错误减少度量提交给规则存储模块416以分配给相应规则。
规则评估器410还适于执行任何一个所述的规则评估过程。因而，该规则评估器适于对存储在规则存储模块416中的规则排列级别和将最高级别的规则应用到该训练文本。然后，规则评估器410可以控制比较器412、规则生成器414和规则存储器416，以便基于该修改的训练文本和参考文本之间的比较而生成第二组文本转换规则。通过每次迭代，可以仅把最高级别的规则提交到规则选择器420。最后，通过规则评估器410和规则选择器420评估和选择的规则被提供给文本校正系统400，在这里它被严格应用于未来在语音文本转换框架中的应用。
此外，规则评估器410可以与显示器418和用户界面428交互。可选地，用户界面428和显示器418可以被实施为规则生成模块400的外部组件。在任何情况下，用户406都可以通过显示器418和用户界面428与规则生成模块400交互。以这种方式，可以向用户显示由规则生成器414生成的各个规则，并且可以相应地人工选择、取消选择、排序或丢弃该生成的规则中的一些。然后，该用户输入被提供到该规则评估器和/或规则选择器420以提取用于文本校正系统404的适当规则。此外，用户还可以提供生成器模块414没有建议的其他规则。然后，这些规则被比较器412和评估器410评估，并且该结果被反馈回用户或者可以被规则选择器采用。
参考数字列表200参考文本202文本元素204训练文本206文本元素208一组文本转换规则210文本转换规则
212文本转换规则214文本转换规则216有错文本元素218正确文本元素220分配应用条件400规则生成模块402自动语音识别系统404文本校正系统406用户408存储模块410规则评估器412比较器414规则生成器416规则存储器418显示器420规则选择器422训练文本存储模块424参考文本存储模块426临时存储模块428用户界面
权利要求
1.一种通过使用至少一个有错训练文本(204)和相应的正确参考文本(200)来生成用于自动文本校正的文本转换规则(210，212，214)的方法，包括步骤比较该至少一个有错训练文本和该正确参考文本，通过使用该训练文本和参考文本之间的偏差来获得一组文本转换规则(210，212，214)，该偏差是通过该比较来检测的，通过对该训练文本应用每个转换规则而评估该组文本转换规则，选择该组评估的文本转换规则中的至少一个用于自动文本校正。
2.如权利要求1所述的方法，其中相对于该训练文本和参考文本的文本区域(216，218)之间的分配而获得文本转换规则(210，212，214)，该文本区域规定了连续和/或不连续的短语和/或单个或多个单词和/或数字和/或标点符号。
3.如权利要求1所述的方法，其中文本转换规则(210，212，214)包括训练文本的文本区域(216)和参考文本的文本区域(218)之间的至少一个分配，该文本转换规则还使用了规定该分配适用情形的应用条件(220)。
4.如权利要求1所述的方法，其中评估该组文本转换规则(210，212，214)利用单独评估该组文本转换规则中的每个文本转换规则，文本转换规则的评估还使用了错误减少度量，并且包括步骤对训练文本(204)应用该文本转换规则以生成转换的训练文本，确定多个正计数，其表示应用该文本转换规则多久能消除该训练文本的错误，确定多个负计数，其表示应用该文本转换规则多久能在该训练文本中生成错误，通过使用正和负计数的数量来获得该文本转换规则的错误减少度量。
5.如权利要求4所述的方法，其中评估该组文本转换规则(210，212，214)包括一个迭代评估过程，其中一个迭代包括步骤通过使用错误减少度量来对该组文本转换规则排列级别，对训练文本应用最高级别的文本转换规则以生成第一转换的训练文本，基于参考文本和第一转换的训练文本来获得第二组文本转换规则，并且其中，随后的迭代包括对该第二组文本转换规则进行第二次评估和第二次级别排列。
6.如权利要求4所述的方法，其中评估该组文本转换规则(210，212，214)包括如果该第一和第二文本转换规则实质上涉及该训练文本的一个或多个相同的文本区域，丢弃该组文本转换规则中的第一和第二文本转换规则中的第一文本转换规则；并且其中，如果该第一文本转换规则被评估为比第二文本转换规则更差，则丢弃该第一文本转换规则。
7.如权利要求1所述的方法，其中获得该组文本转换规则(210，212，214)和/或应用条件使用了至少一个词类。
8.如权利要求1所述的方法，其中该文本转换规则(210，212，214)还规定了禁止将正确文本区域转换成错误文本区域的条件。
9.如权利要求1所述的方法，其中评估和/或选择文本转换规则还包括向用户(406)提供该组文本转换规则中的至少一些，以允许用户人工评估和/或人工选择该提供的文本转换规则(210，212，214)。
10.如权利要求1所述的方法，其中用户定义的规则被评估，并且其中该评估的规则被选择用于该自动文本校正和/或提供给用户以进行人工选择。
11.如权利要求1所述的方法，其中该有错训练文本(204)由自动语音识别系统(402)、自然语言理解系统或语音-文本转换系统提供。
12.一种使用文本转换规则(210，212，214)校正有错文本的文本校正系统(404)，该文本校正系统适于通过使用至少一个有错训练文本(204)和相应的正确参考文本(200)来生成文本转换规则，该文本校正系统包括用于将该至少一个有错训练文本与该正确参考文本相比较的装置，用于通过使用该训练文本与参考文本之间的偏差来获得一组文本转换规则的装置，其中通过比较来检测该偏差，用于通过对该训练文本应用每个转换规则而评估该组文本转换规则的装置，用于选择该组被评估的文本转换规则中的至少一个用于文本校正系统的装置。
13.一种生成用于文本校正系统(404)的文本转换规则的计算机程序产品，该计算机程序产品适于处理至少一个有错训练文本(204)和相应的正确参考文本(200)，该计算机程序产品包括可操作以实现以下功能的程序装置比较该至少一个有错训练文本与正确参考文本，通过使用该训练文本与参考文本之间的偏差来获得该组文本转换规则(210，212，214)，其中通过比较来检测这些偏差，通过对训练文本应用每个转换规则来评估该组文本转换规则，选择该组被评估的文本转换规则中的至少一个用于该文本校正系统。
14.一种用于将语音转录为文本的语音-文本转换系统，该语音-文本转换系统具有使用文本转换规则(210，212，214)以校正文本的错误的文本校正模块(404)，并且具有通过使用由语音-文本转换系统生成的至少一个有错训练文本和相应的正确参考文本来来生成文本转换规则的规则生成模块(414)，该语音-文本转换系统包括用于存储该参考和训练文本的存储模块(408)，用于比较该至少一个有错训练文本和正确参考文本的比较模块(412)，用于获得一组文本转换规则的转换规则生成器(414)，该转换规则生成器适于使用该训练文本和参考文本之间的偏差，该偏差是通过处理模块检测的，适用于通过对该训练文本应用每个转换规则而评估该组文本转换规则的评估器(410)，选择该组评估的文本转换规则中的至少一个以用于该文本校正模块的选择模块(420)。
全文摘要
本发明提供了一种为语音－文本转录系统生成文本转换规则的方法。该文本转换规则是通过比较由该语音－文本转录系统生成的有错训练文本和正确参考文本而生成的。有错和参考文本的比较允许获得一组文本转换规则，通过对该训练文本严格应用和随后与该参考文本比较而评估该组文本转换规则。对文本转换规则的评估提供了一种确定哪一个自动生成的文本转换规则提供该有错文本的增强或退化的充分方案。以这种方式，仅选择该组文本转换规则中确保增强该有错文本的那些文本转换规则。以这种方式，可以有效补偿自动语音识别或自然语言处理系统的系统错误。
文档编号G10L15/00GK101031913SQ200580033376
公开日2007年9月5日申请日期2005年9月28日优先权日2004年9月30日
发明者J·彼德斯, E·马图索夫申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.彼德斯;E.马图索夫
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人