自动语音识别系统中的快速词汇表外搜索的制作方法

文档序号：9308669阅读：465来源：国知局

自动语音识别系统中的快速词汇表外搜索的制作方法
【技术领域】
[0001] 本发明的多个方面涉及到语音处理、索引和搜索。更具体地，本发明的多个方面涉及在自动语音识别（ASR)系统（例如，大词汇量连续语音识别（LVCSR)系统或者类似的适当系统）中搜索包含至少一个词汇表外（00V)字的短语。
【背景技术】
[0002] 在很多情况下，大集合录制音频（音频信息）的用户很重视在音频中快速搜索字或短语的能力。例如，在企业联络中心（例如，呼叫中心）中，可以搜索并分析客户与客户服务代表（或代理）之间的记录谈话以识别客户满意度或客户问题的倾向、监督各种支持代理的性能以及定位与特定问题相关的呼叫。作为另一个示例，可搜索的讲课记录允许学生搜索并重放特定兴趣话题的讨论。可搜索的语音信箱消息也允许用户快速找到包含特定字的语音消息。另一个示例中，可搜索的复杂医疗程序（例如，外科手术）的记录可以用于定位涉及特定装置的使用、手术中方法的选择以及多种并发症的过程的记录。
[0003] 通常，自动语音识别（ASR)系统，特别是大词汇量连续语音识别（LVCSR)转录引擎包括三个部分：一组语言模块（LM)、一组声学模块（AM)和解码器。LM和AM通常通过向学习模块提供音频文件及其录音文本（例如，已知的、准确的录音文本）进行训练。通常，LM 为统计LM(SLM)。训练过程使用字典（或"词汇表")，该字典将识别的书面语映射到子词序列（例如，因素或音节）。在语音识别过程中，解码器分析音频片段（例如，音频文件）并且输出识别的字序列。
[0004] 可以通过使用LVCSR引擎处理每个音频文件来搜索音频文件集（例如，呼叫中心的呼叫或者课堂上的一系列演讲）以生成文本抄本文件，在该文本抄本文件中抄本中的每个写成的字（基本上）对应于音频文件中口述的字。该生成的文本接着可以被传统的基于文本的搜索引擎（例如，ApacheLucene?)编入索引。然后，用户可以查询该生成的索引 (例如，搜索索引数据库）以搜索抄本。
[0005] 通常，LVCSR引擎输出中的识别字是从ASR系统的字典（或"词汇表"）中包含的字中选择的（例如，压缩成所述字）。不在该词汇表中（"词汇表外"或"00V"字）的字可能被识别为（例如，具有低可信度的）该词汇表中的字。例如，如果字"Amarillo"不在词汇表中，"LVCSR"引擎可能会在输出中将该字转录为"ambassador"。因此，当使用这种ASR 系统时，终端用户都不可能从该索引中搜索到不在该词汇表中的任何情况的字。
[0006] 解决该问题的一个方案是将00V字添加到该词典（即，将该字添加到词汇表），并且生成新LM(可以是SLM或者约束语法），然后重新处理音频文件。然而，因为需要重新处理音频语料库，所以这种方法将会增加生成搜索结果的延迟。
[0007] 在其它的ASR系统中，输出数据为子字水平识别数据，例如音频的语音抄本，而不是LVCSR输出或者基于近似字的抄本。这种ASR系统通常不包括字词汇表。相反，这些引擎提供了一种搜索任何字符序列的方法。这种情况下，通过将搜索短语映射到语音序列并且在语音抄本索引中搜索给定的语音序列执行搜索。通常认为这些引擎的准确性低于基于 LVCSR的引擎，这是因为字的概念并不是识别过程所固有的，而使用字（例如，字的含义）通常有助于提高语音识别的准确性。
[0008] 通常，自动语音识别的组合字和音素水平不能解决已知的基于语音的方法的准确度问题，对于包括至少一个00V字的查询，单纯基于语音的方法的准确度限制仍然会持续。

【发明内容】

[0009] 本发明实施例的多个方面涉及搜索口语语音内容给出的LVCSR输出的系统和方法，其中搜索查询包括至少一个00V字。
[0010] 本发明的一个实施例涉及在语音文件语料库中快速处理词汇表外（00V)查询的语音文件检索的系统和方法，所述音频文件语料库由LVCSR(大词汇量连续语音识别）或类似系统进行分析。"00V查询"是由用户提供一个或多个字的搜索短语，所述一个或多个字中的至少一个是00V，其中这里所提到的词汇表（字典）是该系统已经在其上做过训练的独特的字的列表。给定查询和LVCSR索引结果，系统从查询中区分00V和IV(词汇表内）字，为每个字生成锚（即，在搜索查询中，音频中查询字的位置）的列表。这些锚的位置在修改后的识别阶段中被重新处理以生成新的搜索事件。因为锚跨越整个语音文件的相对较小的部分（并且，因此，跨越语音语料库中的相对较小的部分），因此该搜索相对于重新处理整个语音文件语料库的传统方法快很多。
[0011] 在本发明的一个实施例中，语音文件检索系统被用在联络中心（例如，呼叫中心）的情形中。在这种情况中，客户向公司的联络中心发出呼叫，该联络中心对该呼叫进行记录。基于LVCSR的ASR系统处理该呼叫以生成输出抄本，并且为这些抄本编制索引。然后，诸如客户支持代理和监督者的用户可以在索引的抄本中检索特定的关键字，例如所遇到的问题的类型、地名、产品名、错误消息、错误代码等。
[0012] 然而，本发明的实施例并不限于人与人之间的对话，而是可以应用于来自任何资源的任何语音语料库，例如医嘱、电视节目、播客、学术演讲、记录显示等等。
[0013] 根据本发明的一个实施例，一种方法包括以下步骤：在计算机系统上接收文本搜索查询，该查询包括一个或多个查询字；在计算机系统上在多个语音查询处理的语音文件中为查询中的每个查询字生成一个或多个锚字段，该一个或多个锚字段识别包含所述查询字的可能位置；在该计算机系统上后处理一个或多个锚字段，该后处理包括：扩展所述一个或多个锚字段；对所述一个或多个锚字段分类；和合并所述一个或多个锚字段中的重叠字段；和在计算机系统上使用约束语法为上述一个或多个查询字中的至少一个的实例对一个或多个后处理的锚字段执行语音识别。
[0014] 音频文件可以由语音识别引擎处理，并且上述为查询中的每一个查询字生成处理后的音频文件的一个或多个锚字段的步骤可以包括：判定该查询字是否在语音识别引擎的学习模型的词汇表中；当该查询字在该词汇表中时，识别与该查询字相对应的一个或多个高置信度锚字段；和当该查询字不在词汇表中时，生成该查询字的一个或多个子字的搜索列表并且识别包含所述一个或多个子字中的至少一个的一个或多个锚字段。
[0015] 生成一个或多个锚字段的步骤可以进一步包括：收集语音文件中的低置信度字，该低置信度字具有低于阀值的字置信度，识别与每个子字相对应的一个或多个锚字段的步骤可以包括：当查询字不在词汇表中时，仅为该查询字的子字搜索低置信度字。
[0016] 约束语法可以包括查询中的一个或多个词汇表外的查询字，其中词汇表外的查询字中的每一个都不在查询表中。
[0017] 该搜索可以包括计算一个或多个事件置信级别，事件置信级别中的每一个对应于一个或多个锚字段中的锚字段包含所述查询的一个或多个查询字中的特定查询字的置信度。
[0018] 该方法可以进一步包括从计算机系统中输出搜索结果，其中该结果包括音频文件中的按照事件置信级别分类的一个或多个查询字的实例。
[0019] 该方法可以进一步包括：在计算机系统上，将效用函数应用到一个或多个锚字段中的每一个，以计算一个或多个相应的锚效用值；和在该计算机系统上根据一个或多个锚效用值给所述一个或多个锚字段分类。
[0020] 搜索一个或多个后处理的锚字段的步骤可以仅搜索具有所述一个或多个锚效用值中的最佳锚效用值的一个或多个后处理锚字段。
[0021] 扩展一个或多个锚字段的步骤可以包括：对于查询中的每个查询字：计算查询中查询字前面的第一字符数和查询字后面的第二字符数；将第一字符数乘以平均字符宽度以得到第一扩展数；和将第二字符数乘以平均字符宽度以得到第二扩展数；和对于每个锚字段进行下述处理，其中每个锚字段由锚字、开始时间和结束时间识别：开始时间减去第一扩展数和第一常量扩展宽度；和将结束时间加上第二扩展数和第二常量扩展宽度。
[0022] 根据本发明的另一个实施例，一种系统包括计算机系统，所述计算机系统包括处理器、存储器和储存装置，该系统被配置为：接收文本搜索查询，该查询包括一个或多个查询字；为该查询中的每个查询字生成多个语音识别处理的音频文件中的一个或多个锚字段，该一个或多个锚字段识别包含查询字的可能位置；后处理该一个或多个锚字段，该后处理过程包括：扩展该一个或多个锚字段；对一个或多个锚字段分类；和合并该一个或多个锚字段中的重叠字段；和，使用约束语法为上述一个或多个查询字中的至少一个的实例对一个或多个后处理锚字段执行语音识别。
[0023] 该系统还可以进一步被配置为使用语音识别引擎处理音频文件，其中该系统可以进一步被配置成为该查询中的每个查询字生成被处理的音频文件的一个或多个锚字段，该生成过程通过以下处理来实现：判定该查询字是否在语音识别引擎的学习模型的词汇表中；若该查询字在词汇表中，识别对应于该查询字的一个或多个高置信度锚字段；和，当该查询字不在词汇表中，生成查询字的一个或多个子字的搜索列表并且识别对应于一个或多个子字中的每一个的一个或多个锚字段。
[0024] 该系统可以进一步被配置为收集音频文件中的低置信度字，该低置信度字具有低于阀值的字置信度，并且其中识别对应于每个子字的一个或多个锚字段的步骤可以包括当查询字不在词汇表内时仅为该查询字的子字搜索低置信度字。
[0025] 约束语法可以包括查询的一个或多个词汇表外查询字，其中该词汇表外查询字中的每一个都不在词汇表中。
[0026] 该系统可以

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·列夫-托夫;A·法伊扎科夫;Y·康尼格;
技术所有人：格林伊登美国控股有限责任公司;
我是此专利的发明人

上一篇：训练至少部分语音命令系统的制作方法
上一篇：中断的上下文相关处理的制作方法