使用重新识别和统计分类的识别的制作方法

文档序号:6349601阅读:450来源:国知局
专利名称:使用重新识别和统计分类的识别的制作方法
使用重新识别和统计分类的识别背景当涉及到大的语法搜索空间时,诸如覆盖大量企业名称、web搜索查询、语音拨号请求等的语音搜索任务,语音识别性能有时是次优的。经常显现的三种主要的次优性包括 长的识别等待时间、差的识别准确性、以及不充足的语法覆盖。一种现有的移动语音搜索应用在第一阶段使用全国性的企业目录语法加上地区语法,然后在第二阶段使用地区专用的企业目录语法来重新识别同一个发言(其中地区在第一阶段中确定)。这种方法不解决等待时间问题,但是能在非常具体的情况下改进覆盖和准确性.另一种方法尝试通过在子发言级对不同识别器的输出进行投票来减小单词错误率。该方法及其扩展一般假定每个识别器用对整个任务而言完整的语法来尝试识别。

发明内容
下面提供了简化的发明内容,以便提供对此处所描述的一些新颖实施例的基本理解。本发明内容不是详尽的概述,并且它不旨在标识关键/重要元素或描绘本发明的范围。 其唯一目的是以简化形式呈现一些概念,作为稍后呈现的更具体实施例的序言。所公开的体系结构获得用于识别的输入,并且对用于识别处理的输入应用环境专用的限制条件的不同实例。单独的约束条件实例合起来提供了对给定输入的总体环境域。 通过例如针对这些约束条件并行地进行识别,改进了识别等待时间、识别准确性和识别域覆盖。此外,通过对系统等待产生一结果将花费多久加以时间限制,可以对单独的识别通道的识别处理进行管理。在语音识别的环境中,体系结构采用一总体语法,该总体语法的形式是用于识别发言输入的较小单独环境专用语法的逻辑和,每个较小单独环境专用语法负责一个特定的环境,诸如子任务类别、地理区域等等。这些语法一起覆盖了整个域。此外,对于同一个输入可以并行地运行多个识别,其中每个识别通道使用环境专用语法中的一个或多个。通过使用基于多个识别结果以及可能其它域知识的动态合成语法、或者使用对从多个识别结果及其他域知识提取的分类特征进行操作的统计分类器来选择获胜者,来自不同识别器语法通道的多个中间识别结果得以被协调。为了为实现上述及相关目的,本文结合下面的描述和附图来描述某些说明性方面。这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。结合附图阅读下面的详细描述,其他优点和新颖特征将变得显而易见。


图1示出根据所公开的体系结构的计算机实现的识别系统。图2示出采用规则来确定单个识别结果的系统的替代实施例。图3示出一环境专用约束条件识别系统,该系统采用重新识别且约束条件是用于语音识别的语法。
图4示出一环境专用约束条件识别系统,该系统采用统计分类且约束条件是用于并行语音识别的语法。图5示出计算机实现的识别方法。图6示出图5的方法的其它方面。图7示出图5的方法的其它方面。图8示出可用于根据所公开的体系结构执行识别的计算系统的框图。图9示出了根据所公开的体系结构提供并行识别的计算环境的示意性框图。
具体实施例方式所公开的体系结构是首先使用环境专用约束条件来执行同一输入(例如发言)的独立识别的识别系统。这些独立识别或者串行执行,或者并行执行。每个环境专用约束条件都小于尝试统一所有域知识的约束条件。多个识别结果的协调可以使用后续识别(重新识别)和/或通过统计分类来完成。该体系结构解决了与传统的单语法、单识别方法相关联的识别等待时间、识别准确性和不充足语法覆盖的问题。关于识别等待时间,并行识别中的每个识别实例都针对比能覆盖相同任务的单个大语法要小的语法。而且,重新识别步骤是针对小动态语法。特别是在非流化情况下,和具有单个大语法的识别相比,并行识别的最大等待时间加上重新识别的等待时间的两个组合的识别阶段可能具有较小的等待时间。对于单个识别,识别准确性有时由于假设搜索期间的修剪而丢失。具有多个识别能减轻这一限制,因为可以保持大得多的假设集。此外,和覆盖许多环境的单个、通用语法相比,诸如语法这样的环境专用约束条件更可能具有关于来自例如目标环境的发言的较佳准确性。因此,来自多个识别的结果更有可能包含正确的结果,和单语法、单识别方法相比, 用重新识别或分类器来协调多个识别结果更可能产生正确的结果。关于不充足的语法覆盖,例如,对于单个语法能有多大和/或单个识别中语法能有多大通常有实际的限制(例如,硬件、软件)。并行地运行多个识别能显著地提高总的语法覆盖,因此每个识别可能在不同的软件进程和/或硬件资源上运行。考虑所公开的体系结构在大规模语音识别任务中的应用。以下例子通过使用语音搜索任务作为例子来说明概念,语音搜索任务可以包括web、本地企业、个人联系人等的开放式搜索。改变和提高对于该解决方案的各部分是可能的。提供了识别语法作为多个较小的且可能重叠的环境专用语法,每个环境专用语法覆盖原始任务空间的一个特定子集。用于分隔的环境可以基于子任务类别(例如企业名称相对于电影标题)、地理位置(例如,加利福尼亚州的企业相对于纽约州的企业)、人口发源地(面向青年的内容相对于成年人内容)、等等。每个内容专用语法可以单独地构建,利用关于每个环境的知识、结构和其它可用信息来使来自每个环境的预期用户输入的成功率最大化。现在将参考附图,全部附图中相同的附图标记用于表示相同的元件。在下面的描述中,为了进行说明,阐述了很多具体细节以便提供对本发明的全面理解。然而,显而易见, 可以没有这些具体细节的情况下实施各新颖实施例。在其它情况下,以框图形式示出了公知的结构和设备以便于描述它们。本发明将涵盖落入所要求保护的主题的精神和范围内的所有修改、等效方案和替换方案。图1示出根据所公开的体系结构的计算机实现的识别系统100。系统100包括协调组件110和环境专用约束条件104的约束条件组件102,约束条件组件102用于将输入 106识别处理成识别结果108,协调组件110用于将识别结果108协调到单个识别结果112中。系统100还可以包括识别组件114,用于在并行路径中和/或串行地对相应的环境专用约束条件104进行分开的识别处理。例如,环境专用约束条件104可以包括用于在并行路径和/或串行路径中对针对输入106的语法进行识别处理的语法。环境专用约束条件104的单独集合可以包括不连续的和相交的环境覆盖。换言之,一个约束条件集合可以与另一约束条件集合的约束条件有某些重叠。也存在某些约束条件集合不与其它约束条件集合的约束条件相重叠的情况。通过采用基于识别结果108的动态合成的语法,协调组件110可以使用重新识别来协调识别结果108以生成单个识别结果112。或者,协调组件110可以使用对从识别结果108提取的分类特征进行操作的统计分类器来协调结果108,以生成单个识别结果112。协调处理还可以处理相关任务数据以得到单个识别结果112。相关任务数据可以包括以下中的至少一个所识别的字符串、发言级别和子发言级别置信分数、语音覆盖、并发识别间的相对等待时间、环境的先验概率、每个识别的相对难度、或者识别结果间的一致同意。此外,反映任务的特定要求的多个手工导出的和/或自动导出的规则可以影响多个识别假设的协调过程。图2示出采用规则来确定单个识别结果112的系统200的替代实施例。系统200 包括环境专用约束条件104的约束条件组件102、协调组件110和识别组件114,其中约束条件组件102用于将输入106识别处理成识别结果108、协调组件110用于将识别结果108 协调成单个识别结果112,识别组件114用于在并行路径中和/或串行地对相应的环境专用约束条件104进行分开的识别处理。提供了规则组件202来应用用于宣告识别结果108和/或单个识别结果112(例如最终结果)中的一个或多个的规则(例如优先级)。例如,可以创建和应用一规则,该规则确定特定的识别器是否返回具有足够高置信分数的特定结果,然后确定该结果可以被接受作为该相应识别器过程或甚至对于单个识别结果112来说的最终结果。图3示出一环境专用约束条件识别系统300,该系统300采用重新识别且约束条件是用于语音识别的语法。系统300包括并行操作的N个识别一语法对,其中每个对包括一个或多个环境专用语法和识别器(表示为识别N)。如图所示,语法是不同的;然而,一个语法和另一个语法间可能有一定重叠,然而这不是必然的。如在现有的识别系统中,系统300 保留单独的语法(而不是合并到一个大语法中),而不是创建和使用一个大语法,并且对每个语法运行语音发言输入302的识别。换言之,发言输入302通过产生第一结果308的第一识别器304和相关联的第一环境专用语法306来处理,以及通过产生第二结果314的第二识别器310和相关联的第二环境专用语法312来处理,依此类推,直到产生N个结果的期望数量N个识别器和语法。使用结果来生成动态语法316,动态语法316然后可用于重新识别318以输出最终识别结果320。换言之,对于用户发言输入302,针对每一个环境专用语法来运行单独识别。这被示出为同时或近似同时地以并行方式出现。每一个并行识别可以采用同种或不同种类的识别器(例如,嵌入式识别器相对网络识别器、具有不同声学模型的网络识别器、等),并且使用相同或不同的识别参数。一直到最大等待周期,系统300收集所有可用的识别结果(例如结果308、结果314、等),并且通过重新识别来确定最终识别结果320。构造动态语法316以包括从所有识别结果导出的竞争项,包括N个最佳识别结果的识别字符串、解释和置信分数、和/或识别结构(如果可用)。对于该动态语法316执行原始发言输入302的重新识别。重新识别318的结果,包括置信分数,被作为最终识别结果 320。任选地,规则组件202可以包括特定优先级规则以便在完成所有识别之前宣布最终识别结果320,诸如如果特定的识别器返回具有足够高的置信分数的特定结果,该结果可被接受作为最终结果。任选地,可以提供与任务相关的其它域知识322作为到动态语法的输入,以便提供更聚集的识别过程。这一知识322可以包括用户偏好、与发言中正在说的内容相关的内容、硬件/软件考虑因素、地区性等等。图4示出一环境专用约束条件识别系统400,该系统采用统计分类且约束条件是用于并行语音识别的语法。可以从所有识别结果(例如结果308、结果314等)且可能从和识别任务相关的其他域知识322导出多个数字的和/或分类的特征402。使用统计分类器来确定每个结果有多少可能反映实际的用户输入。可以选择具有最高分类分数的结果作为最终识别结果320,分类分数可以被标准化为最终识别置信。系统400包括并行操作的N个识别一语法对,其中每个对包括环境专用语法(表示为环境专用语法N)和识别器(表示为识别N)。如前所述,语法是不同的;然而,一个语法和另一个语法间可能有一定重叠,然而这不是必然的。如在现有的识别系统中,系统400 保留单独的语法(而不是合并到一个大语法中),而不是创建和使用一个大语法,并且对每个语法运行语音发言输入302的识别。换言之,发言输入302通过产生第一结果308的第一识别器304和相关联的第一环境专用语法306来处理,以及通过产生第二结果314的第二识别器310和相关联的第二环境专用语法312来处理,依此类推,直到产生N个结果的期望数量N个识别器和语法。使用结果(结果308、结果314、...结果N)来生成特征402,特征402然后被传递至用于最终识别结果320的统计分类404。如前所示和如图3所述,任选地,规则组件202可以包括特定优先级规则以便在完成所有识别之前宣布最终识别结果320,诸如如果特定的识别器返回具有足够高的置信分数的特定结果,该结果可被接受作为最终结果。任选地,可以提供与任务相关的其它域知识 322作为到动态语法的输入,以便提供更聚集的识别过程。这一知识322可以包括用户偏好、与发言中正在说的内容相关的内容、硬件/软件考虑因素、地区性等等。注意到这里的描述涵盖了体系结构在在线接收用户输入发言时如何工作。该解决方案的另一方面是选择由系统特别是在多个识别结果的协调期间使用的适当的设置、特征等等。对于重新识别和统计分类器方法两者而言,可以使用训练数据,并且可以采用离线训练过程来选择最优的配置和参数。
对于重新识别方法而言,也可能任选地执行诸如回归这样的统计分析,以便向重新识别动态语法中的路径分配相对权重。可以控制其它域知识322的输出来影响每一个重新识别过程的动态语法316。在任一种方法中,可以采用以下特征402中的一个或多个,其中一些特征直接从并行识别结果获得,而其它特征从相关任务知识导出。特征402可以包括但不限于所识别的字符串、发言级别和子发言级别置信分数、语音覆盖(例如,被假设为语音的发言的部分)、识别间的相对等待时间(例如,并行)、环境的先验概率(例如,用户请求企业名称相对体育分数的频繁程度)、每个环境专用识别的相对难度(例如,在环境识别准确性内,环境专用语法的混乱)、每个语法的容许性(例如,web搜索语法可以接受各种各样的查询)、 以及识别结果间的一致同意。注意到,单独的识别过程可以跨诸如服务器、客户机或服务器客户机的组合这样的不同的机器而分布。这在分类和重新识别两种情况下应用于并行识别以及串行识别。换言之,所公开的体系结构是一种计算机实现的识别系统,该系统包括环境专用语法的约束条件组件、识别组件和协调组件,所述约束条件组件用于将发言输入识别处理成识别结果,识别组件使用环境专用语法在并行的路径中使用相应的环境专用语法对发言输入进行单独的识别处理,协调组件用于将识别结果协调到最终识别结果中。协调组件采用识别结果的动态合成语法,并且使用重新协调来协调识别结果以产生最终识别结果。任选地,协调组件通过在重新识别前采用诸如回归这样的统计分析来协调识别结果,以确定最终识别结果。或者,协调组件使用对从识别结果提取的特征进行操作的统计分类来协调识别结果,以产生最终的识别结果。此外,规则组件施加了定义最终识别结果的确定的一个或多个规则,其它域知识可以影响统计分类协调的特征以及用于重新识别协调的动态语法。此处所包括的是一组代表用于执行所公开的体系结构的新颖方面的示例性方法的流程图。尽管出于解释简明的目的,此处例如以流图或流程图形式示出的一个或多个方法被示出并描述为一系列动作,但是可以理解和明白,各方法不受动作的次序的限制,因为根据本发明,某些动作可以按与此处所示并描述的不同的次序和/或与其它动作同时发生。例如,本领域技术人员将会明白并理解,方法可被替换地表示为一系列相互关联的状态或事件,诸如以状态图的形式。此外,并非在一方法中示出的所有动作都是新颖实现所必需的。图5示出一种计算机实现的识别方法。在500,接收到用于处理发言输入的单独的环境专用语法。在502,使用每个路径的相应环境专用语法在并行路径中识别发言输入。 在504,从每个路径产生中间识别结果。在506,将中间识别结果协调至最终识别结果。图6示出了图5的方法的其他方面。在600,使用从识别结果产生的动态语法的重新识别来协调中间识别结果。在602,在重新识别对中间识别结果的协调期间输入其它域知识。在604,施加一个或多个规则以产生最终识别结果。在606,在统计分类对中间识别结果的协调期间输入其它域知识。在608,施加一个或多个规则以产生最终识别结果。图7示出图5的方法的其它方面。在700,执行诸如回归这样的统计分析。在所有路径上并行地实现该分析。在702,在重新识别动态语法中向每个路径分配相对权重。在 704,等待一预定量的时间,用于产生路径的中间识别结果。在706,基于在该时间量内产生的中间识别结果来产生最终识别结果。如在本申请中所使用的,术语“组件”和“系统”旨在表示计算机相关的实体,其可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是,但不仅限于,在处理器上运行的进程、处理器、硬盘驱动器、多个存储驱动器(光学的、固态和/或磁存储介质)、对象、可执行件、运行的线程、程序,和/或计算机。作为说明,在服务器上运行的应用程序和该服务器两者都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程内,并且组件可以位于一个计算机上和/或分布在两个或更多的计算机之间。词语“示例性”此处可用于表示用作示例、实例或说明。在此被描述为“示例性”的任何方面或设计并不一定要被解释为相比其它方面或设计更优选或有利。现在参考图8,所示是根据所公开的体系结构的可用于执行识别的计算系统800 的框图。为了提供用于其各方面的附加上下文,图8及以下讨论旨在提供对其中可实现各方面的合适的计算系统800的简要概括描述。尽管以上描述是在可在一个或多个计算机上运行的计算机可执行指令的一般上下文中进行的,但是本领域的技术人员将认识到,新颖实施例也可结合其它程序模块和/或作为硬件和软件的组合来实现。用于实现各方面的计算系统800包括计算机802,其具有处理单元804、系统存储器806、以及系统总线808。处理单元804可以是各种市场上可买到的处理器中的任一种,诸如单处理器、多处理器、单核单元以及多核单元等。此外,本领域的技术人员将明白,各新颖方法可用其它计算机系统配置来实施,包括小型计算机、大型计算机、以及个人计算机(例如、台式、膝上型等)、手持式计算设备、基于微处理器的或可编程消费电子产品等,其每一个都可在操作上耦合到一个或多个相关联的设备。系统存储器806可以包括易失性(VOL)存储器810 (例如,随机存取存储器(RAM)) 和非易失性存储器(NON-VOL)812(例如ROM、EPROM、EEPROM等)。基本输入/输出系统 (BIOS)可以被存储在非易失性存储器812中,并且包括诸如在启动期间便于在计算机802 内的组件之间传递数据和信号的基本例程。易失性存储器810还可以包括诸如静态RAM等高速RAM来用于高速缓存数据。系统总线808提供了用于包括,但不限于存储器子系统806的系统组件到处理单元804的接口。系统总线808可以是若干种总线结构中的任一种,这些总线结构还可使用各类可购买到的总线体系结构中的任一种互连到存储器总线(带有或没有存储器控制器) 以及外围总线(例如,PCI, PCIe, AGP, LPC等)。计算机802还包括存储子系统814以及用于将存储子系统814接口到系统总线 808和其它所需计算机组件的存储接口 816。存储子系统814可以包括例如硬盘驱动器 (HDD)、磁软盘驱动器(FDD)和/或光盘存储驱动器(例如,⑶-ROM驱动器、DVD驱动器)中的一种或多种。存储接口 816可以包括诸如例如EIDE、ATA、SATA和IEEE 1394等接口技术。—个或多个程序和数据可以被存储在存储器子系统806、可移动存储器子系统 818(例如,闪存驱动器形状因子技术)和/或存储子系统814(例如,光、磁、固态)中,包括操作系统820、一个或多个应用程序822、其它程序模块824以及程序数据826。一个或多个应用程序822、其他程序模块拟4以及程序数据拟6可包括例如图1的系统100的组件、实体和结果、图2的系统200的组件、实体和结果、图3的系统300的组件、实体和结果、图4的系统400的组件、实体和结果、以及图5-7的方法和附加方法。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、方法、数据结构、其它软件组件等。操作系统820、应用程序822、模块拟4和/或数据826的全部或部分也可以被高速缓存在诸如易失性存储器810等存储器中。应当明白,所公开的体系结构可以用各种市场上可购得的操作系统或操作系统的组合(例如,作为虚拟机)来实现。存储子系统814和存储器子系统(806和818)用作用于数据、数据结构、计算机可执行指令等的易失性和非易失性存储的计算机可读介质。计算机可读介质可以是可由计算机802访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。对于计算机802,介质容纳任何适当的数字格式的数据的存储。本领域的技术人员应当明白,可以使用其它类型的计算机可读介质,诸如zip驱动器、磁带、闪存卡、磁带盒等,来存储用于执行所公开的体系结构的新颖方法的计算机可执行指令。用户可以使用诸如键盘和鼠标等外部用户输入设备828来与计算机802、程序和数据交互。其它外部用户输入设备拟8可以包括话筒、IR(红外)遥控器、操纵杆、游戏手柄、照相机识别系统、指示笔、触摸屏、姿势系统(例如,眼移动、头移动等)和/或类似物。 在计算机802是例如便携式计算机的情况下,用户可以使用诸如触摸垫、话筒、键盘等板载用户输入设备830来与计算机802、程序和数据交互。这些和其它输入设备通过输入/输出 (I/O)设备接口 832经由系统总线808连接到处理单元804,但也可通过其它接口连接,如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口等。I/O设备接口 832也便于输出外围设备834的使用,如打印机、音频设备、摄像设备等,如声卡和/或板载音频处理能力。一个或多个图形接口 836(通常也称为图形处理单元(GPU))提供计算机802和外部显示器838(例如,LCD、等离子)和/或板载显示器840(例如,对于便携式计算机)之间的图形和视频信号。图形接口 836也可作为计算机系统板的一部分来制造。计算机802可以使用经由有线/无线通信子系统842到一个或多个网络和/或其它计算机的逻辑连接在联网环境(例如,IP)中操作。其它计算机可以包括工作站、服务器、 路由器、个人计算机、基于微处理器的娱乐设备、对等设备或其它常见的网络节点,并且通常包括以上相对于计算机802描述的许多或所有元素。逻辑连接可以包括到局域网(LAN)、 广域网(WAN)、热点等的有线/无线连接。LAN和WAN联网环境常见于办公室和公司,并且方便了诸如内联网等企业范围计算机网络,所有这些都可连接到诸如因特网等全球通信网络。当在联网环境中使用时,计算机802经由有线/无线通信子系统842(例如,网络接口适配器、板载收发机子系统等)连接到网络来与有线/无线网络、有线/无线打印机、 有线/无线输入设备844等通信。计算机802可以包括用于通过网络建立通信的调制解调器或其它装置。在联网环境中,相对于计算机802的程序和数据可以被存储在远程存储器/ 存储设备中,如与分布式系统相关联。应当明白,所示网络连接是说明性的,并且可以使用在计算机之间建立通信链路的其它手段。计算机802可以用于使用诸如IEEE 802. xx标准家族等无线电技术来与有线/ 无线设备或实体通信,例如在操作上安置在与例如打印机、扫描仪、台式和/或便携式计算机、个人数字助理(PDA)、通信卫星、任何一件与无线可检测标签相关联的设备或位置(例如,电话亭、报亭、休息室)以及电话的无线通信(例如,IEEE 802. 11空中调制技术)中的无线设备。这至少包括用于热点的Wi-Fi (即无线保真)、WiMax和蓝牙 无线技术。由此,通信可以是如对于常规网络那样的预定义结构,或者仅仅是至少两个设备之间的自组织(ad hoc)通信。Wi-Fi网络使用称为IEEE 802. llx(a、b、g等等)的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络可以用于将计算机彼此连接、连接到因特网以及连接到有线网络(使用IEEE 802. 3相关介质和功能)。现在参考图9,示出了根据所公开的体系结构提供并行识别的计算环境900的示意性框图。环境900包括一个或多个客户机902。客户机902可以是硬件和/或软件(例如,线程、进程、计算设备)。例如,客户机902可以容纳cookie和/或相关联的上下文信肩、ο环境900还包括一个或多个服务器904。服务器904也可以是硬件和/或软件(例如,线程、进程、计算设备)。服务器904可以例如通过使用本体系结构来容纳线程以执行变换。客户机902和服务器904之间的一种可能的通信可以是以适用于在两个或更多计算机进程之间传输的数据包的形式。例如,数据包可以包括cookie和/或相关联的上下文信息。环境900包括可以用来促进客户机902和服务器904之间通信的通信框架906 (例如, 诸如因特网等全球通信网络)。通信可以经由有线(包括光纤)和/或无线技术来促进。客户机902可操作地连接到一个或多个客户机数据存储908,可以使用这些客户机数据存储来存储客户机902本地的信息(例如,cookie和/或相关联的上下文信息)。同样地,服务器904可以在操作上连接到可以用来存储服务器904本地的信息的一个或多个服务器数据存储910。客户机902可以包括一个客户机,经由该客户机接收到语音信号,用于由服务器 904或其它客户机902进行识别处理。语法可以被存储在客户机数据存储908和/或服务器数据存储910中。以上描述的包括所公开的体系结构的各示例。当然,描述每一个可以想到的组件和/或方法的组合是不可能的,但本领域内的普通技术人员可以认识到,许多其它组合和排列都是可能的。因此,该新颖体系结构旨在涵盖所有这些落入所附权利要求书的精神和范围内的更改、修改和变化。此外,就在详细描述或权利要求书中使用术语“包括”而言,这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。
权利要求
1.一种计算机实现的识别系统(100),包括环境专用约束条件的约束条件组件(102),用于将输入识别处理成识别结果;以及协调组件(110),用于将所述识别结果协调成单个识别结果。
2.如权利要求1所述的系统,其特征在于,所述约束条件包括用于在并行路径中对输入进行识别处理的语法。
3.如权利要求1所述的系统,其特征在于,所述协调组件使用重新识别来协调所述结果以产生单个识别结果。
4.如权利要求3所述的系统,其特征在于,所述重新识别采用基于识别结果的动态合成的语法。
5.如权利要求1所述的系统,其特征在于,所述协调组件使用统计分类器来协调所述结果,所述统计分类器对从识别结果提取的分类特征进行操作以产生单个识别结果。
6.如权利要求1所述的系统,其特征在于,所述环境专用约束条件包括不连续的和相交的环境覆盖。
7.如权利要求1所述的系统,其特征在于,所述识别处理处理相关的任务数据以得到单个识别结果,所述相关任务数据包括以下中的至少一个所识别的字符串、发言级别和子发言级别置信分数、语音覆盖、并行识别间的相对等待时间、环境的先验概率、每个识别的相对难度、或识别结果间的一致同意。
8.如权利要求1所述的系统,还包括一识别组件,用于在每一个并行路径中使用相应的环境专用约束条件来对输入进行单独的识别处理。
9.如权利要求1所述的系统,还包括一规则组件,用于施加定义了单个识别结果的确定的一个或多个规则。
10.一种计算机实现的识别方法,包括接收用于处理发言输入的单独的环境专用语法(500); 使用每个路径的相应环境专用语法在各并行路径中识别发言输入(502); 从每个路径产生中间识别结果(504);以及将中间识别结果协调成最终识别结果(506)。
11.如权利要求10所述的方法,还包括使用从识别结果产生的动态语法的重新识别来协调中间识别结果。
12.根据权利要求10所述的方法,其特征在于,还包括在由重新识别对中间识别结果的协调期间输入其它域知识;以及施加一个或多个规则以产生最终识别结果。
13.根据权利要求10所述的方法,其特征在于,还包括在由统计分类对中间识别结果的协调期间输入其它域知识;以及施加一个或多个规则以产生最终识别结果。
14.根据权利要求10所述的方法,其特征在于,还包括 执行统计分析;以及在重新识别动态语法中向每个路径分配相对权重。
15.根据权利要求10所述的方法,其特征在于,还包括 等待一预定量的时间,用于产生路径的中间识别结果;以及基于在该时间量内产生的中间识别结果来产生最终识别结果。
全文摘要
描述了采用总体语法作为用于识别输入的一组环境专用语法的体系结构,每个环境专用语法负责一个特定的环境,诸如子任务类别、地理区域等等。这些语法一起覆盖了整个域。此外,对于同一个输入可以并行地运行多个识别,其中每个识别使用环境专用语法中的一个或多个。通过使用基于多个识别结果以及可能其它域知识的动态合成语法、或者使用对从多个识别结果及其他域知识提取的分类特征进行操作的统计分类器来选择获胜者,来自不同识别器语法的多个中间识别结果得以被协调。
文档编号G06F17/27GK102460423SQ201080025833
公开日2012年5月16日 申请日期2010年6月1日 优先权日2009年6月4日
发明者B·邦休, M·莱维特, 常双羽 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1