用于增量地生成的语音识别假设的增强的稳定性预测的制作方法

文档序号：2825830阅读：166来源：国知局

用于增量地生成的语音识别假设的增强的稳定性预测的制作方法
【专利摘要】包括在计算机存储介质上被编码的计算机程序在内的用于预测语音识别结果的稳定性的方法、系统和装置。在一个方面，一种方法包括确定词保持在增量语音识别器的顶端假设中的时间长度或者时机数量，并且基于该时间长度或者时机数量向该词分配稳定性度量。
【专利说明】用于增量地生成的语音识别假设的增强的稳定性预测
[0001]相关申请的交叉引用
[0002]本申请要求2011年11月I日提交的第61/554，039号美国临时专利申请以及2012年5月2日提交的第13/461，033号美国专利申请的权益，它们通过引用结合于此。
【技术领域】
[0003]本说明书总体上涉及语音识别。
【背景技术】
[0004]在某些自动语音识别(ASR)实施方式中，用户在识别结果被显示或者被遵照执行之前完成讲话。

【发明内容】

[0005]在增量语音识别(incremental speech recognition)中，能够在用户讲话的同时从识别器流输出部分结果，因此例如实现用于口头语言接口的若干有用特征。例如，识别器能够在假设(hypothesis)完全形成之前遵照该假设执行或者向用户显示该假设。此外，在识别结果完全确定之前预先计算响应可以具有计算上的优势。连同这些特征和其它有用的特征，口头语言界面能够感觉更自然并且对用户易于响应。
[0006]根据本说明书所描述主题的一个总体实施方式，一种系统可以基于例如与持续时间相关的特征的各种特征向增量语音识别结果的分段(segment)分配稳定性度量(stability metric)。代替估计该分段已经被识别器正确解码的概率或者除此之外，该系统能够估计直至并包括最近解码的分段的增量结果中的分段稳定(即，将保持在未来的增量结果中而没有变化)的概率。表现出所期望的稳定性特性的分段例如能够被显示给用户。
[0007]总体上，本说明书中所描述主题的一个方面可以体现在如下的方法中，这些方法包括如下动作:接收各自表示增量语音识别器在不同时间点的顶端增量语音识别假设的多个部分增量语音识别假设，并且从该多个部分增量语音识别假设之一识别分段。该方法还包括从该多个部分增量语音识别假设确定该分段在增量语音识别器的顶端增量语音识别假设中持续了多久，并且由一个或多个计算机基于该分段在增量语音识别器的顶端增量语音识别假设中持续了多久来向该分段分配稳定性度量。
[0008]总体上，本说明书中所描述主题的另一个方面可以体现在如下的方法中，这些方法包括如下动作:识别在特定时间点、在语音识别器的输出中出现的词或子词，确定该词或子词在语音识别器的输出中出现而没有后续变化的最早时间点，并且基于该特定时间点和最早时间点计算该词或子词的寿命度量(age metric)。
[0009]总体上，本说明书中所描述主题的另一个方面可以体现在如下的方法中，这些方法包括如下动作:确定词保持在增量语音识别器的顶端假设中的时间长度或者时机数量，并且基于该时间长度或者时机数量向该词分配稳定性度量。[0010]这些方面的其它实施例包括对应的系统、装置，以及在计算机存储设备上被编码的、被配置为执行该方法的动作的计算机程序。
[0011]这些实施例和其它实施例各自可以可选地包括一个或多个以下特征。例如，向分段分配稳定性度量进一步基于该分段的右侧上下文；该分段是词或子词；确定该分段持续了多久包括确定该分段在没有变化的情况下持续了多久；稳定性度量在所识别的、包括该分段的特定增量语音识别假设从增量语音识别器输出之后被分配给该分段；该方法包括接收与话语(utterance)相对应的音频信号，并且对该音频信号执行增量语音识别以生成多个部分增量语音识别假设；该方法包括确定稳定性度量是否满足阈值，并且基于确定稳定性度量是否满足阈值来改变用户界面上该分段的表示的视觉特征；该方法包括确定稳定性度量是否满足阈值，并且基于确定稳定性度量是否满足阈值来将该分段翻译为不同语言；该方法包括确定稳定性度量是否满足阈值，并且基于确定稳定性度量是否满足阈值来将该分段作为搜索查询的一部分提交至搜索引擎；该方法包括确定稳定性度量是否满足阈值，并且基于确定稳定性度量是否满足阈值来在用户界面上显示该分段的表示；以及/或者该接收、识别、确定和分配由一个或多个计算机来执行。
[0012]该说明书中所描述主题的一个或多个实施例的细节在附图和以下描述中给出。主题的其它可能的特征、方面和优势将从描述、附图和权利要求变得显而易见。
【专利附图】

【附图说明】
[0013]图1是能够评估增量地生成的语音识别假设的稳定性的示例系统的示图。
[0014]图2A是由增量语音识别器在各个时刻生成的顶端假设的示例。
[0015]图2B图示了用于确定对应于来自图2A的顶端假设的分段的稳定性度量是否满足阈值的样本过程。
[0016]图3是用于基于分段的持续时间向其分配稳定性度量的示例过程的流程图。
[0017]图4是用于基于词或子词首次被识别而没有后续变化的时间来计算该词或子词的寿命度量的示例过程的流程图。
[0018]图5是用于基于词的时间长度向其分配稳定性度量的示例过程的流程图。
[0019]图6和图7图示了作为样本测试集合的延迟的函数的稳定性改进。
[0020]图8图示了使用相对图6和图7的样本测试集合的真实分布而绘制的、使用寿命特征得出的示例回归曲线。
[0021]各附图中同样的附图标记表示同样的要素。
【具体实施方式】
[0022]图1是能够评估增量地生成的语音识别假设的稳定性的示例系统100的示图。例如，示例系统100可以从用户102所说的话语112增量地生成语音识别假设，评估该假设内的分段的稳定性，并且输出满足稳定性阈值的分段。图1还图示了在状态(a)至状态(d)期间、系统100内的数据流的示例，以及在状态(d)期间、在用户设备106上显示的用户界面104a、104b。状态(a)至状态⑷可以是时间顺序的状态，或者它们可以以不同于图示顺序的顺序出现。
[0023]更为详细地，系统100包括与自动语音识别(ASR)引擎108通信的用户设备106。用户设备106可以是任意适当类型的计算设备，包括但不限于移动电话、智能电话、PDA、音乐播放器、电子书阅读器、平板计算机、膝上型计算机或台式计算机，或者包括一个或多个处理器和计算机可读介质的其它固定设备或便携设备。ASR引擎108可以是移动设备106的组件。在一些实施方式中，ASR引擎108可以处于用户设备106之外，并且用户设备106和ASR引擎108之间的通信可以通过电话和/或计算机网络进行，该计算机网络包括无线蜂窝网络、无线局域网(WLAN)或W1-Fi网络、第三代(3G)或第四代(4G)移动电信网络或者其任意适当的组合。
[0024]参考示例数据流，在状态(a)期间，音频信号110被发送至ASR引擎108。例如，当用户 102 开始说出句子(例如，“peter piper picked a peck of pickled peppers”)时，话语112被编码并且作为音频信号110被传达至ASR引擎108。在一些实施方式中，例如在写电子邮件时，话语112可以表示到用户设备106的基于语音的输入。除此之外或可替换地，话语112可以表示被发送至搜索引擎、命令引擎、对话系统或者使用经转录的语音或者调用使用经转录的语音的软件应用以执行一些动作的任意其它引擎或系统。
[0025]在状态(b)期间，ASR引擎108接收并处理音频信号110。ASR引擎108可以被配置为执行与各种软件组件(例如，模块、对象、库、服务等)相关联的应用代码，以实施稳定的分段生成系统114，分段生成系统114包括识别器116、增量识别器缓冲器118、稳定性评估器120和输出模块122。
[0026]当ASR引擎108接收音频信号110时，识别器116增量地识别话语112并且将其转换成文本。经增量地转换的文本可以表示识别器116的顶端增量语音识别假设，并且能够被存储在增量识别器缓冲器118中。在示例系统100中，增量识别器缓冲器118在顶端增量语音识别假设124随时间而变为从识别器116可用时保持对它们的追踪。如以下更为详细描述的，稳定性评估器120随后增量地识别顶端增量语音识别假设124的分段并且确定每个分段的稳定性。稳定性评估器120已经将其评估为稳定的分段被发送至输出模块122。在这里，分段或前缀可以指的是子词、词或一组词。
[0027]对于图1中所示的顶端增量语音识别假设124，如果所有未来的增量结构包括相同的分段，则可以认为处于特定时帧(例如，如所图示的以毫秒被时间排序的时帧(I)、
(10)、(20)等)的分段表现出期望的稳定性特征。例如，最佳路径线126指示不随后续增量分段被增加到顶端假设124而变化的稳定分段的轮廓。在一些实施方式中，稳定性评估器120可以使用计时器128来测量特定词在顶端假设中持续了多久(S卩，持久性(persistence)或寿命)，并且随后可以基于该测量结果来分配稳定性度量。例如，稳定性评估器120可以被配置为在特定词或分段在顶端假设124中持续了 IOOms或者更长时间而没有变化的情况下确定其是稳定的。如以下进一步讨论的，稳定性评估器120能够使用用于确立稳定性的其它稳定性度量和方法。
[0028]在状态(C)期间，来自输出122的一个或多个稳定分段作为转录130被传达至用户设备106。转录130可以以预定的时间间隔发送至用户设备106，或者随着顶端增量语音识别假设124内的稳定分段被ASR引擎108的稳定分段生成系统114识别而实时地发送。在一些实施方式中，转录130可以包括顶端假设124的稳定分段和不稳定分段两者。
[0029]在状态(d)期间，用户界面104a、104b显示由用户设备106接收的转录130。在示出的示例中，用户界面104a、104b仅增量地显示顶端假设124内、稳定性评估器120已经确定其稳定的分段。对于以上所提到的IOOms或更大的示例稳定性阈值而言，用户界面104a在时刻(230)指示“PETER PIPER”是稳定的。这是因为虽然识别器116在时刻(230)已经生成了假设“peter piper picked a stack”,但是仅“peter”和“piper”在顶端假设124中持续了 IOOms或更长而没有发生变化(分别为190ms和130ms)。类似地，用户界面104b 在时刻(250)指示 “PETER PIPER PICKED” 是稳定的，因为仅有 “peter”、“piper” 和“picked”在顶端假设124中持续了 IOOms或更长而没有发生变化(分别为210ms、150ms和100ms)。除此之外或可替换地，用户界面104a、104b能够在具体时帧显示整个顶端增量假设，同时在视觉上在稳定部分和不稳定部分之间进行区分。例如，具有高稳定性的词可以以黑色示出，而低稳定性的词则能够以灰色示出。在一些实施方式中，所显示的词的暗度能够响应于该词的特定稳定性数值而变化。
[0030]图2A是由增量语音识别器在各个时刻所生成的顶端假设200的示例。例如，用户102 所说出的句子(例如，“peter piper picked a peck of pickled peppers”)可以被识别器116增量地解码，并且如以上关于图1中所示的顶端假设124所描述的，作为顶端假设200而被存储在增量识别器缓冲器118中。顶端假设200包括在特定时帧(例如，经时间排序的、以毫秒进行测量的时帧(I)、(10)、(20)等)的顶端增量假设。
[0031]图2B图示了用于确定对应于来自图2A的顶端假设200的分段的稳定性度量是否满足阈值的样本过程。作为示例，稳定性评估图202图示了对应于来自图2A的顶端假设200的词“piper”的样本稳定性度量的依赖于时间的变化。
[0032]在示例图202中，稳定性曲线206表示词“piper”在增量语音识别过程期间的各个时刻的稳定性。这里，例如由图1所示的稳定性评估器120和计时器128通过测量词或分段在顶端假设200中持续了多久而没有变化来评估顶端假设200内的词或分段的稳定性或稳定性度量。在一些实施方式中，稳定性度量可以进一步考虑除分段的寿命或持久性以外的测量。例如，如以下进一步讨论的，可以基于持久性以及分段的右侧上下文来评估稳定性度量，其中右侧上下文是指自首次识别该分段以来所流逝的总时间。
[0033]参考图2A和图2B两者，词“piper”在时刻(10)和时刻(20)还没有被识别。结果，稳定性曲线206在该时间间隔期间指示最小稳定性数值(例如，零或空值)。在时刻(30)，词“piper”被首次识别，但是稳定性曲线206在此时刻仍然指示最小稳定性数值，因为该词还没有在顶端假设200内持续任何时间跨度。在时刻(40)，“piper”现在在顶端假设200中持续了 IOms而没有变化。所导致的稳定性增加被指示为稳定性曲线206在时刻(40)的上升。类似地，在时刻(50) ,“piper”在顶端假设200中持续了 20ms而没有变化。结果，稳定性曲线206在时刻(50)继续增加。虽然示例图202将稳定性阈值示为以IOms的间隔采样，但是例如可以根据ASR引擎108的约束条件和/或要求而更为频繁或更不频繁地对稳定性进行评估。
[0034]在时刻(60)的顶端假设200中，之前所识别的词“piper”已经被更新为“pipeper”。结果，稳定性曲线206在时刻(60)下降回到最小稳定性数值，因为词语“piper”不再出现在顶端假设中。在时刻(70)，再次识别词“piper”。即使词“piper”在时刻(70)被再次识别之前早在时刻(30)被识别过，但是与词“piper”相关联的稳定性数值不高于时刻
(70)处的稳定性阈值，因为“piper”在时亥Ij (60)变为了 “pipe per”，因此在时刻(70)变回到“piper”之前重新设置相关联的持久性数值。在时刻(70)被识别之后，词“piper”保持在顶端假设200中直至时刻(100)。结果，稳定性曲线206在时刻(70)开始升高并且继续升高直至时刻(100)。基于稳定性阈值线204所指示的稳定性阈值，词“piper”在时刻(90)和时刻(100)之间的某时被首次评估为是稳定的，此时稳定性曲线206与稳定性阈值线204相交。一旦词或分段的稳定性超过了稳定性阈值，则无论所识别的词或分段是否已经像用户102所预期的那样被识别器116正确地识别，该特定词或分段都能够被认为是稳定的。
[0035]图3是用于基于分段的持久性来对其分配稳定性度量的示例过程300的流程图。简言之，过程300包括在各个时帧存储可能的语音识别结果(302)，从语音识别结果选择感兴趣时帧处的一个或多个分段(303)，测量每个所选择的分段的持久性(304)，并且使用基于该分段的持久性所计算的稳定性数值来标记每个所选择的分段(305)。在一些实施方式中，过程300可以由系统100执行并且因此将在下文出于清楚的目的而进行描述。
[0036]更为详细地，过程300在音频信号110被ASR引擎108接收并且被识别器116解码时开始(301)。每个时帧处的顶端假设随后由增量语音识别器缓冲器118接收并且存储为顶端增量语音识别假设，其反映了每个时帧处最可能的语音识别结果(302)。
[0037]在感兴趣时帧处，从顶端增量语音识别假设中识别一个或多个分段(303)。例如，特定时帧处的顶端假设中的每个词可以单独地被选择为多个分段。可替换地或者除此之夕卜，出现在顶端假设中的一组词可以共同地被选择为单个分段。
[0038]确定一个或多个分段在顶端假设中持续了多久(304)。如以上关于图1所讨论的，能够通过测量识别该分段的感兴趣时帧和该分段首次出现在顶端假设中而后续没有变化的时帧之间的时间间隔来获得分段的持久性。例如，暂时往回参考图2A，所识别的分段“piper”在时刻(30)首次出现在顶端假设中但是随后在时刻(60)变为“pipe per”。直到“piper”再次出现在顶端假设中的时刻(70)，该分段才能够被认为首次出现而后续没有变化。在一些实施方式中，可以通过对分段在识别该分段的感兴趣帧与该分段首次出现在顶端假设中而后续没有变化的较早帧之间出现在顶端假设中的次数计数来获得该分段的持久性。
[0039]在(303)中所选择的一个或多个分段各自基于持久性测量被分配以稳定性度量(305)。此外，可以使用分段的其它与持续时间相关的特征(诸如其右侧上下文)来向该分段分配稳定性数值。在分配稳定性数值时，还可以使用分段的与持续时间不相关的特征。在一些实施方式中，可以使用分段的各个与持续时间相关的特征之间的与持续时间相关和与持续时间无关的简单加权插值。可替换地，如以下进一步描述的，给定其各种特征，能够使用回归(例如逻辑回归)来估计分段的稳定性。过程300可以在已经被评估为稳定的分段被发送至输出模块122时结束(306)。
[0040]图4是用于基于词或子词首次被识别而没有后续变化的时刻来计算词或子词的寿命度量的示例过程400的流程图。简言之，过程400包括在具体时帧从顶端增量语音识别假设来选择词或子词(402)，找出该词或子词首次被识别而没有后续变化时的第一时帧(403),并且基于该具体时巾贞和第一时巾贞评估该词或子词的寿命度量(404)。在一些实施方式中，过程400可以由系统100执行并且因此将在下文出于清楚的目的进行描述。
[0041]更为详细地，过程400在识别器116开始将音频信号110解码为增量语音识别假设时开始(401)。如以上关于图3所描述的，来自识别器116的解码输出能够在增量时帧被存储在增量识别器缓冲器118中。
[0042]在感兴趣的时帧，识别出现在识别器116的输出中的词或子词或者一组词或子词(402)。例如，增量输出中在特定时帧处的每个词或子词能够被单独地识别。可替换地或者除此之外，增量输出中的一组词或子词可以被共同地识别。
[0043]确定以上所识别的词或子词在(402)中被识别之前出现在输出中而没有后续变化的最早时间点(403)。例如，如果词或子词在时刻(80)被识别，首次出现在时刻(20)，在时刻(40)被修改为另一个词或子词，并且随后在时刻(60)变回为所识别的词或子词，则时刻(60)被确定为该词或子词出现而没有后续变化的最早时间点。在该示例中，该词或子词的持久性将为(80)-(60)或者20ms。
[0044]基于特定感兴趣时帧和最早时间点计算所识别的词或子词的寿命度量(404)。例如，如果通过找出特定时帧与最早时帧之间的时间差来计算寿命度量，则该寿命度量等于该特定时帧处的所识别的词或子词的寿命或持久性。在一些实施方式中，寿命度量等于稳定性度量。可替换地，寿命度量可以与其它度量相结合以规定稳定性度量。过程400能够在已经计算了增量假设内、在特定时帧处的所有词或子词的寿命度量时结束(405)。
[0045]图5是用于基于词的时间长度来向其分配稳定性度量的示例过程500的流程图。简言之，过程500包括确定词出现在顶端增量语音识别假设中的时间长度或出现次数(502)，并且使用基于该时间长度或出现次数的稳定性度量来标记该词(503)。在一些实施方式中，过程500可以由系统100执行并且因此将在下文出于清楚的目的而进行描述。
[0046]更为详细地，过程500当如在(303)和(402)中识别顶端增量语音识别假设内的词时开始(501)。确定该词保留在顶端假设中的时间长度或者该词在顶端假设中显露的出现次数(502)。与词的寿命或持久性相比，相关联的时间长度衡量了词出现在顶端假设中的总时间长度。例如，如果词或子词在时刻(80)被识别，首次出现在时刻(20)，在时刻(40)被修改为另一词或子词，并且随后在时刻(60)变回为所识别的词或子词，则所识别的词或子词保持在顶端假设中的时间长度将为[(40)-(20)]+ [(80)-(60)]或40ms。出现次数的测量通常是不依赖于时间的特征，该特征对特定词在顶端假设中出现的次数计数。
[0047]来自(502)的词基于所计算的时间长度而被分配以稳定性度量(503)。此外，该词的其它与持续时间相关的特征(诸如其持久性和/或右侧上下文)可以被用来向该词分配稳定性数值。过程500能够在该词及其稳定性度量被发送至输出模块122时结束(504)。
[0048]在以上关于图1-图5所描述的样本过程中，当给定一组与增量假设内的前缀相关联的特征时，能够使用回归来估计增量结果的前缀稳定的概率。例如，能够使用逻辑回归。给定<wt，yt>形式的数据，其中&是增量假设内的词并且yt是二进制响应，大小为M的特征
矢量f OO能够被填充以训练参数集合Hm。单个帧可以从训练集合的增量结果中的每个假设词被随机采样，并且能够计算该帧处的特征f (wt)。可以记录二进制响应yt以表示在wt中结束的前缀的真实稳定性。
[0049]一旦参数被训练，就能够通过使用等式(I)来预测稳定性统计s:
[0050]s = logit-1 (^f (Wt)).(I)
[0051]稳定性评估器120随后能够使用稳定性阈值来提取增量结果的稳定前缀。为了防止在稳定性围绕阈值振荡的情况下可能出现的虚假删除，能够做出关于是否允许词的稳定性随时间减小的设计决策。可替换地或者除此之外，能够做出确保稳定性在增量结果中从左向右减小的设计决策。
[0052]图6和图7图示了作为样本测试集合的延时的函数的稳定性改善。即使在理想的语音识别条件下，在用户102讲出词的时刻与该词可从识别器116获得的时刻之间也可能存在某种程度的延时。图6的图600反映了例如表示由用户在计算机、移动设备等上执行基于语音的搜索时形成的话语112的样本测试集合。图7的图700反映了例如表示由用户102在向计算机、移动设备等提供基于语音的输入时形成的话语112的样本测试集合。来自图6的样本中的示例话语通常比来自图7的样本中的示例话语更长。
[0053]参考图6和图7，谕示(oracle)稳定性点601、701表示测试集合中的增量结果的理想前缀集合的稳定性和延时。曲线602、603、604、702、703、704表示处于从三个不同特征集合学习的回归上的稳定性阈值扫描。由曲线602、702所指示的第一特征集合为Cw(或者词的右侧上下文)。由曲线603、703所指示的第二特征集合为aw(或者词的寿命)。在生成图600、700时,针对这些单特征集合中的每一个集合上的回归允许截距项(intercept term)。在图6和图7的示例中，寿命通常比右侧上下文更多地表示稳定性。该结果可能是直观的，因为即使词具有大量的右侧上下文，但是年轻的寿命能够暗示该词在近期发生过变化并且可能再次变化。除了基于持续时间的特征之外，还可以使用诸如词级后部(posterior)之类的其它与词相关的特征。例如，能够从表示当前假设的点阵(lattice)计算给定声学证据的词正确的概率Pw并且进行计分直至所解码的最后帧。除此之外或者可替换地，能够捕捉词w出现的确切时刻的搜索空间大小的简单度量sw。这样的特征能够大致捕捉搜索空间相对于其过去的大小有多大。
[0054]考虑到基于图600、700，寿命能够比右侧上下文更多地指示稳定性，所以寿命能够与第三特征集合中的其它特征相结合。除了诸如曰￥\卩￥和awX Sw之类的交互项之外,还能够包括之前所提到的其它与词相关的特征。包括基于后部(P)、寿命(A)、词(W)和搜索统计(S)的特征的该特征选择可以被称作PAWS特征集合，并且由曲线604、704所指示。
[0055]对于图6所示的样本测试集合，PAWS特征集合实现了最接近于谕示点601的操作点。然而，对于图7所示的样本测试集合，改进似乎是微不足道的。两个样本测试集合的话语长度的差可能是这种变化的原因。虽然图6和图7所示的权衡分析能够提供阈值前缀的语料库的稳定性与所引入的延时如何相关的清晰画面，但是其可能未明确示出稳定性自身是多么地准确。
[0056]图8图示了使用相对图6和图7的样本测试集合的真实分布所绘制的寿命特征而得出的示例回归曲线801。样本测试集合802对应于来自图6的语音搜索话语，并且样本测试集合803对应于来自图7的语音输入话语。在样本图800中，来自以与训练集合相同的方式采样的测试集合的前缀被示出为根据其寿命被装箱(binned)。每个均匀间隔的箱子(bin)的平均寿命相对在该箱子中稳定的前缀的小数而被绘制。被装箱的测试数据显示经学习的曲线801总体上拟合真实数据802、803。例如，样本图800显示低于大约0.9的概率可能被低估，而较高的概率则更准确。
[0057]能够通过对特征空间自身装箱来获得更准确的估计。此外，存在能够被使用的许多特征表示。逻辑回归框架能够灵活地处理大量的特征，同时在出现数据稀疏问题时鲁棒地对其进行处理。
[0058]本说明书中所描述的主题、功能操作和过程的实施例能够以数字电子电路、以有形地体现的计算机软件或固件、以计算机硬件来实施，或者以它们中的一个或多个的组合来实施，该计算机硬件包括在该说明书中公开的结构及其结构的等同形式。本说明书中所描述主题的实施例能够被实施为一个或多个计算机程序，即在有形的非易失性程序载体上被编码用于由数据处理装置执行或者用于控制其操作的计算机程序指令的一个或多个模块。可替换地或者除此之外，该程序指令能够在人为生成的传播信号(例如机器生成的电信号、光信号或电磁信号)上被编码，其被生成以对信息进行编码，用于传输到适当接收器装置以供数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储衬底、随机或串行存取存储器设备或者它们中的一个或多个的组合。
[0059]术语“数据处理装置”包含用于处理数据的所有类型的装置、设备和机器，通过示例包括可编程处理器、计算机或者多个处理器或计算机。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括创建用于所讨论的计算机程序的执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一个或多个的组合的代码。
[0060]计算机程序(也可以被称作或描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可以以任意形式的编程语言(包括编译语言或解释语言，或者声明语言或过程语言)进行编写，并且其能够以任意形式部署，包括作为独立程序或者作为模块、组件、子程序或者适用于计算环境中的其它单元。计算机程序可以(但不需要)对应于文件系统中的文件。程序可以存储在文件中保存其它程序或数据的部分中(例如，存储在标记语言文档中的一个或多个脚本)，存储在专用于所讨论的程序的单个文件中，或者存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序能够被部署为在一台计算机上或者在多台计算机上执行，该多台计算机位于一个地点或者跨多个地点分布，并且通过通信网络互连。
[0061]该说明书中所描述的过程和逻辑流程能够由一个或多个可编程计算机来执行，该一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程还能够由专用逻辑电路来执行，并且装置也能够被实施为专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
[0062]通过示例，适于执行计算机程序的计算机包括能够基于通用或专用微处理器或者其二者，或者任意其它类型的中央处理单元。一般地，中央处理单元将从只读存储器或随机存取存储器或者其二者接收指令和数据。计算机的基本要素是用于执行或实施指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。一般地，计算机还将包括用于存储数据的一个或多个海量存储设备(例如磁盘、磁性光盘或光盘)，或者被操作地耦合以从其接收数据或者向其传送数据或者此二者。然而，计算机不需要具有这样的设备。此夕卜，计算机可以嵌入另一设备(给出几个示例，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或者便携式存储设备(例如通用串行总线(USB)闪存驱动器))中。
[0063]适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，通过示例包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁性光盘；以及⑶ROM和DVD-ROM盘。处理器和存储器可以被补充以专用逻辑电路或者被整合在其中。[0064]为了提供与用户的交互，该说明书中所描述主题的实施例可以在具有用于向用户显示信息的显示设备(例如CRT (阴极射线管)监视器或LCD (液晶显示器)监视器)以及用户能够通过其向计算机提供输入的键盘和指点设备(例如鼠标或轨迹球)的计算机上实施。也能够使用其它类型的设备来提供与用户的交互；例如，向用户提供的反馈可以是任意形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入可以以任意形式(包括声学输入、语音输入或触觉输入)被接收。此外，计算机能够通过往来于用户所使用的设备发送和接收文档而与用户交互；例如，通过响应于从web浏览器接收的请求向用户的客户端设备上的web浏览器发送网页。
[0065]本说明书中所描述主题的实施例能够在计算系统中实施，该计算系统包括例如作为数据服务器的后端组件或者包括例如应用服务器的中间件组件，或者包括例如客户端计算机的前端组件，或者一个或多个这样的后端组件、中间件组件或前端组件的任意组合，该客户端计算机具有用户能够通过其与本说明书中所描述主题的实施方式交互的图形用户界面或Web浏览器。该系统的组件能够通过任意形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(LAN)以及广域网(WAN)(例如互联网)。
[0066]计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系凭借在各自的计算机上运行并且互相具有客户端-服务器关系的计算机程序而产生。
[0067]虽然本说明书包含许多具体的实施细节，但是这些细节不应当被理解为对可能请求保护的范围的限制，而是作为可能特定于特定实施例的特征的描述。在该说明书中以单独的实施例为背景所描述的某些特征还可以在单个实施例中组合实施。相反地，以单个实施例为背景所描述的各种特征还能够在多个实施例中单独地或者以任意适当的子组合来实施。此外，虽然特征可以在上文被描述为以某种组合的方式起作用并且甚至最初如此要求保护，但是来自所要求保护的组合的一个或多个特征在某些情况下可以与该组合脱离，并且所要求保护的组合可以针对子组合或者子组合的变化形式。
[0068]类似地，虽然在图中以特定顺序描绘了操作，但是这不应当被理解为要求这样的操作应当以所示出的特定顺序或者以连续的顺序来执行，或者所有图示的操作应当被执行以实现所期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中各种系统组件的划分不应当被理解为在所有实施例中要求这样的划分，并且应当理解的是，所描述的程序组件和系统一般可以在单个软件产品中被集成在一起，或者被封装到多个软件产品之中。
[0069]已经对主题的特定实施例进行了描述。其它实施例处于以下权利要求的范围之内。例如，权利要求中所记载的动作能够以不同的顺序执行并且仍然实现所期望的结果。作为一个示例，附图中描绘的过程并非必然要求所示出的特定顺序或连续顺序来实现所期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。可以提供其它步骤，或者可以从所描述的过程中去除步骤。因此，其它实施方式处于以下权利要求的范围之内。
【权利要求】
1.一种计算机实施的方法，包括: 接收各自表示增量语音识别器在不同时间点的顶端增量语音识别假设的多个部分增量语音识别假设；从所述多个部分增量语音识别假设之一识别分段；从所述多个部分增量语音识别假设确定所述分段在所述增量语音识别器的顶端增量语音识别假设中持续了多久；并且由一个或多个计算机基于所述分段在所述增量语音识别器的顶端增量语音识别假设中持续了多久来向所述分段分配稳定性度量。
2.根据权利要求1所述的方法，其中向所述分段分配所述稳定性度量进一步基于所述分段的右侧上下文。
3.根据权利要求1所述的方法，其中所述分段包括词或子词。
4.根据权利要求1所述的方法，其中确定所述分段持续了多久包括确定所述分段在没有变化的情况下持续了多久。
5.根据权利要求1所述的方法，其中所述稳定性度量在所识别的、包括所述分段的特定增量语音识别假设从所述增量语音识别器输出之后被分配给所述分段。
6.根据权利要求1所述的方法，包括: 接收与话语相对应的音频信号；并且对所述音频信号执行增量语音识别以生成所述多个部分增量语音识别假设。
7.根据权利要求1所述的方法，包括: 确定所述稳定性度量是否满足阈值；并且基于确定所述稳定性度量是否满足所述阈值来改变用户界面上所述分段的表示的视觉特征。
8.根据权利要求1所述的方法，包括: 确定所述稳定性度量是否满足阈值，并且基于确定所述稳定性度量是否满足所述阈值来将所述分段翻译为不同语言。
9.根据权利要求1所述的方法，包括: 确定所述稳定性度量是否满足阈值；并且基于确定所述稳定性度量是否满足所述阈值来将所述分段作为搜索查询的一部分提交至搜索引擎。
10.根据权利要求1所述的方法，包括: 确定所述稳定性度量是否满足阈值；并且基于确定所述稳定性度量是否满足所述阈值来在用户界面上显示所述分段的表示。
11.根据权利要求1所述的方法，其中所述接收、识别、确定和分配由一个或多个计算机来执行。
12.—种系统,包括: 一个或多个计算机以及存储指令的一个或多个存储设备，如果被所述一个或多个计算机执行，所述指令可操作为使得所述一个或多个计算机执行操作，所述操作包括: 接收各自表示增量语音识别器在不同时间点的顶端增量语音识别假设的多个部分增量语音识别假设；从所述多个部分增量语音识别假设之一识别分段；从所述多个部分增量语音识别假设确定所述分段在所述增量语音识别器的顶端增量语音识别假设中持续了多久；并且基于所述分段在没有变化的情况下在所述增量语音识别器的顶端增量语音识别假设中持续了多久来向所述分段分配稳定性度量。
13.根据权利要求12所述的系统，其中向所述分段分配所述稳定性度量进一步基于所述分段的右侧上下文。
14.根据权利要求12所述的系统，其中所述分段包括词或子词。
15.根据权利要求12所述的系统，其中确定所述分段持续了多久包括确定所述分段在没有变化的情况下持续了多久。
16.根据权利要求12所述的系统，其中所述稳定性度量在所识别的、包括所述分段的特定增量语音识别假设从所述增量语音识别器输出之后被分配给所述分段。
17.根据权利要求 12所述的系统，其中所述操作包括: 接收与话语相对应的音频信号；并且对所述音频信号执行增量语音识别以生成所述多个部分增量语音识别假设。
18.根据权利要求12所述的系统，其中所述操作包括: 确定所述稳定性度量是否满足阈值；并且基于确定所述稳定性度量是否满足所述阈值来改变用户界面上所述分段的表示的视觉特征。
19.根据权利要求12所述的系统，其中所述操作包括: 确定所述稳定性度量是否满足阈值，并且基于确定所述稳定性度量是否满足所述阈值来将所述分段翻译为不同语言。
20.根据权利要求12所述的系统，其中所述操作包括: 确定所述稳定性度量是否满足阈值；并且基于确定所述稳定性度量是否满足所述阈值来将所述分段作为搜索查询的一部分提交至搜索引擎。
21.根据权利要求12所述的系统，其中所述操作包括: 确定所述稳定性度量是否满足阈值；并且基于确定所述稳定性度量是否满足所述阈值来在用户界面上显示所述分段的表示。
22.—种计算机可读介质，其存储包括可由一个或多个计算机执行的指令的软件，所述指令在这样执行时使得所述一个或多个计算机执行操作，所述操作包括: 接收各自表示增量语音识别器在不同时间点的顶端增量语音识别假设的多个部分增量语音识别假设；从所述多个部分增量语音识别假设之一识别分段；从所述多个部分增量语音识别假设确定所述分段在所述增量语音识别器的顶端增量语音识别假设中持续了多久；并且基于所述分段在没有变化的情况下在所述增量语音识别器的顶端增量语音识别假设中持续了多久来向所述分段分配稳定性度量。
23.根据权利要求22所述的介质，其中向所述分段分配所述稳定性度量进一步基于所述分段的右侧上下文。
24.根据权利要求22所述的介质，其中所述分段包括词或子词。
25.根据权利要求22所述的介质，其中确定所述分段持续了多久包括确定所述分段在没有变化的情况下持续了多久。
26.根据权利要求22所述的介质，其中所述稳定性度量在所识别的、包括所述分段的特定增量语音识别假设从所述增量语音识别器输出之后被分配给所述分段。
27.根据权利要求22所述的介质，其中所述操作包括: 接收与话语相对应的音频信号；并且对所述音频信号执行增量语音识别以生成所述多个部分增量语音识别假设。
28.根据权利要求22所述的介质，其中所述操作包括: 确定所述稳定性度量是否满足阈值；并且基于确定所述稳定性度量是否满足所述阈值来改变用户界面上所述分段的表示的视觉特征。
29.根据权利要求22所述的介质，其中所述操作包括: 确定所述稳定性度量是否满足阈值；并且基于确定所述稳定性度量是否满足所述阈值来将所述分段作为搜索查询的一部分提交至搜索引擎。
30.一种计算机实施的方法，包括: 识别语音识别器的输出中在特定时间点出现的词或子词；确定所述词或所述子词在所述增量语音识别器的所述输出中出现而没有后续变化的最早时间点；并且基于所述特定时间点和所述最早时间点来计算所述词或所述子词的寿命度量。
【文档编号】G10L15/22GK103918026SQ201280053938
【公开日】2014年7月9日申请日期:2012年8月13日优先权日:2011年11月1日
【发明者】I·C·麦格劳, A·H·格伦斯坦申请人:谷歌公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：I·C·麦格劳;A·H·格伦斯坦
技术所有人：谷歌公司
我是此专利的发明人

上一篇：计算上有效的宽带滤波和相加阵列聚焦的制作方法
上一篇：音频对象编码和解码的制作方法