基于词比较的语音端点定位的制作方法

文档序号：9289046阅读：357来源：国知局

基于词比较的语音端点定位的制作方法
【专利说明】基于词比较的语音端点定位
[0001]相关串请的交叉引用
[0002]本申请要求于2014年4月23日提交的、申请号为61/983，025的美国专利申请的权益，其内容通过引用并入。
技术领域
[0003]本公开内容总体上涉及语音识别，并且一个特定实现方式涉及对语音进行端点定位(endpointing)。
【背景技术】
[0004]自然语言处理系统通常使用端点器(endpointer)来确定用户何时开始以及结束说话。一些传统的端点器在确定话语何时开始或者结束时对词之间的停顿的持续时间进行评价。例如，如果用户说“what is〈长停顿〉for dinner”，则传统的端点器可以在长停顿处分割话音输入，并且可以指令自然语言处理系统尝试处理不完整的短语“what is”，而不是处理完整的短语“what is for dinner”。如果端点器为话音输入指定了错误的开始点或者结束点，则使用自然语言处理系统处理语音的结果可能是错误的或者不符合需要的。

【发明内容】

[0005]根据在本说明书中所描述的主题内容的创新的方面，一种计算设备可以接收由用户说出的话语的话音输入，并且可以使用连续语音识别器来递增地转录话语。计算设备比较递增地识别的转录与来自文本样本的汇集(诸如，由其他用户之前提交给搜索引擎的搜索查询的汇集)中的文本样本进行比较，以确定转录更可能表示完整的查询还是不完整的查询。
[0006]根据一个方式，确定转录更可能表示完整的查询还是不完整的查询包括:确定与转录匹配并且不包括任何附加的词语(term)的文本样本的数量，并且确定与转录匹配并且包括一个或者多个附加的词语的文本样本的数量。计算设备可以然后基于那两个数量确定比率并且比较确定的比率与阈值比率。如果确定的比率不满足阈值比率，则计算设备将话语分类为很可能不完整的话语。如果确定的比率满足阈值比率，则计算设备将话语分类为非很可能不完整的话语。
[0007]基于将话语分类为很可能完整的话语或者不完整的话语，设备可以对话音输入进行端点定位，或者可以去激活麦克风或者将麦克风维持在激活状态。如果话语被分类为很可能不完整的话语，则设备可以将麦克风维持在激活状态以接收附加的话语，或者可以在对话音输入进行端点定位之前进一步等待。如果话语被分类为非很可能不完整的话语，则设备可以去激活麦克风并且处理话语，或者可以在对话音输入进行端点定位之前不进行进一步等待。
[0008]—般来说，在本说明书中所描述的主题内容的另一个创新的方面可以被实施为方法，这些方法包括以下动作:获得话语的转录；将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值；将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值；并且至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语。
[0009]这些和其他实施例可以各自可选地包括以下特征中的一个或者多个特征。将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值的动作包括:在每个文本样本中确定与转录匹配的词语以与在转录中相同的顺序出现。将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值的动作包括:在每个文本样本中确定与转录匹配的词语在每个文本样本的前缀处出现。
[0010]至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括:确定第一值与第二值的比率；确定比率满足阈值比率；并且基于确定比率满足阈值比率来将话语分类为很可能不完整的话语。至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括:将话语分类为很可能不完整的话语；并且基于将话语分类为很可能不完整的话语来将麦克风维持在激活状态以接收附加的话语。
[0011]至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括:将话语分类为非很可能不完整的话语；并且基于将话语分类为非很可能不完整的话语来去激活麦克风。这些动作进一步包括接收指示话语完整的数据；其中至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语包括:将话语分类为很可能不完整的话语；并且基于将话语分类为很可能不完整的话语来覆盖指示话语完整的数据。
[0012]这一方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序，每个均被配置为执行该方法的操作。
[0013]一般来说，在本说明书中所描述的主题内容的另一个创新的方面可以被实施为方法，这些方法包括以下动作:获得话语的转录；确定在文本样本的汇集中，与话语所匹配的相比，话语是更经常地与(i)包括与转录匹配的词语并且不包括任何附加的词语的文本样本匹配，还是更经常地与(ii)包括与转录匹配的词语并且包括一个或者多个附加的词语的文本样本匹配；并且基于该确定来确定话语是否很可能不完整。
[0014]这一方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序，每个均被配置为执行该方法的操作。
[0015]在本说明书中所描述的主题内容的特定实施例可以被实施以使得实现以下优点中的一个或者多个优点。用户可以使用计算设备的话音输入能力并且以对用户来说舒适的速度说话。话语可以在话语的预期的结束处被端点定位，从而得到更精确的或更希望的自然语言处理输出，并且得到自然语言处理系统的更快的处理。在背景噪声存在的情况下，话语可以在话语的预期的结束处被端点定位。
[0016]在本说明书中所描述的主题内容的一个或者多个实施例的细节在以下的附图和描述中被阐明。主题内容的其他特征、方面和优点将从描述、附图以及权利要求书变得显而易见。
【附图说明】
[0017]图1A至图1C是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图。
[0018]图2是将话语分类为很可能完整或者很可能不完整示例系统的示图。
[0019]图3是用于对话语是否很可能不完整进行分类的示例过程的示图。
[0020]在各个附图中相同的附图标记和标示指示相同的元件。
【具体实施方式】
[0021]图1是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图100。一般来说，示图100图示了在计算设备110处理传入音频输入102时由计算设备110生成或者检测到的信号102至108。计算设备110通过计算设备的麦克风或者其他音频输入设备来接收音频输入102，并且对音频输入102是很可能完整的话语还是很可能不完整的话语进行分类。
[0022]计算设备110接收音频输入102并且以预先指定的频率和分辨率对音频输入102采样。例如，计算设备110可以在8kHz、16kHz、44.1kHz或任何其他采样率对音频输入102采样，并且分辨率可以是16比特、32比特或任何其他分辨率。音频输入102图示了基于来自用户114的话语112的采样的模拟数据。在图1A中所图示的示例中，用户114对着计算设备110说出“What is…the meaning of life ? ”计算设备110可以记录并且存储对应于话语112的音频输入102。
[0023]计算设备110转录由用户114说出的话语112。在一些实现方式中，计算设备110使用运行自动语音识别(ASR)软件的计算设备110的处理器来转录话语112的词。例如，计算设备110可以在计算设备110本地确定初始部分音频输入102包含词语120 “what”。随着计算设备110从用户接收话语112，ASR软件接收音频输入102。随着ASR软件在音频输入102中识别词语，ASR软件继而将提供该词语以用于向计算设备110输出。计算设备110记录在ASR软件返回ASR软件识别的词语之间的时间量。例如，ASR软件可以返回词语120 “what”，然后一百毫秒之后返回词语122 “ is”，并且然后两百毫秒之后返回词语124 “the”。计算设备110记录词语122 “is”在一百毫秒之后跟随词语120 “what”并且词语124 “the”在两百毫秒之后跟随词语122 “is”。在一些实现方式中，通过网络可访问的服务器可以运行ASR软件。在这种情况下，计算设备在网络上向服务器传输音频输入102，从服务器接收词语并且记录在服务器返回词语之间的时间量。
[0024]随着计算设备110转录话语112的词语120至130，计算设备110从通用端点器接收通用端点器信号104。计算设备110向通用端点器提供从ASR软件接收的词语和在每个词语之间的记录的时间。通用端点器比较记录的时间与阈值。如果在两个词语之间的记录的时间中的一个记录的时间满足阈值，则通用端点器在将端点标识为在两个词语之间。例如，阈值可以是一百五十毫秒。通用端点器比较在词语120 “what”与词语122 “is”之间的一百毫秒的时间。因为一百毫秒小于一百五十毫秒的阈值，所以通用端点器不在词语120 “what”与词语122 “is”之间添加端点。通用端点器也比较在词语122 “is”与词语124 “the”之间的两百毫秒的时间。因为两百毫秒大于一百五十毫秒的阈值，所以通用端点器在词语122 “is”与词语124 “the”之间添加端点。通用端点器信号104将端点图示为在活跃的信号与不活跃的信号之间的过渡。通用端点器信号在词语120 “what”与词语122 “is”之间活跃，并且在词语122 “is”与词语124 “the”之间变成不活跃。
[0025]在一些实现方式中，通用端点器等待在词语的结束之后、在通用端点器标识端点之前的时间的特定时段。在每个词语从ASR软件被接收之后或者在通用端点器接收到ASR标识了词语的指示之后，通用端点器进行等待。如果等待时间满足阈值，等通用端点器标识端点。例如，阈值可以是一百五十毫秒。如果通用端点器接收ASR软件已经标识了词语(诸如词语120“what”)的指示，则通用端点器将开始定时器。一百毫秒之后，通用端点器接收ASR软件已经标识了另一个词语(诸如词语122 “is”)的指示。因为通用端点器的定时器没有达到一百五十毫秒的阈值，所以通用端点器在词

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·布坎南;P·K·古普塔;C·B·坦迪奥诺;
技术所有人：谷歌公司;
我是此专利的发明人

上一篇：利用电磁引力的头-介质接触检测的制作方法
上一篇：一种k歌处理方法及装置的制造方法