用于使用语音识别解释接收的语音数据的方法和装置的制造方法

文档序号：9616934阅读：498来源：国知局

用于使用语音识别解释接收的语音数据的方法和装置的制造方法
【技术领域】
[0001]本文描述的主题的实施例一般性地涉及语音识别系统。更具体地，主题的实施例涉及使用与候选发言(utterance)关联的概率的差异的语音识别。
【背景技术】
[0002]语音识别系统一般使用信号处理算法来基于现有语言模型确定接收的语音数据的集合对应于特定的清晰表述(articulated statement)的概率。每个清晰表述由组成部分构成，以包括单词、音素(phoneme)、和代码字，并且这个概率是一组或多组的这些组成部分的比较分析。结果是系统相信的一系列可能的单词或短语(连同其相应的概率)可能已经是原始发言。
[0003]因此，希望提供一种用于确定最可能的候选清晰表述的系统。此外，根据结合附图以及前面的技术领域和【背景技术】进行的随后的详细描述和所附的权利要求，其它希望的特征和特性将变得明显。

【发明内容】

[0004]—些实施例提供了一种用于处理接收的语音数据的集合的方法，其中接收的语音数据的集合包括发言。该方法执行过程以生成多个置信分数(confidence score)，其中多个置信分数中的每个与多个候选发言中的一个关联；确定多个差值，该多个差值中的每个包括多个置信分数的两个之间的差；并且比较多个差值以确定至少一个差异。
[0005]—些实施例提供了一种用于处理接收的语音数据的集合的系统，其中接收的语音数据的集合包括发言。该系统包括用户接口模块，其被配置成接收语音数据的集合；概率模块，其被配置成基于所接收的语音数据的集合来计算多个概率，计算的多个概率中的每个指示语音数据的集合包括多个候选发言中的一个的统计可能性；以及数据分析模块，其被配置成:计算多个差值，多个差值中的每个包括多个概率的两个之间的差，并且比较所述多个差值以确定至少一个差异。
[0006]—些实施例提供了一种非暂态计算机可读介质，在其上包含指令，所述指令当被处理器执行时，执行一种方法。该方法接收语音数据的集合；计算多个置信分数，其中多个置信分数中的每个与多个候选发言中的一个关联；确定多个差值，该多个差值的每个包括多个置信分数的两个之间的差；以及比较该多个差值以确定至少一个差异。
[0007]提供此概要以采用简化的形式引入下面在详细描述中进一步描述的概念的选择。此概要并不旨在识别所要求保护的主题的关键特征或必要特征，也不旨在被用作确定所要求保护的主题的范围的帮助。
【附图说明】
[0008]在结合以下各图考虑时，可以通过参考详细描述和权利要求来得到主题的更完整的理解，其中遍及各图，相似的参考数字指的是相似的元件。
[0009]图1是根据一些实施例的语音数据识别系统的示意性框图表示；
[0010]图2是示出用于处理所接收的语音数据的集合的过程的实施例的流程图；
[0011]图3是示出用于分析所接收的语音数据的过程的实施例的流程图；以及
[0012]图4是示出用于为语音识别应用准备语音识别系统的过程的实施例的流程图。
【具体实施方式】
[0013]以下详细描述本质上仅为说明性的，并且不旨在限制主题的实施例或者此类实施例的应用和使用。如本文所使用的，单词“示例性”表示“用作示例、实例或者图示”。本文中被描述为示例性的任何实施方式不一定被解释为相比于其它实施方式是优选的或者有利的。此外，不存在被在前面的技术领域、【背景技术】、
【发明内容】
或者以下的【具体实施方式】中提出的任何明示或默示理论约束的意图。
[0014]本文提出的主题涉及用来解释所接收的语音数据的方法和装置。用户的清晰表述传达语音数据的集合。系统执行用于语音识别的多个信号处理算法，以计算与候选清晰表述相关联的概率，每个概率对应于特定的候选清晰表述对应所接收的语音数据的集合的统计可能性。
[0015]在本申请的上下文中，术语“语音识别”和“声音识别”是可互换的。此外，术语“语音数据”和“声音数据”也是可互换的。语音数据的样本或集合包括至少一个单词。一个或多个单词被单个地存储在系统词典中。每个单词包括一个或多个音素，其可以被定义为将一个单词与另一个进行区分的指定语言中声音的感知不同单元中的任何单元。音素可以包括但不限于与英语语言相关联的声音的不同单元。音素提供每个单词的子集的语音表示，其可以包括单词的一部分，直到并且潜在地包括整个单词。每个音素可以与一个或多个代码字，或者单词的部分的子语音(subphonetic)表示相关联。此外，可以使用系统语言模型来参考(reference)单词以取回单个单词和/或单词组合可能在所接收的语音数据的集合中出现的概率。
[0016]现在参考附图，图1是根据一些实施例的语音数据识别系统100的示意框图表示。语音数据识别系统100可以使用任何理想的平台实施。例如，语音数据识别系统100可以在没有限制的情况下被实现为下列中的任何一个:台式电脑、膝上型电脑、服务器系统、移动设备、诊断装备的专用件、基于嵌入式处理器的设备或系统，或者包括处理器架构102的任何其它设备。
[0017]语音数据识别系统100可以在没有限制的情况下包括:处理器架构102 ;系统存储器104 ;用户接口 106 ;信号处理模块108 ;系统准备模块110 ;参数模块112 ;置信分数模块114 ;以及数据分析模块116。实际上，语音数据识别系统100的实施例可以包括附加或替代的元件或部件，如对于特定应用来说理想的。例如，在不脱离本公开的范围的情况下，可以采用诸如显示器和用户输入部件之类的附加部件。为便于说明和清楚起见，图1中并未描绘用于这些元件和特征的各种物理、电气、和逻辑耦合和互连。此外，应当认识到，语音数据识别系统100的实施例将包括合作以支持理想功能的其它元件、模块和特征。为简化起见，图1仅描绘了关于语音数据识别的某些元件，以及在下面更加详细地描述的完成技术。
[0018]可以使用任何适当的处理系统来实现处理器架构102，例如一个或多个处理器(例如多个芯片或单个芯片上的多个核)、控制器、微处理器、微控制器、跨任何数目的分布或集成系统(包括任何数目的“基于云的”的或其它虚拟系统)展开的处理核和/或其它计算资源。
[0019]处理器架构102与系统存储器104通信。系统存储器104表示能够存储用于在处理器架构102上执行的编程指令的任何非暂态短期或长期储存器或其它计算机可读介质，包括任何种类的随机存取存储器(RAM)、只读存储器(R0M)、闪速存储器、磁或光学大容量储存器等。应当指出，系统存储器104表示此类计算机可读介质的一个适当的实施方式，并且替代地或者另外地，处理器架构102可以接收外部计算机可读介质并与其合作，所述外部计

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：E·T·纳尔逊;
技术所有人：霍尼韦尔国际公司;
我是此专利的发明人