用于使用语音识别解释剪短的语音的方法和装置的制造方法

文档序号:9632281阅读:594来源:国知局
用于使用语音识别解释剪短的语音的方法和装置的制造方法
【技术领域】
[0001]这里描述的主题的实施例一般地涉及语音识别系统。更具体地,主题的实施例涉及针对可能不完整的语音数据样本的语音识别。
【背景技术】
[0002]在使用即按即说设备期间,对用户普遍发生的是,由于在语音已经开始之后按下即按即说按钮或者在完成清晰表达的语句之前释放即按即说按钮而非故意地缩短(例如,切断或“剪短”)消息。当用户与第二用户(经由即按即说设备)进行通信时,即使第二用户没有接收到整个消息,第二用户通常也仍然可以理解第一用户说了什么。
[0003]当用户使用配备有语音识别技术的即按即说设备时,缩短或剪短消息可能导致语音识别算法失败。此外,在不使用即按即说技术的自动获得控制系统的情况下,剪短可能发生。例如,如果一个人开始过轻地讲话,则命令的开始可能被剪短。移除该消息的第一部分的剪短对用于语音识别的包括隐式马尔可夫模型(HMM)的信号处理算法是不利的。HMM单独地评估每个码字,并且基于其之前的码字来确定每个码字的概率。如果话语的第一码字被剪短,则语音识别系统将很可能无法识别说了什么,并且这可能导致差的语音识别性能。
[0004]因此,期望提供一种用于使用语音识别技术来识别和解释剪短的语音的方法。此夕卜,结合附图和前述的技术领域和【背景技术】进行理解,其他期望特征和特性根据后续具体描述和所附权利要求将变得显而易见。

【发明内容】

[0005]本发明的一些实施例提供了一种用于接收和分析与话音识别技术兼容的数据的方法。该方法接收包括至少清晰表达的语句的子集的语音数据;基于接收到的语音数据来执行多个处理以生成多个概率,多个处理中的每一个与相应候选清晰表达的语句相关联,并且所生成的多个概率中的每一个包括关联的候选清晰表达的语句包括该清晰表达的语句的可能性;以及分析所生成的多个概率来确定识别结果,其中,识别结果包括清晰表达的语句。
[0006]—些实施例提供了一种用于接收与语音识别技术兼容的数据的系统。该系统包括:用户输入模块,配置为接收音频数据集合;数据分析模块,配置为:基于接收到的语音数据来计算一个或多个概率,所计算的多个概率中的每一个指示音频数据集合包括候选词语的统计可能性;并且基于所计算的多个概率来确定语音识别结果。
[0007]—些实施例提供了一种非临时性计算机可读介质,在其上包含指令,该指令在由处理器执行时执行一种方法。响应于接收到的与语音识别(SR)技术兼容的用户输入集合,该方法:执行多个多线程处理来计算多个概率,所述多个概率中的每一个与所述多个多线程处理中的相应一个相关联;比较所述多个概率中的每一个以识别高于预定义的阈值的一个或多个概率;以及基于所识别的高于预定义的阈值的一个或多个概率来呈现识别结果。
[0008]提供本
【发明内容】
来以简化形式介绍概念的选择,该概念在以下的具体描述中被进一步描述。本
【发明内容】
不意在标识要求保护的主题的关键特征或必要特征,其也不意在用作确定要求保护的主题的范围的辅助。
【附图说明】
[0009]当结合下述特征一起考虑时,可以通过参考具体描述和权利要求来得到对主题的更全面的理解,其中遍及附图,相似的附图标记指类似的元件。
[0010]图1是根据一些实施例的语音数据识别系统的示意性框图表示;
图2是图示用于接收与语音识别技术兼容的数据的处理的实施例的流程图;
图3是图示用于接收与语音识别技术兼容的数据的处理的另一实施例的流程图;
图4是图示用于将接收到的语音数据集合的第一音素与存储在系统词典中的一个或多个候选词语作比较的处理的实施例的流程图;
图5是图示用于执行用于剪短语音识别的多个处理的处理的实施例的流程图;
图6是根据一些实施例的语音数据识别系统的示意图表示;
图7是根据一些实施例的可能的前缀的数据库的示意图表示;
图8是图示用于分析接收到的语音数据的处理的实施例的流程图;以及图9是图示用于准备用于语音识别应用的语音识别系统的处理的实施例的流程图。
【具体实施方式】
[0011]下面的详细描述本质上仅仅是说明性的并且不意在限制主题的实施例或者这样的实施例的应用和使用。如本文使用的词语“示例性”是指“用作示例、实例或说明”。本文描述为示例性的任何实现方式不必然被解释为比其他实现方式更优选或更有利。此外,不意在受到在前面的技术领域、【背景技术】、
【发明内容】
或以下具体描述中呈现的任何明确的或暗示的理论的限制。
[0012]本文提出的主题涉及用于解释接收到的语音数据的方法和装置,不论该语音数据是完整的还是不完整的语句。由用户清晰表达的语句传达语音数据的集合。该接收到的语音数据的集合可能已经在清晰表达期间被“剪短”或切断,或者换言之,接收到的语音数据的集合可能由于省略的部分而是不完整的。省略的部分可以包括一个或多个完整词语、音素、码字或话语的其他定义的部分。系统执行用于语音识别的多个信号处理算法,以便计算与下述各项相关联的概率:(i)接收到的语音数据与完整的语句相关联,以及(ii)接收到的语音数据与由于剪短的部分而不完整的语句相关联。
[0013]在本申请的上下文中,术语“语音识别”和“话音识别”是可互换的。此外,术语“语音数据”和“话音数据”也是可互换的。语音数据的样本或集合包括至少一个词语。一个或多个词语被单独地存储在系统词典中。每个词语包括一个或多个音素,音素可以被定义为使一个词语与另一个区分的特定语言中的声音的感知上不同的单元中的任何一个。音素可以包括但不限于,与英语语言相关联的声音的不同单元。音素提供每个词语的子集的音素表示,每个词语的子集可以包括该词语的一部分,至多并且可能包括整个词语。每个音素可以与一个或多个码字、或词语的各部分的子音素表示相关联。此外,词语可以使用系统语言模型来被提及,以取回独立的词语和/或词语组合在接收到的语音数据的集合中可能出现的概率。
[0014]现在参考附图,图1是根据一些实施例的语音数据识别系统的示意性框图表示。语音数据识别系统100可以使用任何期望的平台来实现。例如,话音数据识别系统100可以被实现为下述各项(但不限于下述各项)中的任何一个:台式计算机、膝上型计算机、服务器系统、移动设备、诊断设备的专用部件、基于嵌入式处理器的设备或系统或包括处理器架构102的任何其他设备。
[0015]语音数据识别系统100可以包括但不限于:处理器架构102 ;系统存储器104 ;用户接口 106 ;信号处理模块108 ;系统准备模块110 ;参数模块112 ;和数据分析模块114。在实践中,语音数据识别系统100的实施例可以包括按期望用于特定应用的附加或替代元件和组件。例如,在不背离本公开的范围的情况下,可以采用附加组件,诸如显示器和用户输入组件。为了便于说明和清楚,在图1中没有描绘用于这些元件和特征的各种物理、电气和逻辑耦合和互连。此外,应该理解,语音数据识别系统100的实施例将包括协作支持期望功能的其他元件、模块和特征。为了简单,图1仅描绘了涉及以下更具体描述的语音数据识别和完成技术的特定元件。
[0016]处理器架构102可以使用任何适当的处理系统来实现,该处理系统诸如是一个或多个处理器110 (例如,多个芯片或单个芯片上的多个核心)、控制器、微处理器、微控制器、处理核心和/或跨任何数目的分布式或集成系统(包括任何数目的“基于云”的系统或其他虚拟系统)分布的其他计算资源。
[0017]处理器架构102与系统存储器104进行通信。系统存储器104表示能够存储用于在处理器架构102上执行的编程指令的任何非临时性短期或长期存储装置或其他计算机可读介质,包括任何种类的随机存取存储器(RAM)、只读存储器(R0M)、闪速存储器、磁或光学大容量存储装置和/或类似物。应当注意,系统存储器104表示这样的计算机可读介质中的
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1