语音识别装置、具有语音识别装置的车辆及其控制方法_2

文档序号：9598804阅读：来源：国知局

技术人员理解本发明的范围。由权利要求的范畴限定本发明。
[0059]将简要描述本说明书中所使用的术语，并且将详细描述本公开。
[0060]尽管在考虑本公开的功能的同时，选择本公开中广泛使用的通用术语作为本公开中所使用的术语，然而，这些术语可根据本领域普通技术人员的意图、司法先例以及新技术的引进等而变化。在特殊情况下，还可使用由本发明的申请人所任意选择的术语。在这种情况下，需要在对本发明的详细描述中给出其含义。因此，必须基于术语的含义以及整篇说明书的内容定义术语，而不是简单地阐述术语本身。
[0061]应当理解，当本说明书中使用术语“包括(includes)、“包含(comprises) ”、“含有(including) ”、和/或“具有(comprising) ”时，指定了存在所述元件和/或部件，但并不排除存在或者添加一个或者多个元件和/或其组合。如此处使用的，术语“部分”、“模块”、或者“单元”指可执行至少一种功能或者操作，并且可被实施为软件、或者硬件部件(诸如，场可编程门阵列(FPGA)或者专用集成电路(ASIC))或者软件和硬件的组合的单元。然而，术语“部分”、“模块”、或者“单元”不局限于软件或者硬件。“部分”、“模块”、或者“单元”可被配置在可寻址存储介质中或者可被配置成在至少一个处理器上运行。因此，例如，“部分”、“模块”、或者“单元”包括:诸如软件部件、面向对象软件部件、类部件、以及任务部件等各种部件、处理器、功能、属性、程序、子例程、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表格、阵列以及变量。
[0062]在下文中，将参考附图详细描述本公开的实施方式，使得本领域技术人员能够容易实施本公开。在附图中，为简要描述，省去了与本说明书无关的部分。
[0063]应当理解的是，尽管本公开中使用术语“第一”、“第二”等描述各种部件，然而，这些部件不应受这些术语限制。这些术语仅用于区分一个部件与另一个。例如，在不背离本公开的范围的前提下，第一部件可被称为第二部件，并且类似地，第二部件可被称为第一部件。如此处所使用的，术语“和/或”包括一个或者多个相关所列项的任一个及所有组合。
[0064]对于用于识别语音的单位，可以使用词汇、音节、半音节、音素或者连音、双连音等。然而，在下列描述中，为便于描述，假定了以音素单位识别语音。
[0065]图1是根据本公开的实施方式的语音识别装置的控制框图。
[0066]参考图1，根据本公开的实施方式的语音识别装置100可包括语音接收器110、预处理器120、语音识别器130、声学模型140以及上下文(context)模型150。
[0067]语音接收器110可接收用户的语音并且输出对应于接收语音的语音信号。语音接收器110可包括诸如扩音器等语音输入装置和放大通过语音输入装置所接收的声音的放大器。
[0068]预处理器120可对用于语音识别的语音信号进行预处理。更具体地，预处理器120可从用户的语音中检测识别目标部分。例如，预处理器120可基于高斯模型(Gaussianmodeling)从接收的语音中检测识别目标部分。
[0069]此外，预处理器120可从识别目标部分的语音信号中去除噪音成分。例如，预处理器120可使语音信号通过预定固定滤波器以去除语音信号中的噪音，或者可使语音信号通过根据外围环境中噪音的变化的可变滤波器以去除语音信号中的噪音。
[0070]语音识别器130可基于声学模型140和上下文模型150识别语音。
[0071]通过对各个音素的特征向量进行建模可创建声学模型140。声学模型140可用于确定与语音信号对应的音素。S卩，声学模型140可对与每个音素对应的特征向量进行建模。
[0072]例如，根据隐马尔可夫模型(HMM)，声学模型140可被配置有多种状态以及状态之间的转换概率，状态代表各自具有声学相似特征的语音部分。此外，声学模型140可根据诸如动态时间规整(DTW)等时间排列而配置或者被配置有人工神经网络。
[0073]通过对语音识别目标进行建模，更具体地，通过对作为语音识别目标的至少一个上下文信息进行建模。可创建上下文模型150。上下文模型150可限制识别空间。因此，通过限制识别空间，可以限制搜索的空间，从而使得识别时间和计算量减少并且语音识别准确度提高。
[0074]此处，上下文信息意指作为语音识别目标的至少一个字串(word string词语符列)。例如，上下文模型150可被建模成语音网格形式，在该语音网格形式中，按顺序连接作为语音识别目标的至少一个字串的音素。为了以语音网格形式建模上下文模型150，根据文本至音素(T2P)转换或者字素至音素(G2P)转换，上下文信息中包括的字串可以被转换成音素。上下文信息可根据语音识别装置100的目的而变化。例如，上下文信息可以是用于各种控制命令的字中的至少一个(一些)、搜索电话簿中的电话号码的名称、以及搜索多媒体的名称。
[0075]此外，语音识别器130可测量用户讲话的长度，并且基于讲话长度将权重值施加给候选组以识别用户的语音。在下文中，将参考图2详细描述语音识别器130的操作。
[0076]图2是根据本公开的实施方式的语音识别装置100的语音识别器130的控制框图。
[0077]参考图2，语音识别器130可包括特征提取器131、候选组搜索单元132、讲话长度测量单元133、权重施加单元134、以及输出单元135。
[0078]特征提取器131可从语音信号中提取信号特征。尽管每个人使用相同的语言，然而因为语音根据人的性别、年龄、发音等而有所不同，并且根据语音是否是单独发音或者是否是一个字或者一个句子而有所不同，所以必须检测能够充分代表语音的这些特征的特征。
[0079]因此，特征提取器131可从语音中提取特征向量，以去除不必要地重叠语音信号，并且在提高相同语音信号之间的一致性的同时，提高不同语音信号之间的区别度。
[0080]例如，特征提取器131可使用线性预测系数、倒谱(Cepstrum)、梅尔倒谱系数(MFCC)、滤波器组能等从预处理的语音信号中提取特征向量。
[0081]候选组搜索单元132可基于声学模型140和上下文模型150创建对应于语音信号的候选组。
[0082]更具体地，候选组搜索单元132可根据通过特征提取器131提取的特征向量从声学模型140中识别对应于语音信号的音素串。如上所述，因为通过对应于每个音素的特征向量(或者特征向量组)可建模声学模型140，所以候选组搜索单元132可比较通过特征提取器131所提取的特征向量与声学模型140，以识别对应于语音信号的音素串。
[0083]候选组搜索单元132可通过基于音素串搜索上下文模型150中的候选项，来创建候选组。更具体地，候选组搜索单元132可比较音素串与上下文模型150，以搜索在上下文模型150中具有高度可靠性的候选项，从而创建候选组。
[0084]如上所述，候选模型150可被建模成语音网格形式。因此，候选组搜索单元132可利用上下文模型150的语音网格而模式化匹配对应于输入的语音信号的音素串，以计算每个识别目标上下文的语音网格与音素串之间的可靠性程度。
[0085]S卩，因为语音网格与音素串更为相似，所以确定为高度可靠性，并且因为语音网格与音素串较为不相似，所以确定为低度可靠性。
[0086]更详细地，候选组搜索单元132可执行N条最佳搜索N-best以创建候选组。更具体地，候选组搜索单元132可搜索在上下文模型150中具有最高可靠性程度的N个候选项以创建候选组。例如，候选组搜索单元132可选择具有最高可靠性程度的5个候选项以创建候选组。
[0087]讲话长度测量单元133可测量用户讲话的长度。更具体地，讲话长度测量单元133可检测讲话开始(BoS)和讲话结束(EoS)，并且计算BoS与EoS之间的差以计算用户讲话的长度。
[0088]权重施加单元134可基于通过讲话长度搜索单元133测量的讲话长度确定被施加给候选组的可靠性权重值。更具体地，权重施加单元134可将可靠性权重值确定为使得包括在候选组中的候选项之中具有与讲话长度对应的音节长度的候选项具有高度可靠性。
[0089]用户讲话的长度通常与音节长度成比例。例如，单音节的讲话长度通常短于三个音节的讲话长度。因此，通过测量用户的讲话长度并且将更高可靠性权重值施加给具有更高可能性(即，对应于测量的讲话长度)的音节长度的候选项，可以提高语音识别的成功率。
[0090]此外，通过根据讲话长度施加可靠性权重值，可以改进对具有相对较短音节长度的单音节的识别性能。
[0091]可提前设置可靠性权重值。可以根据音节长度使用关于用户讲话长度的统计信息设置可靠性权重值。此外，可以基于来自使用语音识别装置100的用户的实际讲话长度设置可靠性权重值。
[0092]例如，语音识别装置100 (见图1)可基于用户从通过对用户语言的识别所提供的N条最佳结果所选择的候选项的音节长度与用户的实际讲话长度之间的关系而确定可靠性权重值。
[0093]输出单元135可再配置施加了可靠性权重值的候选组并且输出最终的候选组。此时，输出单元135可输出具有最高可靠性程度的上下文候选项或者输出小于通过候选组搜索单元132所创建的N个候选项的候选项。
[0094]图3是根据

完整全部详细技术资料下载

当前第2页1 2 3 4 5