改进依赖上下文的语音识别器对环境变化的鲁棒性的制作方法

文档序号：2818945阅读：170来源：国知局

专利名称：改进依赖上下文的语音识别器对环境变化的鲁棒性的制作方法
技术领域：
本发明的实施例涉及语音识别领域；更具体地，涉及改进语音识别器对环境变化的鲁棒性。
背景技术：
许多通用语音识别器使用隐马尔可夫模型(HMM)进行构建并且以语音单位水平 (例如，音素(phone)、单词、功能词、音节、开始和最终音节等)处理语音。典型地，音素语音单位是已经从单词中所分解的在感知上唯一的声音序列的音频(例如，语音)的一部分。例如，短语“I Want”可以包括五个不同音素(在TIMIT音素系统中为ay、w、ao、η和t)。每个音素可以包括在多个特征或帧中(其数目典型地依赖于音素的长度，并且其典型地对于不同讲话者、语音速度、感情状态等而有所不同)。典型地，HMM包括多个状态以处理每个音素的不同部分。例如，三状态HMM分别在初始、主体(body)和最终状态中处理每个音素的开头、核心和结尾。在语音识别中使用从左到右的HMM，其中初始HMM状态被定义为入口 (entry)模型状态，其不连接自除其自身之外的任何其它入口状态，最终HMM状态为终点 (terminal)模型状态，其并不连接到除其自身之外的任何其它状态，并且主体HMM状态为任意的其它中间状态。之前的定义还覆盖了具有跳过连接的状态的从左到右的HMM。典型的语音识别器使用独立于上下文的HMM(例如，单音HMM)或依赖上下文的HMM (例如，双音(左或右)HMM、半音HMM、三音HMM等)。独立于上下文的HMM在处理每个基本语音单位时并不考虑相邻的语音单位。相反，依赖于上下文的HMM在处理每个基本语音单位时考虑相邻的语音单位。例如，典型的双音HMM考虑单个相邻音素(在左双音HMM中考虑之前的音素，而在右双音HMM中考虑后续的音素)。典型的三音HMM中的每个状态考虑之前和后续的音素。之前对初始状态、主体状态和最终状态的定义对于所有从左至右的HMM单音、双音和三音都是有效的。其它依赖上下文的HMM包括半音，其是两个相连接的子音素上下文单位。半音包括左半音部分和右半音部分。每个半音部分对音素的一部分进行建模，仅具有一种上下文依赖性，并且是正常HMM。左半音部分对音素开头进行建模并且考虑之前的音素，而右半音部分对音素结尾进行建模并且考虑后续的音素。半音能够对音素区域进行均勻或非均勻建模。当半音对音素区域进行非均勻建模时，半音部分之一是支配性的 (dominant)并且具有比其它部分更多的状态。例如，在左支配性半音中，左半音部分具有比右半音部分更多的状态。在右支配性半音中，右半音部分具有比左半音部分更多的状态。半音的初始状态是左半音部分中的入口模型状态，并且不连接自除其自身之外的任何其它入口状态。半音的最终状态是右半音部分中的终点模型状态并且不连接到除其自身之外的任何其它状态。半音的(一个或多个)主体状态是半音的(不同于初始状态和最终状态)的其它状态，并且可以包括在左半音部分和/或右半音部分中。以下表格使用典型的独立于上下文的TIMIT单音，以及典型的依赖上下文的左双音、右双音、三音和半音说明了句子“I want”的音素标音。
权利要求
1.一种改进用于应用的依赖上下文的语音识别器对环境变化的鲁棒性的装置，包括存储用于语音识别训练的声音的训练数据库；存储依赖上下文的语音识别器所支持的多个单词的字典；以及利用训练数据库和字典对一个或多个多状态隐马尔可夫模型(HMM)的集合进行训练的语音识别器训练模块，其中所述语音识别器训练模块进一步对每个HMM的每个状态执行非统一状态集群化过程，所述非统一状态集群化过程对每个HMM的至少一些状态使用不同的非统一集群阈值以更重度地集群化并相应减少在经验上受一种或多种上下文依赖性影响较小的每个HMM的状态中的那些状态的观察分布的数目。
2.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是具有其上下文依赖性已经被消除的最终状态的左双音HMM，其中所述最终状态是左双音的终点模型状态，且并不连接到除其自身之外的左双音的任何其它状态。
3.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是具有其上下文依赖性已经被消除的初始状态的右双音HMM，其中所述初始状态是右双音的入口模型状态，并且没有来自除其自身之外的任何其它状态的连接。
4.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是具有初始状态、主体状态和最终状态的左双音HMM，所述初始状态、主体状态和最终状态均具有不同的非统一集群阈值，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态，并且其中所述非统一状态集群化过程对最终状态进行比主体状态和初始状态更重度地集群化，并且对主体状态进行比初始状态更重度地集群化。
5.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是具有初始状态、主体状态和最终状态的右双音HMM，所述初始状态、主体状态和最终状态均具有不同的非统一集群阈值，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态，并且其中所述非统一状态集群化过程对初始状态进行比主体状态和最终状态更重度地集群化，并且对主体状态进行比最终状态更重度地集群化。
6.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是至少包括初始状态、主体状态和最终状态的多状态三音，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态；并且其中所述语音识别器训练模块对所述多状态三音进行训练以使得初始状态仅上下文依赖于之前音素，所述主体状态上下文依赖于之前音素和后续音素，并且所述最终状态仅上下文依赖于后续音素。
7.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是至少包括初始状态、主体状态和最终状态的半音，并且其中所述主体状态与非统一集群阈值相关联，其中所述非统一状态集群化过程大大减少所述主体状态的观察分布数目，其中所述初始状态是所述半音的左半音部分的入口模型状态并且不连接自除其自身之外的任何其它状态，其中所述最终状态是所述半音的右半音部分的终点模型状态并且不连接到除其自身之外的任何其它状态，并且其中所述主体状态是不同于初始状态和最终状态的状态并且被包括在左半音部分或右半音部分中。
8.如权利要求1所述的装置，其中所述多状态HMM中的至少一个是多状态并行系统组合，其组合了多状态左双音HMM、多状态右双音HMM、多状态三音，以及处于所述状态之一的至少一个单音中的一个或多个。
9.一种改进依赖上下文的语音识别器对环境变化的鲁棒性的方法，包括接收对隐马尔可夫模型(HMM)进行训练的选择，所述HMM具有多个状态，并且其中所述多个状态中的至少一些与不同的非统一集群阈值相关联；对所述HMM进行训练，包括使用非统一集群阈值对所述多个状态中的每一个执行非统一状态集群化过程以更重度地集群化并相应减少在经验上受一种或多种上下文依赖性影响较小的多个状态中的那些状态的观察分布数目；以及存储经训练的HMM。
10.如权利要求9所述的方法，其中所述HMM是右双音并且包括初始状态以及一个或多个其它状态，其中所述初始状态是不连接自一个或多个其它状态的入口模型状态，其中所述右双音的初始状态与非统一集群阈值相关联，并且其中通过在非统一状态集群化过程期间应用与所述初始状态相关联的非统一阈值来消除所述初始状态的上下文依赖性。
11.如权利要求9所述的方法，其中所述HMM是右双音并且至少包括初始状态、主体状态和最终状态，所述初始状态、主体状态和最终状态均与不同的非统一集群阈值相关联，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态；并且其中所述非统一状态集群化过程使用不同的非统一集群阈值以对初始状态进行比主体状态和最终状态更重度地集群化，并且对主体状态进行比最终状态更重度地集群化。
12.如权利要求9所述的方法，其中所述HMM是左双音并且包括最终状态以及一个或多个其它状态，其中所述左双音的最终状态与非统一集群阈值相关联，其中所述最终状态是并不连接到一个或多个其它状态的终点模型状态，并且其中通过在非统一状态集群化过程期间应用与所述最终状态相关联的非统一阈值来消除所述最终状态的上下文依赖性。
13.如权利要求9所述的方法，其中所述HMM是左双音并且至少包括初始状态、主体状态和最终状态，所述初始状态、主体状态和最终状态均与不同的非统一集群阈值相关联，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态；并且其中所述非统一状态集群化过程使用不同的非统一集群阈值以对最终状态进行比初始状态和主体状态更重度地集群化，并且对主体状态进行比初始状态更重度地集群化。
14.如权利要求9所述的方法，其中所述HMM是至少包括初始状态、主体状态和最终状态的三音，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态；并且其中语音识别器训练模块对所述三音进行训练以使得初始状态仅上下文依赖于之前音素，所述主体状态上下文依赖于之前音素和后续音素，并且所述最终状态仅上下文依赖于后续音素。
15.如权利要求9所述的方法，其中HMM是至少包括初始状态、主体状态和最终状态的半音，其中所述初始状态是所述半音的左半音部分的入口模型状态并且不连接自除其自身之外的任何其它状态，其中所述最终状态是所述半音的右半音部分的终点模型状态并且不连接到除其自身之外的任何其它状态，其中所述主体状态是不同于初始状态和最终状态的状态并且被包括在左半音部分或右半音部分中，并且其中所述主体状态与非统一集群阈值相关联，并且其中所述非统一状态集群化过程大大减少所述主体状态的观察分布数目。
16.一种用于语音识别的装置，包括一个或多个均具有多个状态的经训练隐马尔可夫模型(HMM)的集合，其中所述经训练 HMM的集合通过使用非统一状态集群化过程而具有减少的在经验上受一种或多种上下文依赖性影响较小的那些状态的观察分布数目，所述非统一状态集群化过程使用对每个HMM的多个状态中的至少一些有所不同的非统一集群阈值；和在语音识别期间使用经训练多状态HMM集合中的一个或多个并且向应用提供结果的语音识别器。
17.如权利要求16所述的装置，其中所述经训练HMM的集合之一是左双音，所述左双音包括独立于上下文的最终状态，并且包括一个或多个依赖上下文的其它状态，其中所述最终状态是左双音的终点模型状态，且并不连接到左双音HMM的除其自身之外的任何其它状态。
18.如权利要求16所述的装置，其中所述经训练HMM的集合之一是右双音，所述右双音包括独立于上下文的初始状态，并且包括一个或多个依赖上下文的其它状态，其中所述初始状态是右双音的入口模型状态，并且没有来自除其自身之外的任何其它状态的连接。
19.如权利要求16所述的装置，其中所述经训练HMM的集合之一是至少包括初始状态、主体状态和最终状态的三音，所述初始状态仅上下文依赖于之前音素，所述主体状态上下文依赖于之前音素和后续音素，并且所述最终状态仅上下文依赖于后续音素，其中初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态。
20.如权利要求16所述的装置，其中所述经训练HMM的集合之一是至少包括初始状态、主体状态和最终状态的半音，其中初始状态是所述半音的左半音部分的入口模型状态并且不连接自除其自身之外的任何其它状态，其中所述最终状态是所述半音的右半音部分的终点模型状态并且不连接到除其自身之外的任何其它状态，其中主体状态是不同于初始状态和最终状态的状态并且包括在左半音部分或右半音部分中，其中所述主体状态与非统一集群阈值相关联，并且其中所述非统一状态集群化过程大大减少所述主体状态的观察分布数目。
21.如权利要求16所述的装置，其中所述经训练HMM的集合之一是并行系统组合HMM，其在左双音HMM、右双音HMM、三音HMM和单音HMM中的两个或多个之间建立连接；并且其中所述语音识别器动态确定跨所述并行系统组合HMM中不同HMM的最佳路径。
22.—种在计算设备中用于执行语音识别的方法，包括接收音频信号；将所述音频信号转换为数字音频；从所述数字音频生成特征矢量；使用具有多个状态的经训练隐马尔可夫模型(HMM)从所述特征矢量标识语音单位，其中所述HMM通过使用非统一状态集群化过程而具有减少的在经验上受一种或多种上下文依赖性影响较小的那些状态的观察分布数目，所述非统一状态集群化过程使用对HMM的至少一些状态有所不同的非统一集群阈值；标识由所述语音单位所形成的语音成分；和将所述语音成分提供给应用。
23.如权利要求22所述的方法，其中所述经训练HMM是包括独立于上下文的最终状态并且包括一个或多个依赖上下文的其它状态的左双音，其中所述最终状态是左双音的终点模型状态，且并不连接到一个或多个其它状态。
24.如权利要求22所述的方法，其中所述经训练HMM是包括独立于上下文的初始状态并且包括一个或多个依赖上下文的其它状态的右双音，其中所述初始状态是右双音的入口模型状态，并且没有来自一个或多个其它状态的连接。
25.如权利要求22所述的方法，其中所述经训练HMM是至少包括初始状态、主体状态和最终状态的三音，其中所述初始状态仅上下文依赖于之前音素，所述主体状态上下文依赖于之前音素和后续音素，并且所述最终状态仅上下文依赖于后续音素，其中所述初始状态是不连接自除其自身之外的任何其它状态的入口模型状态，其中所述主体状态是初始状态和最终状态之间的中间状态，并且其中所述最终状态是并不连接到除其自身之外的任何其它状态的终点模型状态。
26.如权利要求22所述的方法，其中所述经训练HMM是至少包括初始状态、主体状态和最终状态的半音，其中所述初始状态是所述半音的左半音部分的入口模型状态并且不连接自除其自身之外的任何其它状态，其中所述最终状态是所述半音的右半音部分的终点模型状态并且不连接到除其自身之外的任何其它状态，其中主体状态是不同于初始状态和最终状态的状态并且包括在左半音部分或右半音部分中，其中所述主体状态与非统一集群阈值相关联，并且其中所述非统一状态集群化过程大大减少所述主体状态的观察分布数目。
27.如权利要求22所述的方法，其中所述经训练HMM是并行系统组合HMM，其在左双音HMM、右双音HMM、三音HMM和单音HMM中的两个或多个之间建立连接；并且在从所述特征矢量标识语音单位时动态确定跨所述并行系统组合HMM中不同HMM的最佳路径。
全文摘要
本发明涉及改进依赖上下文的语音识别器对环境变化的鲁棒性。一种改进用于应用的依赖上下文的语音识别器对环境变化的鲁棒性的装置，其包括存储用于语音识别训练的声音的训练数据库，存储语音识别器所支持的单词的字典，以及利用训练数据库和字典对一个或多个多状态隐马尔可夫模型(HMM)的集合进行训练的语音识别器训练模块。所述语音识别器训练模块对每个HMM的每个状态执行非统一状态集群化过程，其中包括对每个HMM的至少一些状态使用不同的非统一集群阈值以更重度地集群化并相应减少在经验上受一种或多种上下文依赖性影响较小的每个HMM的状态中的那些状态的观察分布数目。
文档编号G10L15/14GK102254555SQ20111003100
公开日2011年11月23日申请日期2011年1月28日优先权日2010年5月21日
发明者陈 R., 梅宁德斯-皮达尔 X. 申请人:索尼电脑娱乐公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：X. 梅宁德斯-皮达尔;R. 陈
技术所有人：X.梅宁德斯-皮达尔;R.陈
我是此专利的发明人

上一篇：基于音频内容的非均匀离散余弦变换音频可靠性认证方法
上一篇：音频异常事件检测系统及其标定方法