语音模型的噪声适应系统及方法，语音识别的噪声适应程序的制作方法

文档序号：2821728阅读：192来源：国知局

专利名称：语音模型的噪声适应系统及方法，语音识别的噪声适应程序的制作方法
技术领域：
本发明涉及语音模型的噪声适应系统、噪声适应方法以及噪声适应程序。本发明尤其涉及一种语音模型的噪声适应系统、一种噪声适应方法以及一种噪声适应程序，它们利用要识别的有噪声语音来适应利用隐式马尔可夫模型(HMM)对语音特征建模所生成的纯语模型，从而改进对噪声环境的识别率。
背景技术：
Zhipeng Zhang等在标题为“Effects of tree-structure clustering innoise adaptation using piecewise linear transformation”(Proceedingsof 2002 Autumn Meeting of Acoustical society of Japan，pp.29-30)一文中说明树形结构分段线性变换方法。根据该文中说明的该方法，噪声被群集，根据群集(clustering)的结果生成树形结构有噪声语音模型空间，提取要识别的输入有噪声语音的语音特征参数，从该树形结构有噪声语音模型空间选择一个最优模型，并且对该选定的模型施加线性变换以提高该选定模型的似然性，从而改进输入语音的准确性。
在Zhipeng Zhang等的标题为“Study on tree-structure clusteringin noise adaptation using piecewise linear transformation”(2003Spring Meeting of Acoustical Society of Japan，pp.37-38)的一文中说明另一种方法，其中顺序地并且分层地划分噪声特征以产生添加噪声的语音模型的树形结构。在该方法中，首先通过信器噪比(以下简写为SNR)群集添加噪声的语音并且接着对每个SNR条件提供树形结构模型以产生树形结构有噪声语音模型空间。
图6示出树形结构噪声语音模型的一个例子。在图6中，为三种SNR条件中的每一个提供树形结构有噪声语音模型。在图6中，用K1表示SNR＝5分贝的树形结构模型，用K2表示SNR＝10分贝的树形结构模型，以及用K3表示SNR＝15分贝的树形结构模型。每个树形结构模型K1-K3的顶节点(根)代表干净语音(clean speech)模型。每个树形结构的较高层代表噪声特征的全局特征而较低层代表局部特征。
日本专利公开2002-14692号(尤其图2和3以及摘要)说明一种技术，其中事先群集大量的噪声样本，根据这些样本生成声学模型并且对学习数据添加通过群集选择的噪声，从而能利用少量噪声样本有效学习以达到高识别性能。
日本专利公开2002-91484(尤其摘要)说明一种技术，其中为每个树形结构群集生成一个语言模型，以用于语音识别。
日本专利公开2000-298495(具体地，摘要和权利要求2)说明组合一些树形结构以形成新的树形结构。
在上面提到的“Study on tree-structure clustering in noiseadaptation using piecewise linear transformation”一文的方法中，分析要识别的输入有噪声语音以提取特征参数串，并且从树形结构有噪声语音模型空间选择最优模型。对选定的最优模型施加线性变换以使似然性最大化。因此，该方法存在识别涉及两步搜索的缺点即首先在每个SNR条件下选择最优模型，接着在所有SNR模型中选择最佳模型。从而问题是处理SNR变化的有噪声语音的困难以及计算这些条件的高成本。
上面提到的这些文献中说明的技术都不能解决这些问题。
本发明的目的是提供一种用于语音识别的噪声适应系统、噪声适应方法和噪声适应程序，其通过利用集成噪声和SNR的单个树形结构生成语音模型可以方便地处理带有变化SNR的有噪声语音并且可使计算成本最小化。

发明内容
依据本发明的第一方面，提供一种语音模型的噪声适应系统，用于在噪声环境下使得用于任何噪声的语音模型适应要识别的语音，该语音模型是通过利用噪声数据库中存储的噪声数据以及干净语音数据学习的，该系统包括用于群集该噪声数据库中存储的所有噪声数据的群集装置；用于根据该群集装置执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生装置；用于提取要识别的输入有噪声语音的语音特征参数的参数提取装置；用于从由该语音模型空间产生装置产生的树形结构有噪声语音模型空间选择一个最优模型的选择装置；以及用于对该选择装置选择的模型施加线性变换以使该模型提供进一步增加的似然性的线性变换装置。如上面说明那样产生的单个树性结构有噪声语音模型空间允许方便地处理SNR变化的有噪声语音并节省计算成本。
依据本发明的第二方面，提供依据该第一方面的语音模型噪声适应系统，其中该群集装置通过根据信噪比条件向语音添加噪声产生添加噪声的语音，减掉所生成的添加噪声语音的语音倒频谱的平均值，产生每段生成的添加噪声的语音的高斯分布模型，以及计算各个添加噪声的语音段之间的似然性以产生似然性矩阵，从而提供群集结果。这使得能群集添加噪声的语音。
依据本发明的第三方面，提供依据第一或第二方面的噪声适应系统，其中该选择装置选择一个对由该参数提取装置提取的语音特征参数提供最高似然性的模型。通过选择提供最高似然性的模型，可以提高语音识别的准确性。
依据本发明的第四方面，提供依据该第三方面的噪声适应系统，其中该选择装置通过从最高层到最低层向下地搜索树形结构有噪声语音模型空间来选择模型。通过从最高层向最低层搜索该树形结构，可以选出最优模型。
依据本发明的第五方面，提供依据第一到第四方面之一的噪声适应系统，其中该线性变换装置根据由该选择装置选择的模型进行线性变换以提高似然性。通过进行线性变换，可使似然性最大化。
依据本发明的第六方面，提供一种噪声适应方法，用于在噪声环境下使得用于任何噪声的语音模型适应要识别的语音，该语音模型是通过利用噪声数据库存中存储的噪声数据以及干净语音数据学习的，该方法包括群集该噪声数据库中存储的所有添加噪声的语音数据的群集步骤；根据该群集步骤执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤；提取要识别的输入有噪声语音的语音特征参数的参数提取步骤；从该语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤；以及对由该选择步骤中选择的模型施加线性变换以使该模型提供进一步增加的似然性的线性变换步骤。该单个树形结构有噪声语音模型空间允许方便地处理SNR变化的有噪声语音和节省计算成本。
依据本发明的第七方面，提供一种噪声适应程序，用于在噪声环境下使得用于任何噪声的语音模型适应要识别的语音，该语音模型是通过利用噪声数据库中存储的噪声数据和干净语音数据学习的，该程序包括群集该噪声数据库中存储的所有添加噪声的语音数据的群集步骤；根据该群集步骤执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤；提取要识别的输入有噪声语音的语音特征参数的参数提取步骤；从该语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤；以及对该选择步骤中选择的模型施加线性变换以使该模型提供进一步增加的似然性的线性变换步骤。该单个树形结构有噪声语音模型空间允许方便地处理SNR变化的有噪声语音和节省处理成本。
实际上，依据本发明，利用噪声数据库(以下简写成DB)中的所有噪声数据段，根据每个SNR条件把添加噪声的语音群集到单个树形结构中。根据SNR以及噪声特征在树形结构中分割添加噪声的语音空间，并且提取要识别的输入有噪声语音的声音特征参数串。接着，根据特征参数串从该树形结构模型空间选择一个最优模型并对该模型施加线性变换。
生成集成有噪声和SNR的单个树形结构以便学习最有可能的添加噪声的语音模型。这样，可以实现高识别准确性。另外，本发明的方法不需要在每个SNR条件下选择最优模型。替代地，本发明的方法涉及在所有SNR模型中选择最佳模型的仅为单步的搜索。从而，可以方便地处理带有变化的SNR的有噪声语音并且可以节省计算成本。
依据本发明的第一、第六和第七方面，通过使用单个树形结构有噪声语音模型空间，本发明具有容易处理带有变化的SNR的有噪声语音和可以节省计算成本的优点。
依据本发明的第二方面，通过根据信噪比条件向语音添加噪声、减掉每一段所生成的添加噪声的语音的语音倒频谱的平均值、产生每一段添加噪声的语音的高斯分布模型以及计算添加噪声的语音各段之间的似然性来产生似然性矩阵，本发明具有可以群集添加噪声的语音的优点。
依据本发明的第三方面，通过选择对提取的语音特征参数提供最高似然性的模型，本发明具有改进语音识别准确性的优点。
依据本发明的第四方面，本发明具有可以通过从最高层向最低层搜索树形结构有噪声语音模型空间得到最优模型来选择最优模型的优点。
依据本发明的第五方面，本发明具有通过基于选定的模型进行线性变换以提高似然性，从而可使似然性最大化的优点。

图1是由依据本发明的语音模型的噪声适应系统执行的处理的流程图；图2是方块图，示出根据本发明的一实施例的语音模型的噪声适应系统的配置；图3是功能方块图，其中根据该系统中的操作流重新排列图2中示出的部件；图4是概念图，示出该系统中选择树形结构有噪声语音模型空间中的最优模型的过程；
图5示出通过采用本系统适应的语音HMM达到的字准确度；以及图6是概念图，示出常规语音模型的噪声适应系统中采用的选择树形结构有噪声语音模型空间中的最优模型的过程。
具体实施例方式
现参照各

本发明的各实施例。下面说明所引用的各图中用相同的参考数字标记相同的部分。
依据本发明，通过利用SNR和音质按树形结构产生有噪声语音模型空间。为了产生有噪声语音模型空间，利用一个噪声数据库根据每个SNR条件向干净语音添加噪声以产生添加噪声的语音。接着，将噪声特征表示为单个树形结构以提供模型，其中该树形结构的较高层代表噪声特征的全局特征而较低层应代表局部特征。通过以自上向下的方式从根向下沿着该树形结构选择最优模型，可以选出噪声的最优分段空间。
由于在群集过程中和模型学习过程中相容地使用添加噪声的语音，所以可以学习提供最高似然性的添加噪声的语音模型并且可以实现识别准确度的改进。
(本系统的配置)参照图2说明用来实现上述过程的配置，图2是示出依据本发明的噪声适应系统的一实施例的方块图。如图2中所示，依据本发明的噪声适应系统包括树形结构模型存储器1，特征提取单元2，语音识别单元3，模型选择及确定单元4，模型线性变换适应单元5以及识别结果存储器6。本系统是作为终端设备、移动终端、服务器计算机、个人计算机，以及其他包括上述单元和存储器的设备来实现的。
树形结构模型存储器1存储已经根据添加噪声的语音的群集结果按单个树形结构建立的添加噪声的语音HMM。
特征提取单元2分析对它输入的语音数据并且把该数据变换成各特征向量。
语音识别单元3对于从输入语音数据经时间变换得到的时间序列特征向量应用Viterbi算法以得到提供最高似然性函数的模型序列。
模型选择及确定单元4从树形结构模型存储器1中存储的模型中选择一个提供最高似然性的最优模型。
模型线性变换适应单元5对由模型选择及确定单元4选择的模型施加线性变换从而使它的似然性最大化。
识别结果存储器6存储语音识别结果。
(系统的操作)参照图1和3说明该具有上面说明的结构的系统的操作。图3是一个功能方块图，其中根据该系统中的操作流程重新排列图2中示出的部件1-6。图1是该系统完成的处理的流程图。
该系统中进行语音识别的过程遵循下面说明的步骤S1至S9。
步骤S1(产生添加噪声的语音的步骤)根据每个SNR条件利用噪声数据库中存储的每一段噪声数据对干净语音添加噪声，从而产生添加噪声的语音。
步骤S2(减掉添加噪声的语音的均值的步骤)对步骤S1产生的添加噪声的语音施加CMS(倒频谱均值相减)。CMS是一项减掉语音倒频谱的平均值的技术。即，计算某时段内的所有语音数据帧的值的平均倒频谱，并且从每帧的向量中减掉该平均值。倒频谱是通过傅里叶变换得到的功率谱的对数的傅里叶变换。在标题为“FuruiCepstral Analysis Technique For Automatic Speaker Verification，IEEE Transaction on Accustical Speech and Signal Processing，Vol.ASSP-29，pp.254-272，1981”的文献中说明了CMS。
步骤S3(产生添加噪声的语音模型的步骤)通过Baum-Welch算法产生每个添加噪声的语音的高斯混合模型(GMM)。Baum-Welch算法是一种从一个适当的初始值开始逐步接近最佳值的重复方法。在Seiichi Nakagawa的题目为“Speech recognition with probabilisticmodel”(Institute of Electronics，Information and CommunicationEngineers，1988)的文献中说明Baum-Welch算法。
步骤S4(群集添加噪声的语音的步骤)利用GMM计算添加噪声的语音段之间的似然性以产生似然性矩阵。使用基于该似然性矩阵的SPLIT法来连续地群集该添加噪声的语音。在SPLIP(分割)法中，顺序地分割提供最大失真的各群集。由此，可以产生任何数量的群集。简单地通过给出群集数量可以全自动得到群集结果。Sugamura等在语音委员会(Speech Committee)文档(S82-64，1982)中说明SPLIT法。
步骤S5(施加分段线性变换适应)通过步骤S4提供添加噪声的语音的树形结构群集结果。在树形结构模型存储器1中存储该群集结果。该群集结果是一个集成噪声和SNR的单个树形结构模型。此外，该群集结果表示树形结构形式下的特征添加噪声的语音的全局特征在该树形结构的较高层表示，语音的局部特征在较低层表示。
对树形结构模型存储器1中存储的群集结果施加分段线性变换。在上面提到的Zhipeng Zhang等的“Effects of tree-structure clusteringin noise adaptation using piecewise linear transformation”一文中说明了分段线性变换。具体地，进行下面说明的步骤S6至S9。
步骤S6(提取特征量的步骤)特征提取单元2从要识别的添加噪声的语音数据提取特征量。在特征量提取中，对输入的语音数据的每一帧施加LPC(线性预测编码)分析以得到作为特征参数序列的时间序列特征参数向量，例如倒频谱或Δ倒频谱。
步骤S7(选择最优模型)参照图4说明该选择最优模型的步骤。图4的顶节点(根)代表干净语音模型。在根下面，存在N个模型即SNR-1到SNR-N。这N个模型SNR-1到SNR-N代表从在所有SNR条件下通过添加所有类型的噪声产生的语音而学习到的各模型。
它们下面的子节点代表从根据群集结果添加某些选定类型的噪声产生的语音数据而学习到的各模型。位于该树形结构底部是从通过只添加某单种类型的噪声产生的语音而学习到的各模型。从而，全局噪声特征在该树形结构的较高层表示而局部噪声特征在较低层表示。
和上面提到的Zhipeng Zhang等的“Study on tree-structureclustering in noise adapt ation using piecewise linear transformation”一文中的方法不同，本发明的方法不需要在各个SNR条件下选择最优模型。替代地，它只需要在所有的SNR模型中选择了最佳模型的情况下的单步搜索。
回到图1，为了进行识别，首先利用步骤S4得到的特征参数序列计算一个给定干净模型的似然性。这是通过图1中示出的语音识别单元3执行的。
接着，语音识别单元3利用根以下的各模型计算各似然性。模型选择及确定单元4利用这样算出的似然性值来选择一个最优模型。具体地，这是通过遵循以下进程实现的。保留提供比根处的干净模型的似然性更高似然性的各模型。接着利用它们下面的子节点处的各模型计算这些SNR条件下的似然性。二个子节模型的似然性和父节点的似然性比较。如果一个子节点模型提供最高似然性，计算该节点下面的各子节点模型的似然性。另一方面，如果父节点的似然性要比子节点模型的似然性高，则不进行进一步的计算并且把该父节点确定为最优节点。
在图4中，用实线表示搜索路径。可以重复该计算以找到最优空间。此外，不同SNR条件下的最高似然性模型的似然性彼此进行比较以确定它们之中的提供最高似然性的模型被选为整个有噪声空间中的最优模型。在图4中示出的例子里，在条件SNR-1下第四节点提供最高似然性。在图4中的SNR-N条件下，第五节点提供最高似然性。不同SNR条件下的最高似然性模型的似然性彼此进行比较以选择这些最高似然性节点之中提供最高似然性的模型。
步骤S8(线性回归)模型线性变换适应单元5对选出的模型施加最大似然性线性回归(以下缩写为MLLR)以提供进一步改进的似然性。在标题为“Mean and variance adaptation within the MLLR framework”(M.J.F Gales等，Computer Speech and Language，pp.249-264，1996)的文献中说明了MLLR。具体地，根据最大似然性准则，利用识别产生的音素序列估计线性变换矩阵，并且通过线性变换修改HMM高斯分布的均值和方差(线性回归)。
步骤S9(再识别)当输出语音识别的结果时，语音识别单元3利用步骤S8得到的模型进行再识别并在识别结果存储器6中存储该再识别结果。
在本发明的噪声适应系统中，如已说明那样，利用噪声数据库中的所有噪声数据段，在每一种SNR条件下对语音添加噪声并且学习添加噪声的语音模型。计算这些SNR条件下所有噪声模型之间的距离并且群集添加噪声的语音。根据添加噪声的语音群集的结果，产生一个具有树形结构的语音模型。从而，可以提供一个其中集成噪声和SNR的树形结构模型，并且产生一个树形结构有噪声语音模型空间。在特征提取步骤中，分析要识别的输入有噪声语音以提取特征参数序列，并且彼此比较各HMM的似然性以便从该树形结构有噪声语音模型空间中选择一个最优模型。对该从有噪声语音模型空间中选择的模型应用线性变换以便进一步提高似然性。
概括之，依据本发明，在每个SNR条件下利用噪声数据库中存储的每一段添加噪声的语音数据对干净语音添加噪声以产生添加噪声的语音(图1中的步骤S1)。群集添加噪声的语音以形成单个树形结构添加噪声的语音模型空间。在该添加噪声的语音模型空间中，对干净语音添加属于各树形结构节点的每段噪声以产生添加噪声的语音模型(图1中的步骤S3)。计算该添加噪声的语音树形结构模型空间里的各似然性(图1的步骤S4)，并且从顶部向下沿着该树形结构选择最优模型(图1中的步骤S7)。基于这样选择的适应语音模型序列的模型参数，进行线性变换以使似然性最大化(图1中的步骤S8)。
事实上，依据本发明，产生一个其中集成噪声和SNR的单个树形结构添加噪声的语音模型空间，以替代用于各个SNR的各树形结构添加噪声的语音模型空间。由此，可以方便地处理带有变化的SNR的有噪声语音并且可以节省计算成本。
不仅在模型学习过程中而且还在群集处理中使用添加噪声的语音。由于在群集和模型学习中相容地使用添加噪声的语音，所以可以学习最可能的添加噪声的语音模型。从而可以达到更高的识别准确度。
(例子)本发明人检查了本发明执行的有噪声对话语音识别的效果。下面说明一个实验例子。
该实验中使用的语音HMM是一个通过利用基于树的群集产生的共享状态、和发言者无关但和上下文环境有关的音素HMM。共使用25维作为特征量MFCC(唛耳(Mel)频率倒频谱系数)12和对数功率(logpower)的一阶导数。“唛耳频率”是一个基于人耳的灵敏性的值并且通常用来表示声音的可听程度。按如下产生MFCC对声波数据施加离散傅里叶变换并且结果值被转换成其对数表达。接着对该对数施加逆离散傅里叶变换以产生按预定间隔采样的波形。该采样值是MFCC。
下面参照图5说明本系统的效果。图5示出通过利用一给定的语音HMM达到的字准确度(基线)以及通过利用本发明系统所采纳的语音HMM达到的(本发明方法的)字准确度。图5中的垂直轴代表字准确度(％)而水平轴代表SNR(分贝)。水平轴上指出为5、10和15分贝的SNR。图5中的浓淡网格点条代表基线准确性而带条代表本发明的系统的准确度。
从图5中示出的结果可以看出，依据本发明的方法要比常规方法更加有效。在该例中，本发明的系统的字出错率要比基线的字出错率低56％，即，本发明可以提供改进的语音识别精度。
(语音模型噪声适应方法)在上面说明的噪声适应系统中实现下面的噪声适应方法。该方法是一种噪声适应方法，用于在噪声环境下使得通过利用噪声数据库中存储的噪声数据和干净语音数据已经学习到的用于任何噪声的语音模型适应要识别的语音。该方法包括群集该噪声数据库中存储的所有添加噪声的语音数据段的群集步骤(对应图1中的步骤S1至S4)；根据该群集步骤的群集结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤(对应图1中的步骤S5)；提取要识别的输入有噪声语音的语音特征参数的参数提取步骤(对应图1中的步骤S6)；从该语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤(对应图1中的步骤S7)；以及对该选择步骤中选择的模型施加线性变换以提供进一步改进的似然性的线性变换步骤(对应图1中的步骤S8)。
通过对语音识别执行该方法并采用该单个树形结构有噪声语音模型空间，可以方便地处理带有变化的SNR的有噪声语音并且可以节省计算成本。
(语音模型的噪声适应程序)可以提供一个用来实现图1中示出的过程的程序并且用该程序来控制计算机以提供如上面说明的相同效果。该程序是一个用于语音识别的噪声适应程序，其控制计算机以在噪声环境下使得通过利用噪声数据库中存储的所有噪声数据段和干净语音数据已经学习到的用于任何噪声的语音模型适应要识别的语音。该程序包括群集该噪声数据库中存储的所有添加噪声的语音数据段的群集步骤(对应图1中的步骤S1至S4)；根据该群集步骤的群集结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤(对应图1中的步骤S5)；提取要识别的输入有噪声语音的语音特征参数的参数提取步骤(对应图1中的步骤S6)；从该语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤(对应图1中的步骤S7)；以及对该选择步骤中选择的模型施加线性变换以提供进一步改进的似然性的线性变换步骤(对应图1中的步骤S8)。
通过对语音识别在计算机上执行该程序并采用该单个树形结构有噪声语音模型空间，可以方便地处理带有变化的SNR的有噪声语音并且可以节省计算成本。
用来存储该程序的存储媒体可以是未在图1中示出的半导体存储器、磁盘、光盘或者任何其它存储媒体。
自动语音识别系统通常在实验室条件下工作良好但在实际应用中它们的性能下降。实际应用中的一个问题是对背景中含有噪声或音乐的语音的识别性能的下降。本发明可以解决该噪声问题并且可以改进添加噪声的语音的识别准确性。
权利要求
1.一种语音模型的噪声适应系统，用于在噪声环境下使得用于任何噪声的语音模型适应要被识别的语音，所述语音模型是通过利用噪声数据库中存储的噪声数据以及干净语音数据学习的，所述系统包括用于群集所述噪声数据库中存储的所有噪声数据的群集装置；用于根据由所述群集装置执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生装置；用于提取要被识别的输入有噪声语音的语音特征参数的参数提取装置；用于从由所述语音模型空间产生装置产生的树形结构有噪声语音模型空间选择一个最优模型的选择装置；以及用于对由所述选择装置选择的模型施加线性变换以使所述模型提供进一步增加的似然性的线性变换装置。
2.依据权利要求1的噪声适应系统，其中所述群集装置通过根据信噪比条件向所述语音添加所述噪声来产生所述添加噪声的语音，减掉所生成的添加噪声的语音的语音倒频谱的均值，产生每一段所生成的添加噪声的语音的高斯分布模型，以及计算各段添加噪声的语音之间的似然性以产生似然性矩阵，从而提供群集结果。
3.依据权利要求1或2的噪声适应系统，其中所述选择装置选择用于对由所述参数提取装置提取的语音特征参数提供最高似然性的模型。
4.依据权利要求3的噪声适应系统，其中所述选择装置通过从最高层到最低层向下地搜索所述树形结构有噪声语音模型空间来选择模型。
5.依据权利要求1-4中之一的噪声适应系统，其中所述线性变换装置根据由所述选择装置选择的模型来进行线性变换以提高似然性。
6.一种语音模型的噪声适应方法，用于在噪声环境下使得用于任何噪声的语音模型适应要被识别的语音，所述语音模型是通过利用噪声数据库中存储的噪声数据和干净语音数据学习的，所述方法包括群集所述噪声数据库中存储的所有添加噪声的语音数据的群集步骤；根据所述群集步骤执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤；提取要被识别的输入有噪声语音的语音特征参数的参数提取步骤；从在所述语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤；以及对在所述选择步骤中选择的模型施加线性变换以使所述模型提供进一步提高的似然性的线性变换步骤。
全文摘要
本发明的目的是通过对语音识别产生具有单个树形结构的语音模型并且使用该模型便利对带有变化SNR的有噪声语音的处理和节省计算成本。在每个SNR条件下使用噪声数据库中存储的每段噪声数据计算具有该SNR条件的所有噪声模型之间的距离并且群集添加噪声的语音。根据该群集的结果，产生一个集成噪声和SNR的单个树形结构模型空间(步骤S1至S5)。在噪声提取步骤(步骤S6)，分析要识别的输入有噪声语音以提取特征参数串并且彼此比较各HMM的似然性，以从该树形结构有噪声语音模型空间选择一个最优模型(步骤S7)。对该选出的有噪声语音模型空间施加线性变换以使似然性最大化(步骤S8)。
文档编号G10L15/02GK1595497SQ20041007716
公开日2005年3月16日申请日期2004年9月10日优先权日2003年9月12日
发明者古井贞熙, 張志鹏, 堀越力, 杉村利明申请人:古井贞熙, 株式会社Ntt都科摩

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：古井贞熙;張志鹏;堀越力;杉村利明
技术所有人：古井贞熙;株式会社NTT都科摩
我是此专利的发明人