用于创建语音标签的方法以及设备的制作方法

文档序号：2825010阅读：165来源：国知局

专利名称：用于创建语音标签的方法以及设备的制作方法
技术领域：
本发明涉及语音识别技术，更具体地，涉及语音标签的创建。
背景技术：
语音识别技术，也称为自动语音识别ASR(Automatic Speech Recognition),其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、ニ进制编码或者字符序列等。从而机器可以通过语音识别和理解过程把语音信号转变为相应的文本或命令。随着信息技术领域的科技发展，人们预计，未来几年内，语音识别技术将进入エ业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。而在信息技术中，人机接口重要的部分包括语音识别，其与语音合成技术的结合可以使人们甩掉键盘，通过语音命令进行操作。这样显著地減少了设备的体积，尤其是在诸如开车的不便手动操作情况下给人们增加了便利，以及促进了有效的交互。语音识别技术的应用已经成为具有竞争性的新兴高技术产业。语音识别技术的应用可以包括语音拨号、语音导航、室内设备控制、语音文档检索、听写数据录入等。而语音标签也是语音识别技术的ー个具体应用，目前广泛应用在嵌入式系统中，如在配备有语音识别的电话上通过语音标签来拨打联系人或打开应用，或者将语音标签用于语音信息查询系统以查询信息等。通常语音标签的创建过程如下用户向系统输入注册语音，系统将其转换成代表该语音发音的标签，并将该发音标签所表示的一个词条加入到识别网络中。识别网络定义可识别的语句。此过程也称为注册过程。例如，当用户在注册过程说“李四”，系统就会创建一个标签来代表该语音发音，并将该语音标签与要表不的应用或信息关联，例如电话号码。在识别过程中，语音识别系统基于含有语音标签词条的识别网络对测试语音进行识别，以确定其内容。在现有技术中，常用的创建语音标签的方法有基于模板匹配的语音标签方法和基于隐马尔科夫模型的语音标签方法。基于模板匹配的方法中，在注册过程对注册语音提取出一个或多个模板作为该注册语音的语音标签，而在识别过程可以利用动态时间规整(dynamic time warping, DTff)算法对测试语音和模板标签进行匹配。最简单的做法就是将注册语音的特征作为模板，测试的时候将测试语音的特征同注册语音的特征进行比较，选取二者最接近的模板作为识别結果。例如，注册语音特征为JT = {x；,x2r ..,X^J5Tl为注册语音的总帧数。则Xlr可以作
为注册语音的模板，即语音标签。测试语音的特征为x;j，T2为测试语音的总帧数。测试过程即为T与Xt的匹配过程。通常采用动态时间规整算法，该算法是ー种常用的測量两个具有不同长度序列之间相似程度的算法，为简明起见在此不再赘述。基于模板匹配的方法能够更好的描述语音中时间上的相关性。然而，基于模板匹配的方法通常需要较大的空间来储存模板，且对于注册语音和测试语音的差异不稳健。
近年来，随着基于音素(或者其它语音単元，例如音节)的隐马尔科夫模型(hidden markov model, HMM)在语音识别中的普遍应用，音素序列作为语音标签已成为主流的语音标签方法。马尔科夫模型是ー个离散时域有限状态自动机，隐马尔科夫模型是指这ー马尔科夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。隐马尔科夫模型能够有效刻画语音在时间上的动态变化特征，实现语音信号特征序列与描述语音的声学単元(如音素、音节等)之间的匹配。此外，隐马尔科夫模型成熟的训练和识别算法也为其在语音识别中的应用奠定了基础。在通常的语音识别系统中，ー个音素就是ー个包含N个状态的HMM，ー个字(或者音节)就是构成该字的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是字和静音组合起来的HMM，其状态的输出为声学特征。在该方法中，通过对注册语音进行音素识别而得到音素序列来作为该注册语音的语音标签。基于隐马尔科夫模型的语音标签方法将音素(或者其它语音単元)序列作为语音标签，其相比模板标签占用内存较少。其次，音素序列的标签词条更容易和非语音标签词条结合以构成新的识别网络。这都有助于增加语音标签系统所允许的词条数目。但是，音素序列的语音标签方法也有一定的不足首先，音素识别错误是不可避免的，这会导致音素序列的语音标签不能完全代表注册语音的发音，由此造成识别错误。此外，隐马尔科夫模型HMM各状态输出概率分布是相互独立的，这与语音參数向量随时间变化的连续性相矛盾。因此在隐马尔科夫模型中这种状态之间不相关的假定，导致其不能很好的描述语音中时间上的相关性。

发明内容
为此，本发明提供了一种用于创建语音标签的方法和设备，该方法结合基于模板匹配的语音标签方法和基于隐含马尔科夫模型的语音标签方法，克服上述二者的缺点，改善了语音标签系统的性能。根据本发明的实施例的ー个方面，提供了用于创建语音标签的方法，可以包括基于隐马尔科夫声学模型针对注册语音生成第一语音标签，其中第一语音标签与特定状态关联；基于模板匹配针对所述注册语音生成第二语音标签；以及组合所述第一语音标签和所述第二语音标签以生成所述注册语音的语音标签。根据本发明的实施例的另外的方面，提供了一种用于创建语音标签的设备，可以包括解码器，用于基于隐马尔科夫模型和识别网络识别输入的语音以生成第一语音标签，其中所述第一语音标签与特定状态关联；模板提取装置，用于对所述语音提取语音模板以生成第二语音标签；以及组合装置，用于组合所述第一语音标签和第二语音标签以生成所述语音的语音标签。根据本发明的实施例的另外的方面，提供了一种用于创建语音标签的系统，可以包括用于基于隐马尔科夫声学模型针对注册语音生成第一语音标签的装置，其中第一语音标签与特定状态关联；用于基于模板匹配针对所述注册语音生成第二语音标签的装置；以及用于组合所述第一语音标签和所述第二语音标签以生成所述注册语音的语音标签的装置。

结合附图，从下面对本发明的实施例的详细描述中本发明的目的、特点和优点将显而易见，其中图I示出了根据本发明示例性实施例的方法的流程图；图2示出了现有技术中的基于HMM的语音标签方法的注册流程；图3示出了应用于图2中的方法的音素识别网络；图4示出了图I中所示的方法的基于模板匹配生成语音模板操作的流程图；图5示出了根据本发明示例性实施例的方法的组合第一语音标签和第二语音标签而生成的语音标签；图6示出了根据本发明示例性实施例的方法的组合第一语音标签和第二语音标签的可选的两种方式；以及图7示出了根据本发明示例性实施例的用于创建语音标签的设备的框图。
具体实施例方式下面，结合附图对本发明的实施例进行详细描述。一般地，本发明实施例涉及在电子设备(例如电话系统、移动终端、车载交通工具和/或类似物)中创建语音标签的方法及其系统。本发明的基本构思是通过结合隐马尔科夫模型的统计方法和模板匹配方法对注册语音创建语音标签。在该构思中，为了更高效的将二者结合，在模板提取时，针对注册语音的每ー个隐马尔科夫模型状态对应的时间段(而不是每ー帧)提取模板，模板用一个高斯分布(或者高斯混合模型)表示。在二者结合过程中，对于该注册语音的每ー个状态时间段，将表示该段语音的模板以及表示该段语音的隐马尔科夫状态结合成一个新的状态。然后由新的状态组成新的音素序列，作为该注册语音的最終的语音标签。在本发明的实施例中，语音单元也可以是音素之外的其它单元，如音节等。为简单起见，仅例示音素作为语音单元进行处理。然而，本领域技术人员应该理解，本发明的实施例应该不限于此。图I示出了根据本发明的示例性实施例的方法的流程图。在步骤S10，注册语音被输入到解码器中进行识别其声学模型为隐马尔科夫模型，识别网络为音素(或者其它语音単元)的循环网络，识别结果为音素(或者其它语音単元)序列。该音素序列即为基于隐马尔科夫模型HMM的语音标签方法中的语音标签，本发明中称之为第一语音标签。获得注册语音的第一语音标签之后，在步骤S12，基于模板匹配的思想为该注册语音提取模板，作为该注册语音的第二语音标签。最后，组合生成的第一语音标签和第二语音标签，以生成该注册语音的最终语音标签(步骤S13)。I.第一语音标签的生成
如前所述，第一语音标签可以通过对注册语音进行基于隐马尔科夫声学模型的识别而得到，如图2所示。在S210，对输入的注册语音(假定已经进行了采样、A/D变换等预处理)进行特征提取。简单地讲特征提取包括分帧及为每ー帧提取ー个D维的特征。目前常用的特征有Mel倒谱系数(MFCC)或者感知线性预测參数(PLP)等。设第t帧的特征为x, =}，整个语句的特征为X = (X1, X2, . . . , xT}, T为该句语音的总巾贞数。在步骤S220，得到特征后，将特征连同由训练数据训练的隐马尔科夫声学模型(acoustic model, AM)及识别网络输入到解码器中对其进行识别。在本发明实施中，声学模型可以采用语音识别中常用的一阶隐含马尔科夫模型，其数学表达式如下P{X IW)=)pixi I 5I )1"1 P(xt I st )p(st I V1)( I )
t=2其中，X = (X1. . . xT}为观测语音的特征序列，S = (S1. . . sT}为状态序列，St为第t帧语音所对应的状态，W为词序列，{Sw}为与词序列W对应的状态序列的集合，P(XtIst)为HMM中的状态输出概率，P(StIsw)为H MM中的状态转移概率。如公式⑵所示，状态s的输出概率可以由高斯混合模型(Gaussian mixturemodel, GMM)来描述。GMM是语音信号处理中的ー种常用的统计模型，该模型的基本理论前提是只要高斯分量混合的数目足够多，ー个任意的分布就可以在任意的精度下用这些高斯分量混合的加权平均来逼近。
Mp(x I ^)= XamN{^i皿Xsm)( 2 )
W=I其中= I, u sm为状态s的第m个高斯分布的均值，E sm为状态s的第m个高
W=I
斯分布的方差，M为高斯个数。在本发明的实施例中，对于本领域技术人员而言，HMM模型可以在创建语音标签之前通过对获取的语音特征使用训练算法进行训练来预先确定。在本发明的实施例中，识别网络可以是如图3示出的识别网络。如前所述，在隐马尔科夫声学模型中，每个音素(或其它语音単元，如音节，中文的声母/韵母等)可以由HMM来描述。图3所示的识别网络即为中文中所有音素(b，p，m，...，a，0，e)的自由循环，其中s为初始状态，e为终止状态。本领域的技术人员应该理解，识别网络可以根据应用的语言而不同，以上所述的识别网络仅为例示，本发明的实施例中的识别网络应该不限于此。例如识别网络的语言单元可以为音节，则基于隐马尔科夫模型识别的结果为音节序列。在本发明的实施例中，在步骤S230，解码器选择识别网络中同输入语音特征最匹配的路径作为识别結果，该识别结果即作为该注册语音的发音标签。在本发明的实施例中，该发音标签作为注册语音的第一语音标签。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。而统计语音识别的最基本问题是，给定输入信号或特征序列、符号集(词典)，求解符号串(词序列)使得其在给定语音的特征X的情况下概率最大，该数学模型表示如下可以进ー步表示为扩=argmaxi3^| X) = argmaxP(X | W)P(W)/P(X) ( 4 )其中，P(W)为语音模型，P(X)为特征的先验概率。通常P(X)为均匀分布，则该识别模型可以简化为w* = argmaxi5^ | W)P(W)( 5 )
W
如不考虑语言模型，则其还可进ー步简化为
[0047权利要求
1.一种用于创建语音标签的方法，包括基于隐马尔科夫声学模型针对注册语音生成第一语音标签，其中第一语音标签与特定状态关联；基于模板匹配针对所述注册语音生成第二语音标签；以及组合所述第一语音标签和所述第二语音标签以生成所述注册语音的语音标签。
2.如权利要求I所述的方法，其中生成第二语音标签的步骤进一歩包括基于所述第一语音标签关联的状态在时间上分割所述注册语音；对每个状态时间段中的语音提取模板以形成模板序列作为所述第二语音标签。
3.如权利要求2所述的方法，其中所述提取模板的步骤进一歩包括从所述隐马尔科夫声学模型中获得与所述状态时间段内语音平均特征距离最近的多个高斯分量；以及组合所述多个高斯分量以生成高斯混合模型作为所述注册语音中该状态时间段内语音的模板。
4.如权利要求I的方法，其中所述组合第一语音标签和第二语音标签的步骤进一歩包括组合所述第一语音标签关联的状态以及与该状态对应的所述状态时间段的模板以生成新的状态；以及组合所述新的状态以形成所述注册语音的语音标签。
5.如权利要求4中所述的方法，其中所述组合第一语音标签关联的状态以及与该状态对应的所述状态时间段的模板以生成新的状态的步骤进一歩包括对所述状态时间段的模板包含的高斯分量和所述第一语音标签的该状态包含的高斯分量取并集作为所述新的状态包含的高斯分量。
6.如权利要求4中所述的方法，其中所述组合第一语音标签关联的状态以及与该状态对应的所述状态时间段的模板以生成新的状态的步骤进一歩包括将所述状态时间段的模板的高斯分量合并为ー个高斯分量；以及组合所述高斯分量与所述第一语音标签的状态的高斯分量作为所述新的状态包含的高斯分量。
7.如权利要求I至6中任一项所述的方法，其中所述语音标签包含的语音单元中的状态间的转移概率可以同所述第一语音标签包含的语音单元中的状态间的转移概率相同。
8.一种用于创建语音标签的设备，包括解码器，用于基于隐马尔科夫模型和识别网络识别输入的语音以生成第一语音标签，其中所述第一语音标签与特定状态关联；模板提取装置，用于对所述语音提取语音模板以生成第二语音标签；以及组合装置，用于组合所述第一语音标签和第二语音标签以生成所述语音的语音标签。
9.如权利要求8所述的设备，其中所述模板提取装置进ー步包括分割装置，基于所述第一语音标签的状态在时间上分割所述语音；模板生成装置，用于对每个状态时间段中的所述语音提取模板以及组合所述每个状态时间段的模板，以形成模板序列作为所述第二语音标签。
10.一种用于创建语音标签的系统，包括用于基于隐马尔科夫声学模型针对注册语音生成第一语音标签的装置，其中第一语音标签与特定状态关联；用于基于模板匹配针对所述注册语音生成第二语音标签的装置；以及用于组合所述第一语音标签和所述第二语音标签以生成所述注册语音的语音标签的装置。
全文摘要
本发明涉及一种用于创建语音标签的方法以及设备。该方法可以包括基于隐马尔科夫模型HMM针对注册语音生成第一语音标签；基于模板匹配针对所述注册语音生成第二语音标签；以及组合所述第一语音标签和所述第二语音标签以生成所述注册语音的语音标签。基于本发明的实施例生成的语音标签结合了两种标签的优势，明显提高了系统性能。此外，本发明实施例的方法仍然可以应用在基于HMM声学模型的解码器中而无需显著增加存储空间以及计算量，有利于该方法在任意基于HMM的语音标签系统中的应用。
文档编号G10L15/14GK102651218SQ201110046560
公开日2012年8月29日申请日期2011年2月25日优先权日2011年2月25日
发明者何磊, 赵蕤申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵蕤;何磊
技术所有人：株式会社东芝
我是此专利的发明人