定位语音中的关键词的方法和设备以及语音识别系统的制作方法

文档序号：2829718阅读：295来源：国知局

专利名称：定位语音中的关键词的方法和设备以及语音识别系统的制作方法
技术领域：
本发明涉及一种用于定位语音中的关键词的方法和设备，以及语音识别系统，具体地讲，涉及一种基于语音特征空间轨迹匹配来对语 ^ 1P的关键词进行定位的方法和设备，以及利用该设备的语音识别系10统，能够提高定位和识别的速度，并同时保证识别的精度。
背景技术：
近年来，越来越多的信息终端装置，例如PC(个人计算机)、PDA (个人数字助理)、移动电话和遥控器等具备了语音输入功能，从而允 15许使用者通过发出语音来输入命令或者输入关键词。也就是说，需要这样的信息终端装置能够从用户输入的未知语音串中识别出用户想要输入的关键词。因此，如何准确和快速地确定关键词的位置是语音识别技术中一个重要的问题。文献l ('变帧速率技术在语音识别中的应用'，孙放，胡光锐， 20虞晓，h海交通大学学报，第32巻，第8期，1998年8月)提出了将变帧速率技术应用于语音识别，用来丢弃那些特征非常相似的音频帧，从而达到快速识别输入语音的目的。在文献1中通过使用数学求导方法并定义合适的阈值，来进行语音特征的归并，进而获得具有音韵特征结构的语音特征矢量序列。但是上述阈值的设定非常困难，并且会直 25 接影响到识别的精度。此外，文献l所提出的方法使用非线性匹配，因此需要在关键词识别过程中进行大量的计算。文献2 ( ' KEYWORD SPOTTING METHOD BASED ON SPEECH FEATURE SPACE TRACE MATCHING' , Ya-dong Wu， Bao-long Liu, Proceedings of the Second Conference on Machine Learning and 30Cybernetics, 2003年1.1月2-5日)提出通过计算特征矢量空间中矢量之间的距离并定义合适的阈值来进行语音特征归并，进而获得具有音韵特征结构的语音特征矢量序列。但是，由于这种归并是针对特定说话人语音的，因此表征同一音韵特征的代表特征点本身含有很多说话人的特征信息，变动较大。这样，在后续匹配过程中，不得不对语音 5 轨迹进行重新刻度才能进行识别，由此增加了识别的复杂度。并且，文献2的技术没有很好地解决重新刻度的问题，因此识别的精度也很难保证。此外，计算矢量间距离所需的计算量非常大，为进行特征归并而设定合适的阈值也非常困难，且这个阈值的设定直接影响到具有音韵结构特征的语音轨迹估计是否准确。这些原因导致后续的基于此10 i〖t」，特征空间轨迹的匹配准确度不高。另外，在关键词模板建立方面，文献2的技术也是采用这种归并力-法进行关键词语音特征空间轨迹估计，其中关键词内容是针对特定识别f「:务域设计的。具体来说，该关键词语音轨迹不是通过多种应用领域的语料训练而产生的，很难直接应用到非特定人领域。当任务域 15 改变时，必须重新制作关键词语音模板。因此，在文献2的技术中，关键词语音轨迹模板不具有通用性，在实际应用中有一定困难。由于h述的问题，文献1和文献2所提出的方法无法实际应用到信息终端装置中。因此，需要一种能够快速定位输入的语音中的关键词并」丄能够减d 、计算量的技术。20发明内容鉴于现有技术的上述问题，完成了本发明。本发明的目的是提供种基于语音特征空间轨迹匹配的、定位输入语音中的关键词的方法和设备，以及采用该设备的语音识别系统，能够提高定位和识别的速 25度，并同时保证识别的精度。在本发明的一个方面，提出了一种定位待识别语音中的关键词的乂V法，包括歩骤提取构成所述待识别语音的各个帧的特征参数矢量，以形成用'f描述待识别语音的特征参数矢量序列；利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理，以得到待识别语音 3 0在矢量空间中的特征轨迹；以及匹配预先存储的关键词模板轨迹和所
述特征轨迹，以确定关键词的位置。此外，根据本发明的实施例，所述规整化步骤包括从所述特征参数矢量序列中提取代表性特征参数矢量，来表征所述特征轨迹。此外，根据本发明的实施例，所述提取代表性特征参数矢量的步 5 骤包括步骤在所述码本中搜索与所述特征参数矢量最接近的码本矢量；川搜索的码本矢量的编号表示所述特征参数矢量；对连续用相同的码本矢量表示的特征参数矢量进行合并，以表示所述特征轨迹。此外，根据本发明的实施例，所述匹配步骤包括利用各个关键词模板轨迹，针对每一轨迹帧，依次计算表示所述关键词模板轨迹的 10 各个梭板特征矢量与表示所述特征轨迹的各个代表性特征参数矢量之间的距离，所述轨迹帧是所述特征轨迹的时域表示；确定所述距离中的最小值；以及将与所述最小值所对应的关键词模板轨迹在矢量空间 'I'的位置确定为关键词的位置。此外，根据本发明的实施例，所述特征参数矢量包括下面参数中 15 的至少一个倒谱参数、倒谱参数的能量值、倒谱参数的一阶导数、倒谱参数的二阶导数、能量值的一阶导数以及能量值的二阶导数。此外，根据本发明的实施例，所述距离是用码本矢量距离表示的，所述码本矢量距离是码本中任意两个码本矢量之间的距离。此外，根据本发明的实施例，所述码本矢量距离是以矩阵的形式20 预先存储的。此外，所述关键词模板轨迹是基于所述码本而生成的。此外，根据本发明的实施例，通过下面的步骤获得关键词模板轨迹通过音节和音素模型之间的对应关系获得关键词的各个音节的音素名；通过音素模型和状态之间的对应关系获得关键词的各个状态， 25 形成状态矢量；用所述码本中与状态矢量对应的编号表示音素模型的码本矢量序列编号对连续用相同码本矢量编号表示的音素模型的码木矢量序列编号进行合并；以及顺序连接合并后的各个码本矢量序列编号，来得到关键词模板轨迹。此外，根据本发明的实施例，通过下面的步骤获得关键词模板轨 30 迹对输入的关键词的音频帧进行切分，提取各个音频帧的特征参数
矢量，以形成该关键词的特征参数矢量序列；以及通过用所述码本对特征参数矢量序列进行规整化处理，来产生表示所述关键词模板轨迹的模板矢量序列。此外，根据本发明的实施例，所述码本是通过下面的步骤获得的 5 从基于隐马尔可夫模型的声学模型中提取描述各个音素模型的状态的统计参数，形成各个状态的特征矢量；以及通过用编号表示各个状态的特征矢量，来生成所述码本中的各个码本矢量。此外，根据本发明的实施例，所述音素模型是通过多个应用领域的语料训练而生成的。 10 在本发明的另一个方面，提出了一种定位待识别语音中的关键词的设备，包括特征提取装置，用于提取构成所述待识别语音的各个 I l顷的特征参数矢量，以形成用于描述待识别语音的特征参数矢量序列；规整化装置，用于利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理，以得到待识别语音在矢量空间中的特征轨迹；以及 15匹配装置，用于匹配预先存储的关键词模板轨迹和所述特征轨迹，以确定关键词的位置。此外，根据本发明的实施例，所述规整化装置从所述特征参数矢量序列中提取代表性特征参数矢量，来表征所述特征轨迹。此外，根据本发明的实施例，所述规整化装置在所述码本中搜索 20与所述特征参数矢量最接近的码本矢量，用搜索到的码本矢量的编号表示所述特征参数矢量，对连续用相同的码本矢量表示的特征参数矢量进行合并，以表示所述特征轨迹。此外，根据本发明的实施例，所述匹配装置利用各个关键词模板轨迹，针对每一轨迹帧，依次计算表示所述关键词模板轨迹的各个模 25 板特征矢量与表示所述特征轨迹的各个代表性特征参数矢量之间的距离，以及确定所述距离中的最小值，并将最小值所对应的关键词模板轨迹在矢最空间中的位置确定为关键词的位置，所述轨迹帧是所述特在本发^^又一方面，提出了一种语音识别系统，它包括如上所 30述的设备；以及语音识别装置，用于基于所述设备所确定的关键词的
位置识别关键词的内容。此外，根据本发明的实施例，所述语音识别装置是基于隐马尔可夫模型而进行识别的。利用本发明的方法和设备，由于基于同一码本来描述关键词模板 5 轨迹和待识别的语音的特征空间轨迹，在具有相同音韵特征结构的音频帧进行线性移动匹配时，不需要重新刻度，从而降低了计算量，且提高了定位和识别的精度。另外，由于通过预先存储的码本矢量距离来描述待识别语音的特征^间轨迹和关键词模板轨迹之间的距离，使得在匹配过程中计算待 10 识别语音和模板语音之间的距离时，可以通过査找的方式来获得匹配结果，进一步减小了匹配所需的计算量，提高了定位和识别的精度。另外，由于形成码本所需的音素模型是通过多个应用领域的语料训练而生成的，使得本发明的方案具有通用性。也就是可以应用在不同的领域。15 另外，将本发明的关键词定位方法和设备与现有的基于HMM(隐马尔可夫模型)的语音识别系统相结合，可以避免HMM识别方法中难以建立废料模型的缺点，从而进一步提高了识别精度。

20 通过下面结合附图对发明进行的详细描述，将使本发明的上述特征和优点更加明显，其中图1示ti i了根据本发明实施例的语音识别系统的构成框图；图2是说明根据本发明实施例的状态特征码本生成过程和码本矢量距离矩阵生成过程的示意图；其中图2 (A)示出了说明码本生成过 25程和码本矢量距离矩阵生成过程的流程图；图2(B)示出了说明状态特征码本的一个实例；图3是说明本发明实施例的语音特征空间轨迹规整化过程的示意阁，jl:'t'图3 (A)示出了如何获得输入语音的特征矢量的示意图；图 3 (B)是获得的特征矢量在矢量空间中的示意图；图3 (C)示出了如 30何对获得的特征矢量进行规整化的示意图；图3 (D)是规整化的特征
矢量在矢量空间中的示意图；图4是用来说明根据本发明实施例的语音特征空间轨迹的生成过程的示意图；其中图4 (A)示出了输入语音的特征矢量序列在矢量空问屮的示意图图4 (B)示出了规整化的特征矢量序列在矢量空间中 5的小-意图；图4 (C)示出了用来说明语音特征空间轨迹生成过程的流程图；以及图5是说明根据本发明实施例的基于语音特征空间轨迹匹配来定位输入语音中的关键词的过程的原理示意图；其中图5 (A)示出了包括非关键词语音和关键词语音的一段语音波形；图5 (B)示出了关键 10 词语音和非关键词语音的特征矢量在矢量空间中的轨迹；图5 (C)是川来说明关键词模板的轨迹与输入语音的轨迹进行线性移动匹配的过禾呈的小-意图；图6是说明根据本发明实施例的关键词模板的生成过程的示意阁；其中图6 (A)示出了说明关键词模板生成过程的流程图；图6(B) 15不出了关键词模板生成过程的一个实例；以及图7是说明根据本发明实施例的线性移动匹配过程的示意图。
具体实施方式
下面，参考附图详细说明本发明的优选实施方式。在附图中，相 2 0 I司的参考标记在不同的附图中表示相同的或相似的组件。为了清楚和简明，包含在这里的已知功能和结构的详细描述将被省略，以避免它们使本发明的主题不清楚。图1 >j 、二出了根据本发明实施例的语音识别系统的构成框图。如图1所示，本发明的语音识别系统包括诸如麦克风之类的输入单元IO，25 用于输入待识别的语音；与输入单元连接的关键词定位设备100，用于确定待识别语音中的关键词的位置；语音识别引擎80，与关键词定位设备100连接、用于基于关键词定位设备100所确定的关键词的位置对关键词进行识别；以及输出单元90，用于输出语音识别引擎80的识别结果。30-如图1所小，根据本发明实施例的关键词定位设备100包括特征10152025捉取单元20，与输入单元10连接，用于提取切分的语音帧的特征参数；诸如磁存储器或者半导体存储器之类的码本存储单元40，用于存储矢量量化码本；诸如磁存储器或者半导体存储器之类的距离矩阵存储单元50，用于以矩阵的形式存储码本中的码本矢量之间的距离；规整化单元30，根据码本存储单元40中存储的码本对特征提取单元20提取的特征参数所形成的各个特征参数矢量进行规整化，以得到待识别的语音在矢量空间中的特征轨迹；关键词模板轨迹库60，用于存储用户感兴趣的关键词在矢量空间中的轨迹；以及匹配单元70，根据距离矩阵存储单元50ij3存储的码本矢量之间的距离和关键词模板轨迹库60中存储的关键词模板轨迹，通过匹配关键词模板轨迹和待识别语音的特征轨迹，来确定关键词的位置。在本发明实施例的语音识别系统中，利用诸如麦克风之类的语音输入单元10输入待识别的语音或者模板语音。当然，也可以从存储设备中直接获得预先记录的语音数据或者直接调用语音文件来输入语。u疋取单元20按照预定的参数配置，例如格式、采样频誦诉，编、、二30".位数、声道类型、帧长、帧移以及特征参数类型等等，对输入的语 ,数据的各帧进行特征提取，以得到输入语音的特征参数矢量序列.....kv}，其中每个矢量^都是预定维数a:的特征矢量，/ =1,……，W。在本实施例中，特征提取单元20将输入的语音切分成音频帧，然后针对各个音频帧提取相应的特征参数，形成特征参数矢量。所提取的特征参数包括倒谱参数、倒谱参数的能量值、倒谱参数的-阶导数、倒谱参数的二阶导数、能量值的一阶导数和能量值的二阶卞数。这里所述的倒谱参数，是例如12维的FFT (快速傅立叶变换) 倒谱参数。在这种情况下，特征参数矢量的维数尺是39，具体如下倒谱参数C,， C2，， C12;能量值E;倒谱参数的一阶导数dC,， dC2，……，dC12; 倒谱参数的二阶导数DC,， DC2，……，DC12;能量值的一阶导数dE;
能量值的二阶导数DE。在本实施例中，特征提取单元20所提取的特征参数矢量序列 .....「d被输入到关键词定位设备100中的规整化单元30中，以估计该输入语音在矢量空间中的轨迹，并且对该轨迹进行规整化处理， 5 输出该输入语音的特征轨迹，用于后续的匹配处理。规整化单元30 利用码本存储单元40中预先存储的"码本"对特征参数矢量序列中的各个特征参数矢量进行矢量量化后，输出以特征矢量量化序列表示的、该输入语音在矢量空间的特征轨迹。这里，码本存储单元40中存储的足川HMM方法生成的特征参数的标准矢量，用于对输入的待量化矢10-扇:进行量化。另外，距离矩阵存储单元50中存储了码本存储单元40中所存储的多个标准矢量(即码本矢量)中的任意两个码本矢量之间的距离，该码本矢量距离将被用来描述，在矢量空间中，模板语音的特征参数矢量与待识别语音的特征矢量之间的相似程度。15 关键词模板轨迹库60中预先存储了以特征矢量量化序列表示的、用户感兴趣的关键词(即模板关键词)在矢量空间中的特征轨迹，该特征轨迹月〗亍与输入的待识别语音的特征轨迹进行匹配。规整化单元30把输入语音的规整化的特征矢量序列提供给匹配单元70。匹配单元70从关键词模板轨迹库60中依次取出各个关键词20 的模板轨迹，并沿着由规整化的特征参数矢量序列所表示的点在矢量空间1 —形成的轨迹(它表示待识别的语音在矢量空间中的特征轨迹)，移动所取出的模板轨迹，逐个轨迹帧进行匹配操作。这里轨迹帧是规整化的语音帧，也就是与构成规整化的轨迹的各个特征矢量相对应的 ff频帧。在移动过程中，每移动一个轨迹帧，匹配单元70基于距离矩25 阵存储单.元50中存储的码本矢量距离，通过求和运算来计算该关键词校板菊L迹与待识另ij的语音在矢量空间中的特征轨迹之间的距离。在整个轨迹匹配结束之后，获得利用该关键词模板轨迹匹配得到的最小距离。然后匹配单元70针对存储的各个关键词执行上述的过程，得到了各个关键词模板轨迹与待识别的语音在矢量空间中的特征轨迹之间的30 相应最小距离。接下来，匹配单元70通过比较确定这些针对各个关键词模板轨迹的最小距离中的最小值，并将与该最小值相对应的那个模板轨迹的关键词识别为候选关键词。应该指出，在不需要较高识别精度的情况下，匹配单元70也可以直接将该候选关键词识别为最终的关键词。 5 然后，匹配单元70将该候选关键词在矢量空间轨迹上的位置映射卜'l时域中的相应音频帧中，从而能够确定该关键词在待识别语音中的位置。这样，语音识别引擎80可以直接利用特征提取单元20提取的、己经定位的候选关键词位置处的待识别语音的特征参数，进行进一步 10识别，以得到最终的识别结果，即关键词的内容。在最终确定关键词内容时可以参考候选关键词结果。设后，输出单元90根据语音识别引擎80的识别结果，输出识别的关键词的内容，例如将识别的关键词显示在屏幕上。l;面结合附图2 7详细说明上述各个单元中的具体操作过程。 15 图2是用来说明根据本发明实施例的状态特征码本生成过程和码木矢量距离矩阵生成过程的示意图；其中图2 (A)示出了用来说明码本生成过程和码本矢量距离矩阵生成过程的流程图；图2(B)是用来说明状态特征码本的示意图。码本是由矢量量化所用的标准矢量构成的集合。在本实施例中， 20码本的物理意义是用来描述HMM声学模型的状态特征。码本矢量矩阵是保存了码本中任意两个码本矢量之间距离的二维数组，该码本和码本矢量矩阵被预先存储在诸如ROM (只读存储器) 或者HD (硬盘)之类的存储器中。可以将码本和码本矢量矩阵分别存储在一个单独的存储器中，例如码本存储单元40和距离矩阵存储单 25兀50，或者将它们存储在单个存储器的不同存储区域中。在本实施例中，码本是在HMM声学模型的基础上生成的，具体的产生过程如f所述1) HMM声学模型是用HMM模型定义文件(hmmdefs)来描述的，各个音素模型的hmmdefs是通过多种应用领域的语料训练而得到 3 0的，hmmdefs的结构如下 ~h "iz2" 〃声学模型名 <BEGINHMM><NUMSTATES>S〃状态数，5个，但只有2， 3， 4三个有效状态 <STATE>2 〃状态编号 5 <NUMMIXES>6 〃混合高斯分布数<MIXTURE> 1 1.250000e-001 〃高斯分布编号及权重 <MEAN>39〃高斯分布的均值参数，39维 7.70204 le+OOO 6.226375e+000……2.910257e-001-8.276044e-002 <VARIANCE>39 〃高斯分布的协方差参数，39维 )0 7.258195c+005.090110e+001 ...... 3.907018e-001 2.388687e-002<MIXTURE> 6 1.250000e-001 〃高斯分布编号及权重 <MEAN>39 〃高斯分布的均值参数，39维8.864381e-001 5.87749e-001 ...... -2.090234e-00〗-2.064035e-00115 <VARIANCE>39 〃高斯分布的协方差参数，39维7.258195e+00] 5.090110e+001 ...... 3.907018e-001 2.388687e-002<STATK>3 〃状态编号<NUMMIXES>6 //混合高斯分布数，各高斯分布也用均值和协方差两〃参数来描述20 ……<STATE>4 〃状态编号<NUMMIXES>6〃混合高斯分布数，各高斯分布也用均值和协方差两1〃参数来描述25 <TRANSP>5 〃状态转移概率矩阵O.OOOOOOe+000 1.000000e+000 O.OOOOOOe+000 O.OOOOOOe+000 O.OOOOOOe+000 O.OOOOOOe+000 6.800%5e-001 3.199094e掘O.OOOOOOe+000 O.OOOOOOe+000 O.OOOOOOe+000 O.OOOOOOe+000 6.435547e-001 3.564453e-001 O.OOOOOOe+000 O.OOOOOOe+OOO 0.000000e+000 0.000000e+000 5.890240e-001 4.109760e-0013 0 O.OOOOOOe+000 0.000000e+000 0.000000e+000 0.000000e+000 0.000000e+000 <ENDHMM>。2) 特征状态提取(S110)，也就是，按照具体应用来提取形成码木所需的特征参数。HMM模型定义文件中存储了描述音素模型各状态的统计参数，包括高斯分布均值(39维)、协方差(39维)、权重和5 状态转移矩阵(描述音素模型中各状态间转移的概率，每个音素用5 个状态来描述，故为5X5的矩阵)。在本实施例中，抽取了描述每个状态的6个高斯分布的均值参数部分(12维CEP)，并根据各高斯分布的权重求取它们的算术平均，利用计算得到的均值平均值(12维 CEP)作为表征该状态的码本特征参数。10 然后，对所有状态进行编号，每个状态都有惟一确定的ID编号，例如图2 (B)所示的1， 2，， M-l, M，它代表该状态的特征矢量，并用于生成状态特征码本。所生成的状态特征码本被存储在码本存储单元40中。码本中所含码本矢量的个数(M)定义为码本的大小。此外.在生成上述HMM声学模型的过程中，还可以得到音节-15 ^素模型对应表和音素模型名-状态名对应表。这里，状态名由构成码木矢量的各个状态的编号来表示，如上所述。3) 讣算码本中任意两个状态特征矢量间的距离，得到^M的码木矢量的距离矩阵MATRIX (S120)，然后将其存储在距离矩阵存储单元50屮。20 图3是用来说明本发明实施例的语音特征空间轨迹的规整化过程的示意图，其中图3 (A)示出了如何获得输入语音波形的特征矢量的小意图；图3(B)是获得的特征矢量在矢量空间中的示意图；图3(C) 小出了如何对获得的特征矢量进行规整化的示意图；图3 (D)是规整化的特征矢量在矢量空间中的示意图。25 根据文献2，对同一字(词)音的两个特征矢量的时间序列X"力和/"W，按相同的轨迹长s沿其各自的轨迹所提取出的新的特征矢量的时间序列义'^和W W具有对时间轴伸縮的不变性。这就是基于特征空间轨迹对语音进行时间轴规整的基本原理。由于经时间规整化后的特右l;矢量序列可采用线性匹配方式，故可大幅度地减少识别时的30 计算量。
在本实施例中，语音特征空间轨迹是基于HMM声学模型生成的。首先提取输入语音文件的基本特征参数，如图3 (A)所示。假设表示符号序列&， &和&的连续音频信号(波形)经过分帧处现成为7个音频帧。针对这7个音频帧提取相应的特征参数，得 5到7个特征矢量F,(1《/《7)，以构成特征矢量序列，其中K,是一个指定维数(尺维)的特征矢量。需要指出的是，本领域的普通技术人员应该理解，虽然在各附图屮以三维矢量空间来表示上述的尺维矢量空间，但是这仅仅是出于清楚演示本发明的目的，而不意味着上述的/C维就是3维。 10 如图3 (B)所示，这些特征序列K,可以视作在尺维空间上分布的坐标点，F面将其称为特征点。如果把这些特征点按照时间顺序连接起来6—^……一F7)，就可以得到在K维空间上的一条轨迹。从图3 (B)可以看出，特征点K/与其他的特征点分开比较远，特征点^和^相距比较近，而特征点^ K7大致散落在一个比较集 15 中的范围内。对语音特征空间轨迹进行规整化的关键在于如何准确地估计得到语音的特征空间轨迹。因为在实际应用中，语音中的各特征矢量在时间l:是离散的，而且它除了要受到音速变化的影响之外，还将受到 U:它多种变动因素的影响，从而导致即使是同一音韵特征空间区域， 20 该区域内的各帧的谱特性也将发生某些变动，其反映在语音特征空间屮即为一簇相邻的特征点，对发音长的音韵，其簇中的特征点较多(K， K，对发音短的音韵，其簇中特征点较少(K， K)。如图3(B)所示，称同一音韵的特征点散布区域为准平稳区(Semi-stability Area),而称不同音韵的特征点散布区域为非平稳区(Non-stability 25 Area)。为此，可以提取该簇特征点(矢量)中具有代表性的特征点来衣征该音韵的特征，并以这些代表性的特征矢量(巧，)=1，2,3)来估计语巧轨迹。这里，特征矢量"表示第一簇特征点中的代表性特征点，特征矢量&表示第二簇特征点中的代表性特征点，而特征矢量Fj表不第三簇特征点中的代表性特征点，如图3 (D)所示。 30 另外，如图3 (C)所示，音频帧1的特征参数由经过规整化的特征点(矢量)F/来表示，音频帧2和3的特征参数由同一个特征点(矢量)/^来表示，而音频帧4 7的特征参数由另一个特征点(矢量)Fj来表示。另外，为了提高语音特征轨迹估计的准确性，应该考虑(1)对5语音信号按较小的帧移(frameshift)周期分帧，以提高非平稳区域内特征点的密度。例如现有技术的帧移周期是20ms，而本实施例采用10ms 或者8ms的帧移周期；(2)对散布在准平稳区域内的特征点进行一定的修剪，即保留其具有代表性的特征点，删除其余不必要的特征点。 -种可选的修剪方法是依次计算特征点间的导数，将导数小于设定阀]0 值的那些特征点作为同一个准平稳区的点，然后这些特征点的平均作为该准平稳区域的代表性特征点。另一种可选的修剪方法是计算各特征点间的矢量距离，将矢量距离小于设定阀值的那些特征点作为同一个准平稳区的点，然后将准平稳区域内的特征点的平均作为该准平稳区域的代农性特征点。又一种方法是对连续用相同码本矢量表示的特15征矢虽(点)帧进行压缩合并。将在下面描述这种方法。图4是用来说明根据本发明实施例的待识别语音特征空间轨迹 (特征矢量序列)的生成过程的示意图；图4 (A)示出了输入语音的特征矢量序列在矢量空间中的示意图；图4 (B)示出了规整化的特征矢量序列在矢量空间中的示意图；图4 (C)示出了待识别语音的特征20 空间轨迹生成过程的流程图；下面参照图4描述在对特征矢量进行压縮的情况下的特征矢量序列生成过程。考虑到前面提到的语音轨迹规整化过程中应该注意的两点，提出了基于HMM声学模型的、采用矢量量化来规整化输入语音的方法。25 如图4 (A)所示，输入待识别的语音(S210)。这里，假设输入的语音表示为义,W二(^似^(U ......A(UA"」) ("音频帧号)然后，对输入的语音进行特征提取操作(S220)，以得到相同数量的特征矢量30 K"」二(K/W, .......K(U K7^) (Z:音频帧号)
对照之前生成的状态特征码本，规整化单元30搜索特征矢量在码木中最为匹配的码本矢量，并用该码本矢量的ID编号表示该特征矢量，并对连续用相同码失表示的特征矢量帧进行压縮合并(S230), 规整化单元30输出得到的语音特征空间的VQ矢量(S240)。图4(B)5小出了特征矢量是A = 3个的情况^州二(/A似/D2(U……/A—,似/A-W) 其中，7' = A 2,……，A， /Dy表示码本矢量编号，A表示待识语音状态特征矢量的总数，通常情况下A:小于音频帧的数目。阁5是用来说明根据本发明实施例的基于语音特征空间轨迹匹配10 过程的示意图；其中图5 (A)示出了包括非关键词语音和关键词语音的-段语音波形；图5 (B)示出了关键词语音和非关键词语音在矢量空间中的轨迹；图5 (C)是用来说明关键词模板的轨迹与输入的语音的轨迹进行线性移动匹配的过程的示意图。如图5 (A)所示，通常情况下关键词的波形位于输入的待识别15 语咅波形屮的某个位置处。如图5 (B)所示，输入的语音在矢量空间屮的轨迹是 -条连续的曲线，该曲线上大致位于中间部分的那一段是关键词语音在矢量空间中的轨迹。如上所述，在已经知道了输入语音的特征轨迹的情况下，通过将关键词模板轨迹沿着输入语音的特征轨迹移动，来对二者进行匹配。20 同时，每移动与特征轨迹对应的时域信号中的一个音频帧，即轨迹帧，就通过线性加和模板轨迹上的特征点和与其对应的待识别语音的特征点间的距离来计算两个轨迹之间的距离，该距离表示该模板在此位置与待识别语音的空间轨迹的相似度。在该关键词模板轨迹匹配结束之后，得到针对该关键词模板轨迹的最小距离。然后针对不同的关键词25 模板轨迹来匹配所得到的各个最小距离。最后，从这些最小距离中找到ig小伯:，将与该最小值所对应的关键词识别为候选关键词，进而将该候选关键词与输入语音的轨迹之间距离最小的那个位置映射回时域，得到该候选关键词所在的音频帧的帧号。图6是用来说明根据本发明实施例的关键词模板的生成过程的示30意图；其中图6 (A)示出了用来说明关键词模板生成过程的流程图；阁6 (B)示出了关键词模板生成过程的一个实例。模板的输入可以分为语音输入和文本输入两种方式。然而，本发明不限于此，也可通过其它方式输入。下面以文本输入和语音输入为例A休描述如下文本输入如图6 (A)所示，输入输入关键词文本(S310)，例如'上海'。然后，进行音节切分和拼音转换操作，例如将'上海'切分成'上/ 海'，并且得到'上'和'海'的字符串表达式，即拼音'shang4'和 'hai3' (S320)，如图6 (B)所示。 10 接F来，通过音节-音素模型名对应表可以得到shang4和hai3的,f^农达;/式，即音素模型名，分别为"sh a4 ng4"和"h aa3" (S330),如图6 (B)所示。在得到关键词的音素名后，利用该音素名，在音素模型名-状态名对应表中搜索与该音素模型名相对应的状态名，得到组成音素的各模 15型的码本矢量编号(S240)。如图6 (B)中，关键词"上海"的码本矢量序列编号为3， 6， 9， 9， 8， 1，。接—F来，将这些编号按照它们在关键词中的原始顺序连接起来，几-将连续用相同码本矢量表示的特征矢量帧进行压縮合并，就得到了关键间模板的轨迹。如图6 (B)，表示关键词"上海"的模板轨迹的 20 特征矢量序列的编号包括3， 6， 9， 8， 1，……，其中相同的两个编号'9'被压縮为同一个编号。最后，将该关键词模板轨迹与该关键词相对应地存储在关键词模板轨迹库60中。语音输入对亍语音形式输入的关键词，即语音波形，首先将其按音频帧进 25行切分，提取各个音频帧的特征参数矢量，以获得描述该语音波形的特征参数矢量序列。在矢量空间中，利用上述矢量量化码本的各个特征参数矢量进行规整化，输出由各个特征点(矢量)表示的特征矢量序列。同样，该特征矢量序列中的各个特征矢量的元素是状态编号。图7是用来说明根据本发明实施例的轨迹移动匹配过程的示意30 图。
如图7所示，规整化单元30根据基于HMM声学模型矢量量化的规整化算法，对待识语音进行规整化并得到各自的特征矢量序列 7Mr," }(,"=。， 1， ...，/.)，其中L为待识语音的轨迹总长度(S410)。如上所述，模板语音w(w—义.,.，^)事先被进行了规整化。并且， 5将得到的规整化的特征矢量序列d义VJ(fO， 1， ...，D存储在关键词模板轨迹库60中，其中W为模板总个数，i^,为规整化后模板w 的轨迹的总长度。然后，将模板语音轨迹义'w从待识语音特征矢量序列(rj的第o 轨迹帧(〃尸o)开始，逐帧和待识语音轨迹段m + ", = { r'm，10 厂,，'i,/,....,",}E{rm}(m=0， i,…，丄-z^))做线性移动匹配，利川码失距离矩阵MATRIX中存储的码本矢量距离，通过加和，记录每移动'轨迹帧时的匹配距离Z) ,,M. ^J]M477 仪(X'…r^) (m=0，l,...，/,L、,. ，n=0, 1， ...，L、，)，直至待识别语音轨迹的匹配终点(m^丄-丄、,)。然后，记录此模板语音w的轨迹与待识语音的轨迹之间的最小匹配距离 15/) m* D m.,w) (05 m *S f丄-Lw ) (S420)。如果w〈W，则对其余的关键词模板重复S420步骤，否则，从各模板的最小匹配距离D"7*.M. (M^l,2,…，)^)中取出最小值所对应的关键词、一 =arg min( A，,. ,)，即检测出的待识别语音中含有的候选关键词w *(S430)，并将、一对应特征点位置""转换成时域中的原始音频帧编 20^，结束检测(S440)。此外，在上述的实施例中，以码本矢量距离的和来表示匹配距离，但是，这不应该被看作是对本发明范围的限定，因为本领域的普通技术人员也可以采用诸如码本矢量距离的平方和、方根和或者范数和来农示。25 如上所述，在匹配单元70确定了关键词的位置之后，语音识别引，80利用特征提取单元20提取的、己经定位的候选关键词位置处的待识别语音的特征参数进行进一步识别，以获得最终的识别结果，即识别内容。在最终确定关键词内容时可以参考候选关键词结果。
另外，输出单元90根据语音识别引擎80的识别结果，输出识别的关键词的内容，例如将识别的关键词显示在屏幕上。上面的描述仅用于实现本发明的实施方式，本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均应该属于5木发明的权利要求来限定的范围，因此，本发明的保护范围应该以权利要求书的保护范围为准。
权利要求
1.一种定位待识别语音中的关键词的方法，包括步骤提取构成所述待识别语音的各个帧的特征参数矢量，以形成用于描述待识别语音的特征参数矢量序列；利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理，以得到待识别语音在矢量空间中的特征轨迹；以及匹配预先存储的关键词模板轨迹和所述特征轨迹，以确定关键词的位置。
2. 如权利要求l所述的方法，其中，所述规整化步骤包括 :述特征参数矢量序列中提取代表性特征参数矢量，来表征所:轨迹。
3. 如权利要求2所述的方法，其中，所述提取代表性特征参数矢量的步骤包括步骤在所述码本中搜索与所述特征参数矢量最接近的码本矢量；用搜索的码本矢量的编号表示所述特征参数矢量；以及对连续用相同的码本矢量表示的特征参数矢量进行合并，以表示所述特征轨迹。
4. 如权利要求1到3之一所述的方法，其中，所述匹配步骤包括; 利用各个关键词模板轨迹，针对每一轨迹帧，依次计算表示所述关键词模板轨迹的各个模板特征矢量与表示所述特征轨迹的各个代表性特征参数矢量之间的距离，所述轨迹帧是所述特征轨迹的时域表示；确定所述距离中的最小值；以及将与所述最小值所对应的关键词模板轨迹在矢量空间中的位置确定为关键词的位置。
5. 如权利要求4所述的方法，其中，所述特征参数矢量包括下面参数中的至少一个倒谱参数、倒谱参数的能量值、倒谱参数的一阶导数、倒谱参数的二阶导数、能量值的一阶导数以及能量值的二阶导数。
6. 如权利要求4所述的方法，其中，所述距离是用码本矢量距离表示的，所述码本矢量距离是所述码本中任意两个码本矢量之间的距内。
7. 如权利要求6所述的方法，其中，所述码本矢量距离是以矩 5 阵的形式预先存储的。
8. 如权利要求.l所述的方法，其中，所述关键词模板轨迹是基r-所述码本而生成的。
9. 如权利要求8所述的方法，其中，通过下面的步骤获得关键词模板轨迹通过音节和音素模型之间的对应关系获得关键词的各个音节的i:-3糸d ;通过音素模型和状态之间的对应关系获得关键词的各个状态，形成状态矢量；用所述码本中与状态矢量对应的编号表示音素模型的码本矢量15 序列编号；对连续用相同码本矢量编号表示的音素模型的码本矢量序列编号进行合并；以及顺序连接合并后的各个码本矢量序列编号，来得到关键词模板轨迹。20
10.如权利要求8所述的方法，其中，通过下面的步骤获得关键对输入的关键词的音频帧进行切分，提取各个音频帧的特征参数矢量，以形成该关键词的特征参数矢量序列；以及通过用所述码本对特征参数矢量序列进行规整化处理，来产生表 25 示所述关键词模板轨迹的模板矢量序列。
11.如权利要求1所述的方法，其中，所述码本是通过下面的步骤获得的从基于隐马尔可夫模型的声学模型中提取描述各个音素模型的状态的统计参数，形成各个状态的特征矢量；以及 30 通过用编号表示各个状态的特征矢量，来生成所述码本中的各个码本矢量。
12. 如权利要求11所述的方法，其中，所述音素模型是通过多个 j 、V.用领域的语料训练而生成的。
13. -—种定位待识别语音中的关键词的设备，包括5 特征提取装置，用于提取构成所述待识别语音的各个帧的特征参数矢量，以形成用于描述待识别语音的特征参数矢量序列；规整化装置，用于利用包含多个码本矢量的码本对特征参数矢量 J f列进行规整化处理，以得到待识别语音在矢量空间中的特征轨迹；以及10 匹配装置，用于匹配预先存储的关键词模板轨迹和所述特征轨迹，以确定关键词的位置。
14. 如权利要求13所述的设备，其中，所述规整化装置从所述特征参数矢量序列中提取代表性特征参数矢量，来表征所述特征轨迹。
15. 如权利要求14所述的设备，其中，所述规整化装置在所述码 15本中搜索与所述特征参数矢量最接近的码本矢量，用搜索到的码本矢虽的编号农示所述特征参数矢量，以及对连续用相同的码本矢量表示的特征参数矢量进行合并，以表示所述特征轨迹。
16. 如权利要求13到15之一所述的设备，其中，所述匹配装置利用各个关键词模板轨迹，针对每一轨迹帧，依次计算表示所述关键20 词模板轨迹的各个模板特征矢量与表示所述特征轨迹的各个代表性特征参数矢量之间的距离，以及确定所述距离中的最小值，并将最小值所对应的关键词模板轨迹在矢量空间中的位置确定为关键词的位置，所述轨迹帧是所述特征轨迹的时域表示。
17. -j巾语音识别系统，包括25 如权利要求13所述的设备；以及语音识别装置，用于基于所述设备所确定的关键词的位置识别关键词的内容。
18. 如权利要求17所述的语音识别系统，其中，所述语音识别装置是基于隐马尔可夫模型而进行识别的。
全文摘要
公开了一种定位语音中的关键词的方法和设备以及语音识别系统。所述方法包括步骤提取构成待识别语音的各个帧的特征参数矢量，以形成用于描述待识别语音的特征参数矢量序列；利用包含多个码本矢量的码本对特征参数矢量序列进行规整化处理，以得到待识别语音在矢量空间中的特征轨迹；以及匹配预先存储的关键词模板轨迹和所述特征轨迹，以确定关键词的位置。利用本发明，由于基于同一码本来描述关键词模板轨迹和待识别语音的特征空间轨迹，所以在具有相同音韵特征结构的音频帧进行线性移动匹配时不需要重新刻度，这提高了定位和识别的速度，并同时保证了识别的精度。
文档编号G10L15/08GK101154379SQ200610152758
公开日2008年4月2日申请日期2006年9月27日优先权日2006年9月27日
发明者吴亚栋, 李丰芹, 杨庆涛, 晨陈申请人:夏普株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李丰芹;吴亚栋;杨庆涛;陈晨
技术所有人：夏普株式会社
我是此专利的发明人

上一篇：线谱频率矢量量化的方法及系统的制作方法
上一篇：音乐伴奏装置的自动跟调方法暨系统的制作方法