可定制语音唤醒方法及系统的制作方法

文档序号：10727053阅读：646来源：国知局

可定制语音唤醒方法及系统的制作方法
【专利摘要】一种可定制语音唤醒方法及系统，通过使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模并对模型进行训练，采用训练后模型进行测试并在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。本发明利用CTC模型输出后验概率稀疏的特点进行高效搜索，从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性，即高准确率，低误唤醒，另一方面对应用系统的计算资源消耗相对较少。
【专利说明】
可定制语音唤醒方法及系统
技术领域
[0001] 本发明涉及的是一种计算机辅助控制领域的技术，具体是一种基于长短时记忆网络 (LSTM)和连接时序分类模型(CTC)的可定制语音唤醒方法及系统。
【背景技术】
[0002] 近年来，随着信息技术的发展，包括语音在内多媒体信息技术越来越成为研究的关注热点。语言唤醒技术是语音识别中的一个重要领域，并被广泛应用于语音命令控制系统中。一个可定制的语音唤醒(Voice Wake-up)系统的任务是从一段连续的语音中自动发现并定位一些事先指定的命令词(唤醒词）。可定制的特性体现在唤醒词检测模型不依赖于用户指定的唤醒词，从而实现无需修改模型即可方便更改用户唤醒词。相反，非可定制的唤醒技术与指定的唤醒词有关，唤醒词固定，无法轻易变更唤醒词。语音唤醒与连续语音识别关系密切，但语音唤醒技术并不要求将完整的语音句子全部识别出来，而是仅关心用户指定的关键信息。因此，唤醒技术降低了对识别系统的要求。与传统的文本态文档比较，语音数据作为一种对声音的编码形式，使得语音信息成为一种对于计算机来说更加难以直接检索和提取有效信息的数据形态。此外由于多种潜在的因素(如背景噪声、说话人口音等），也使得开发出一套有效的语音唤醒系统变得更加复杂和困难。主要的语音唤醒技术包括早期的动态时间规整法，如今的基于隐马尔科夫模型的方法，以及基于深度学习的方法。

【发明内容】

[0003] 本发明针对现有技术中唤醒词无法定制且依赖预设语言模型的不足，提出一种可定制语音唤醒方法及系统，利用CTC模型输出后验概率稀疏的特点进行高效搜索，从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性能(准确率、召回率），高准确率，低误唤醒，另一方面对应用系统的计算资源消耗相对较少。
[0004] 本发明是通过以下技术方案实现的：
[0005] 本发明涉及一种可定制语音唤醒方法，包括以下步骤：
[0006] 步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模；
[0007]步骤2)对模型进行训练:将事先收集并标注好的音频数据首先要经过传统的信号处理方法做预处理并提取可供模型训练的声学特征，模型将特征数据作为输入，将标注的音素信息作为输出，在海量数据下通过深度学习的方法完成模型各参数量的训练，得到可使用的长短时记忆网络和连接时序分类模型；
[0008] 步骤3)采用训练后模型进行测试:对测试语音做同样的预处理和特征提取，并输入模型，模型将输出每一帧所有建模单元，即音素可能出现的后验概率；
[0009] 步骤4)唤醒词搜索:通过在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。其中：P(T)为目标音素序列
[0010]所述的最相似的可能音素序列Hmax，通过判断音素序列在语音中的出现概率，即出现概率越高且越与唤醒词音素序列相似的序列越可能是唤醒词的方式得到，具体为：
? T，T={ti，t2, · · ·，tn}的观察概率，ti表示Τ中的第i个音素，i为1~η;
[0012] 目标音素序列Τ位于CTC音素网格结构中的所有音素序列的概率为：
[0013] ρ(Τ | Lh) aP(LH | Τ)Ρ(Τ)~P(Hmax | Τ)Ρ(Τ)，其中：Lh表示CTC音素网格结构中的所有音素序列，而可能音素序列Hmax即为T已知时Lh中的最高概率。
[0014] P(H)为音素序列H，H= {niji，n(i+i)j2, ···，n(i+m-i)jm}的观察概率，ruj为lattice 网格结构中第i栏第j列的音素，音素序列Η也可以表示为· ·>}，其中:hk = n(i+k-i)jk;
[0015] P(H)通过unigram假设，即累积乘音素序列中每个音素的后验概率获得，具体为：
I P(T/H)为目标音素序列T和音素序列Η之间的相 MED(TJi) 似程度，p(2ii:/)4 II 作少职即目标音素序列和假设序列之间的每个，. 编辑操作的概率之积作为衡量音素序列相似性的指标，MED(T，H)表示目标音素序列T和音素序列Η的最少编辑操作次数，P(opi |R = T，E = H)表示当参考音素序列R为T时猜测音素序列E为Η时，序列E和R之间的第i次编辑操作〇Pi的概率。
[0016]所述的编辑操作是指:插入、删除、替换操作，其概率，即P(insert(ei))、P(delete (ω)和Ρ(ηΜ)直接由先验知识得出，^和&分别取自参考音素序列R和猜测音素序列E。 [0017]本发明涉及一种实现上述方法的可定制语音唤醒系统，包括:声学特征提取模块、记忆网络模块、分类模型模块、唤醒词搜索模块、决策模块和阈值估计模块，其中：声学特征提取模块与记忆网络模块相连并输出待测语音的声学特征信息，记忆网络模块与分类模型模块相连并传输音素后验信息，分类模型模块与唤醒词搜索模块相连并传输最大相似音素序列，唤醒词搜索模块与决策模块相连并根据收到的唤醒词输出待测语音可能解，决策模块根据来自阈值估计模块的判断阈值以及待测语音可能解得出判断结果。
[0018] 所述的唤醒词搜索模块采用基于连接时序分类（Connectionist Temporal Classification, CTC)模型的Lattice网络结构，其中包含了所有可能的语音识别结果及其概率。技术效果
[0019]本发明相比较传统方法主要有以下不同：

【附图说明】
[0020] 图1为本发明系统结构不意图；
[0021] 图2为神经网络结构示意图；
[0022]图中给出了不同手机对应的后验概率，下半部分的网格中的实线表示潜在路径，虚线表示所有有效连接。
【具体实施方式】
[0023] 本实施例包括:声学特征提取模块、记忆网络模块、分类模型模块、唤醒词搜索模块、决策模块和阈值估计模块，其中：声学特征提取模块与记忆网络模块相连并输出待测语音的声学特征信息，记忆网络模块与分类模型模块相连并传输音素后验信息，分类模型模块与唤醒词搜索模块相连并传输最大相似音素序列，唤醒词搜索模块与决策模块相连并根据收到的唤醒词输出待测语音可能解，决策模块根据来自阈值估计模块的判断阈值以及待测语音可能解得出判断结果。
[0024] 本实施例涉及上述系统的语音唤醒方法，具体包括以下步骤：
[0025] 步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模，具体步骤包括：
[0026] 1.1)确定模型结构:根据应用场景设备的计算能力预估模型复杂度，由于计算复杂度与模型的参数量正相关，因此首先要设定参数量的上限，例如不超过5.5M大小。然后在此限定下指定网络结构，例如使用3隐层网络，每次256个节点，投影为96个节点。
[0027] 1 . 2 )初始化长短时记忆网络：使用随机初始化的参数，也可以通过m 〇 d e 1 transferring方式初始化，由于随机初始化会造成之后CTC训练困难的问题，这里推荐使用 cross entropy准则预训练一个标准的声学长短时记忆网络，然后通过复制参数的方式初始化模型。
[0028] 步骤2)对模型进行训练:将事先收集并标注好的音频数据首先要经过传统的信号处理方法做预处理并提取可供模型训练的声学特征，模型将特征数据作为输入，将标注的音素信息作为输出，在海量数据下通过深度学习的方法完成模型各参数量的训练，得到可使用的长短时记忆网络和连接时序分类模型，具体步骤包括：
[0029] 2.1)对训练数据提取fbank，即Filter-bank声学特征。
[0030] 2.2)使用随机梯度下降方式完成模型的训练，训练参数需根据模型结构以及训练数据大小设定，例如对于上述例子中的模型，可采用0.00001的学习率，动量值为0.9，batch 大小256等等。
[0031] 步骤3)采用训练后模型进行测试:对测试语音做同样的预处理和特征提取，并输入模型，模型将输出每一帧所有建模单元可能出现的后验概率，具体步骤包括：
[0032] 3.1)对测试数据提取fbank声学特征，特征提取过程要求与训练数据特征提取一致。
[0033] 3.2)将提取的特征逐帧输入训练得到的模型，直接计算出每一帧的后验概率。
[0034] 步骤4)唤醒词搜索:通过在生成的lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据，具体步骤包括：
[0035] 4.1)对每一句测试语音生成lattice网络结构，扫描每一帧"空白"的后验概率，当其后验低于预设值，例如0.8,那么认为这帧为一个尖峰。在找出一句话的所有尖峰后，将时间上连续的尖峰合并为一个尖峰，对于每个尖峰，选择出这一帧上后验概率较大的音素，例如后验概率大于0.005的音素，组成lattice网络结构中的一列;在构造出所有列后，两两连接lattice中相邻两列中的每个节点音素，得到所需lattice网络结构。
[0036] 4.2)根据前面提到的搜索算法公式，在生成的lattice网络结构上执行搜索算法，找到与目标音素序列最相似的音素序列。
[0037] 4.3)计算找到的音素序列的观察概率与相似程度的乘积，并与设置的阈值做比较，若大于阈值，则判断测试语音包含唤醒词，否则不唤醒。
[0038] 本实施例与现有技术的对比结果如下表：
[0039]其中LSTM-CTC KWS为本发明提出的方法。表格中展示了本方法和目前处理可定制唤醒词的主流方法HMM的对比结果，性能指标EER为平均相等错误率，F0M是错误唤醒在0至 10范围内唤醒率的平均值，EER越小越好，F0M越大越好。同时表格也说明了每个模型的参数量。实验中使用标准的WSJ0数据集，使用了 50个唤醒词做测试。可以看到，本发明提出的方法明显优于传统的GMM- HMM、DNN- HMM方法，且参数量更少。
[0040] 综上所述，与现有技术相比本发明基于唤醒词置信度与阈值的比较以判别是否唤醒。由于可定制唤醒系统不限定唤醒词，对于不同唤醒词所使用的阈值也很难统一，所以这里提出了一种针对不同唤醒词自动估计阈值的方法，一定程度上解决阈值难以统一的问题，从而提升系统唤醒的准确性;此外，本发明基于CTC的lattice网格规模更小，同时尽可能保留了有用信息。在此基础上提出的搜索算法，利用了音素序列的观察概率和与目标序列相似程度两方面信息，通过动态规划实现高效搜索唤醒词的目标，算法的时间和空间复杂度较低，但准确性很高。
[0041] 上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。
【主权项】
1. 一种可定制语音唤醒方法，其特征在于，包括W下步骤：步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模；步骤2)对模型进行训练:将事先收集并标注好的音频数据首先要经过传统的信号处理方法做预处理并提取可供模型训练的声学特征，模型将特征数据作为输入，将标注的音素信息作为输出，在海量数据下通过深度学习的方法完成模型各参数量的训练，得到可使用的长短时记忆网络和连接时序分类模型；步骤3)采用训练后模型进行测试:对测试语音做同样的预处理和特征提取，并输入模型，模型将输出每一帖所有建模单元，即音素可能出现的后验概率；步骤4)唤醒词捜索：通过在生成的Lattice网络结构上捜索与定制的唤醒词最相似的可能音素序列来作为判断依据。2. 根据权利要求1所述的可定制语音唤醒方法，其特征是，所述的最相似的可能音素序列Hmax，通过判断音素序列在语音中的出现概率，即出现概率越高且越与唤醒词音素序列相似的序列越可能是唤醒词的方式得到，具体为：其中：Ρ(Τ)为目标音素序列Τ，Τ = ， · · ·，tn}的观察概率，ti表示Τ中的第i个音素，i为1~η; 目标音素序列Τ位于CTC音素网格结构中的所有音素序列的概率为： ?("山）^口(^|1'化(1')>口化。3、|1'冲(1')，其中：山表示圳(：音素网格结构中的所有音素序列，而可能音素序列Hmax即为Τ已知时Lh中的最高概率； P化)为音素序列H，H={nijl，n(i+l)j2，···，n(i+m-l)jm}的观察概率，nij为lattice网格结构中第i栏第j列的音素，音素序列Η也可W表示为H=化l，h2，· · -，hm}，其中：hk = n(i+k-i"k; P化）通过unigram假设，即累巧乘音素序列中每个音素的后验概率获得，具体为：P(T/H)为目标音素序列T和音素序列Η之间的相似程度即目标音素序列和假设序列之间的每个编辑 .，操作的概率之积作为衡量音素序列相似性的指标，MED(T，H)表示目标音素序列Τ和音素序列Η的最少编辑操作次数，P(opi|R = T，E = H)表示当参考音素序列R为T时猜测音素序列E为邸寸，序列E和R之间的第i次编辑操作opi的概率。3. 根据权利要求2所述的可定制语音唤醒方法，其特征是，所述的编辑操作是指:插入、删除、替换操作，其概率，即P(inse;rt(ei))、P(delete(；Ti))和P(；Ti/ei)直接由先验知识得出，ri和ei分别取自参考音素序列R和猜测音素序列E。4. 根据权利要求2所述的可定制语音唤醒方法，其特征是，所述的步骤1包括： 1.1)确定模型结构:根据应用场景设备的计算能力预估模型复杂度，首先设定参数量的上限，然后在此限定下指定网络结构； 1.2)初始化长短时记忆网络：使用随机初始化的参数或model化ansferring方式初始化。5. 根据权利要求4所述的可定制语音唤醒方法，其特征是，所述的初始化长短时记忆网络，使用cross entropy准则预训练一个标准的声学长短时记忆网络，然后通过复制参数的方式初始化模型。6. 根据权利要求2所述的可定制语音唤醒方法，其特征是，所述的步骤2包括： 2.1) 对训练数据提取扎ank，即Filter-bank声学特征； 2.2) 使用随机梯度下降方式完成模型的训练，训练参数需根据模型结构W及训练数据大小设定。7. 根据权利要求2所述的可定制语音唤醒方法，其特征是，所述的步骤3包括： 3.1) 对测试数据提取扎ank声学特征，特征提取过程要求与训练数据特征提取一致； 3.2) 将提取的特征逐帖输入训练得到的模型，直接计算出每一帖的后验概率。8. 根据权利要求2所述的可定制语音唤醒方法，其特征是，所述的步骤4包括： 4.1) 对每一句测试语音生成lattice网络结构，扫描每一帖空白的后验概率，当其后验低于预设值时判定该帖为一个尖峰，将一句话中所有尖峰后，将时间上连续的尖峰合并为一个尖峰，对于每个尖峰，选择出运一帖上后验概率超过预设值的音素 W组成lattice网络结构中的一列;在构造出所有列后，两两连接lattice中相邻两列中的每个节点音素，得到所需lattice网络结构； 4.2) 在生成的lattice网络结构上执行捜索与定制，找到与目标音素序列最相似的音素序列； 4.3) 计算找到的音素序列的观察概率与相似程度的乘积，并与设置的阔值做比较，当大于阔值，则判断测试语音包含唤醒词，否则不唤醒。9. 一种实现权利要求1~8中任一所述方法的可定制语音唤醒系统，其特征在于，包括：声学特征提取模块、记忆网络模块、分类模型模块、唤醒词捜索模块、决策模块和阔值估计模块，其中：声学特征提取模块与记忆网络模块相连并输出待测语音的声学特征信息，记忆网络模块与分类模型模块相连并传输音素后验信息，分类模型模块与唤醒词捜索模块相连并传输最大相似音素序列，唤醒词捜索模块与决策模块相连并根据收到的唤醒词输出待测语音可能解，决策模块根据来自阔值估计模块的判断阔值W及待测语音可能解得出判断结果；所述的唤醒词捜索模块采用基于连接时序分类模型的Lattice网络结构，其中包含了所有可能的语音识别结果及其概率。
【文档编号】G10L15/02GK106098059SQ201610462976
【公开日】2016年11月9日
【申请日】2016年6月23日
【发明人】俞凯, 钱彦旻, 庄毅萌, 陈哲怀, 常烜恺
【申请人】上海交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：俞凯;钱彦旻;庄毅萌;陈哲怀;常烜恺;
技术所有人：上海交通大学;
我是此专利的发明人

上一篇：语音的纠错处理方法和装置、用于语音的纠错处理的装置的制造方法
上一篇：音调线生成方法和装置的制造方法