一种语音唤醒模块的实现方法及应用的制作方法

文档序号：2829091阅读：3440来源：国知局

专利名称：一种语音唤醒模块的实现方法及应用的制作方法
一种语音唤醒模块的实现方法及应用技术领域
本发明公开了一种语音唤醒模块的实现方法及应用，具体涉及一种通过用户说预定的语音唤醒词来触发系统执行用户下一步操作，可以应用与需要实现语音唤醒的车载及家电等领域。
背景技术：
本发明涉及到一项已申请公开的发明专利，公开号为CN102645977A，申请日为 2012. 03. 26，发明人是殷建红、王忠、周彦煌，名称为“一种车载语音唤醒人机交互系统及方法”，在此将其引为参考文献。该发明的车载语音唤醒实现原理是在预先设置的flash 存储器中存放语音库、车载噪音库、语音引擎等信息，通过麦克风输入的语音指令经由主控制器MCU与存储器存储的语音指令相关信息进行比对进行语音识别，并将比对识别后确定的语音指令相关信息作为执行指令控制车载控制功能单元模块，实现其相应的功能。该发明中所涉及到的flash存放的都是固定的数据，而车载环境下，由于行车速度、路况、天气、是否开空调开窗户都会导致发动机噪声和轮胎噪声等车载噪声库变化，车内播放的音乐不同，发音人的不同会导致所参考的语音库发生变化，所以该发明仅适用于固定的场景下实现语音唤醒功能。而本发明通过采集各类场景下不同发音人录音数据，训练出一种声学模型，同时通过构建唤醒词检测网络及确认网络，使得本发明适应场景更广泛，同时语音唤醒效果好。发明内容
本发明的目的是为了解决现有技术的不足，提供一种语音唤醒系统的实现方法，即使在嘈杂环境下不论是否有播放音乐，都可以通过语音唤醒词开启语音唤醒功能，同时语音唤醒效果好；此外本发明还提供语音唤醒系统的应用，包括应用于车载及家电相关领域的应用。
本发明是通过以下技术方案实现的一种语音唤醒模块的实现方法包括语音输入1、语音唤醒算法2和唤醒执行3步骤，语音唤醒算法2获取语音输入I的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行3，从而完成唤醒操作；
所述语音唤醒算法2通过声学特征提取4、唤醒词检测5、唤醒词确认6、构建唤醒词检测网络7、训练声学模型8和构建唤醒词确认网络9来实现，具体实现过程如下
第一步，声学特征提取4 :通过语音输入I获取语音信号输入，提取具有区分性的、并且是基于人耳听觉特性提取的特征，通常选取语音识别中用到的MFCCWel-Frequency Cepstrum Coeff icient，美尔频率倒谱系数)特征作为声学特征；
第二步，唤醒词检测5 :将提取得到的声学特征，采用训练的声学模型8在唤醒词检测网络7上计算声学得分，如果得分最优的路径中包含要检测的唤醒词，则确定已检出唤醒词，进入第三步操作，否则回到第一步重新进行提取声学特征4步骤；
第三步，唤醒词确认6 :将提取得到的声学特征，采用训练的声学模型8在唤醒词确认网络9上进行唤醒词确认，得到最终确认得分；判断该检出的唤醒词是否为真实的唤醒词，即将该唤醒词的最终确认得分和预先设定的门限进行比较，如果最终确认得分大于等于门限，则认为该唤醒词是真实的唤醒词，语音唤醒成功，将结果输出给唤醒执行3，从而完成语音唤醒操作；如果最终确认得分小于门限，则认为该唤醒词为虚假的唤醒词，重新回到第一步重新进行声学特征提取4步骤。所述声学模型8的训练分为两部分，分别为音素声学模型和废料模型(即Garbage模型);音素声学模型采用传统的语音识别中的声学模型训练方法，选取数据库，利用基于MLE(Maximum Likelihood Estimation,最大似然估计)和MPE(Minimum Phone Error,最小音素错误)区分性训练准则下得到garbage模型用于吸收除唤醒词之外的无关语音，使用和训练音素模型同样的数据库，通过计算各音素模型之间的相似性，将各音素分为20类，使用每类音素对应的所有训练数据融合起来，采用MLE准则训练对应的Garbage模型，便得到20类Garbage模型。所述唤醒词检测网络7的实现方法是采用最优得分路径计算得出，所述最优得分路径的计算公式是
权利要求
1.一种语音唤醒模块的实现方法，其特征在于包括语音输入(I)、语音唤醒算法(2)和唤醒执行(3)步骤，语音唤醒算法(2)获取语音输入(I)的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行(3)，从而完成唤醒操作；所述语音唤醒算法(2)通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认￠)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)来实现，具体实现过程如下第一步，声学特征提取(4):通过语音输入(I)获取语音信号输入，提取具有区分性的、并且是基于人耳听觉特性提取的特征，通常选取语音识别中用到的MFCCWel-FrequencyCepstrum Coeff icient，美尔频率倒谱系数)特征作为声学特征；第二步，唤醒词检测(5):将提取得到的声学特征，采用训练的声学模型(8)在唤醒词检测网络(7)上计算声学得分，如果声学得分最优的路径中包含要检测的唤醒词，则确定已检出唤醒词，进入第三步操作，否则回到第一步重新进行提取声学特征(4)步骤；第三步，唤醒词确认￠):将提取得到的声学特征，采用训练的声学模型(8)在唤醒词确认网络(9)上进行唤醒词确认，得到最终确认得分；判断该检出的唤醒词是否为真实的唤醒词，即将该唤醒词的最终确认得分和预先设定的门限，如果最终确认得分大于等于门限，则认为该唤醒词是真实的唤醒词，语音唤醒成功，将结果输出给唤醒执行(3)，从而完成语音唤醒操作；如果最终确认得分小于门限，则认为该唤醒词为虚假的唤醒词，重新回到第一步重新进行声学特征提取(4)步骤。
2.根据权利要求1所述的语音唤醒模块的实现方法，其特征在于所述声学模型(8)的训练分为两部分，分别为音素声学模型和废料模型(即Garbage模型)；音素声学模型采用传统的语音识别中的声学模型训练方法，选取数据库，利用基于MLE(MaximumLikelihood Estimation,最大似然估计)和 MPE (Minimum Phone Error,最小音素错误)区分性训练准则下得到garbage模型用于吸收除唤醒词之外的无关语音，使用和训练音素模型同样的数据库，通过计算各音素模型之间的相似性，将各音素分为20类，使用每类音素对应的所有训练数据融合起来，采用MLE准则训练对应的Garbage模型，便得到20类Garbage 模型。
3.根据权利要求1所述的语音唤醒模块的实现方法，其特征在于所述唤醒词检测网络(7)的实现方法是采用最优得分路径计算得出，所述最优得分路径的计算公式是W = ^χηΛ^Ρ(}ν)Ρ{Χ\Ψ)W其中X代表从输入语音中提取的声学特征向量，W代表得分最大的最优词序列；条件概率P(Xlw)为声学模型得分，通过训练好的声学模型(8)计算得到；先验概率P(W)为语言模型得分，即为对不同的声学模型所加的PenaltyP(X)为全概率，当声学模型和唤醒词检测网络确定下来后即是定值。
4.根据权利要求1所述的语音唤醒模块的实现方法，其特征在于所述唤醒词确认网络(9)实现方法是a.将检出的唤醒词解码到音素一级，并记录所有的得分(Scoreptoml, Scorephone2,…，ScorephmJ，其中N为唤醒词中总的音素个数，Scoreptoml, Scorephone2,…，Scoreph_N分别表示该唤醒词中所有音素的是解码得分，其中下标表示音素的N个音素的标识；b.使用和唤醒词检测同样的特征，得到相应的声学得分，并精确到帧一级(Scoreframel, Scoreframe2,…，Scoreframeltl),其中M为该句特征总的时长，以巾贞为单位；c.计算得到唤醒词每个音素的确认得分，计算方式如下
5.根据权利要求1所述的一种语音唤醒模块的实现方法，其特征在于所述方法能够被移植到ARM或DSP通用处理器上运行，应用于车载及家电相关领域。
6.一种车载语音唤醒系统，其特征在于包括微处理器、权利要求1所述语音唤醒模块、音频转换装置、录音装置、音频处理装置、播音装置，所述语音唤醒模块运行在微处理器中，具体实现过程如下第一步，微处理器与音频处理装置互连，控制音频处理装置输出音频信息，而音频处理装置与播音装置互连，将所需要播放音频信息进行功率放大推动喇叭放音，完成音频播放操作；第二步，录音装置与音频转换装置互连，当用户说出语音唤醒词时，通过录音装置进行语音录入并传给音频转换装置转换，完成语音采集操作；第三步，音频转换装置对录音装置录入的语音信息进行数据转换，同时将转换后的数据传给微处理器进行语音唤醒模块的运算，完成音频数据转换操作；第四步，微处理器与音频转换装置互连，对音频转换装置输入的语音信息进行语音唤醒模块的运算，若正确识别出语音唤醒信息，则控制音频处理装置播放语音提示音，完成车载语音唤醒及提示音播放操作；若识别出错，则继续进行第二步语音采集操作。
全文摘要
一种语音唤醒模块的实现方法及应用，包括语音输入(1)、语音唤醒算法(2)和唤醒执行(3)；语音唤醒算法(2)实现主要通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认(6)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)等实现。本发明即使在嘈杂环境下不论是否有播放音乐，都可以通过语音唤醒词开启语音唤醒功能，识别唤醒效果好；本发明的实现方法能够被移植到ARM或DSP通用处理器上运行，应用于车载及家电相关领域。
文档编号G10L15/22GK102999161SQ20121045517
公开日2013年3月27日申请日期2012年11月13日优先权日2012年11月13日
发明者操文祥, 王海坤, 康怀茂, 钱勇, 谢信珍, 黄海兵申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：操文祥;王海坤;康怀茂;钱勇;谢信珍;黄海兵
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：一种基于时频平面上下文的音频算术编码方法
上一篇：基于长时特征和短时特征的重叠语音与单人语音区分方法