一种基于级联DNN的语音唤醒优化方法与流程

文档序号:17933519发布日期:2019-06-15 01:07阅读:417来源:国知局
一种基于级联DNN的语音唤醒优化方法与流程

本发明涉及一种基于级联dnn的语音唤醒优化方法。



背景技术:

语音作为人人交互中最常见和有效的方式,一直以来也是人机通信和人机交互研究领域中重要的组成部分。由语音合成、语音识别以及自然语言理解联合构成的人机语音交互技术是世界上公认的高难度且富有挑战性的技术领域。

自动语音识别是人机智能交互技术中的关键环节,它所要解决的问题是让计算机能够“听明白”人类的语音,将语音信号中包含的文字信息“剥离”出来。技术相当于给计算机安装上类似于人类的“耳朵”,在“能听会说”的智能计算机系统中扮演着至关重要的角色。语音识别是一个多学科交叉的技术领域,涉及了信号与信息处理、信息论、随机过程,概率论,模式识别、声学处理、语言学、心理学、生理学以及人工智能等多个领域。

语音唤醒,也称作关键词检测(keywordsspotting,kws),是自动语音识别技术领域的一个重要技术分支。语音关键词检测不同于自动语音识别,不需要完全识别出所有的语音内容,而只需要检测出语音流中给定的关键词。随着移动互联网时代的到来,关键词检测在移动设备上的应用也越来越多,比如谷歌公司的googlenow,用户只要说出“ok,google”,手机就会自动打开googlenow

供用户使用,其中用到的技术就是关键词检测技术。另外,关键词检测技术在语音文档检索中也有比较多的应用。特别是,随着大数据的兴起,如何从海量的数据中获取特定的关键词,或者利用海量的语音数据进行数据挖掘,都是值得研究的问题,并且在可预见的将来,基于关键词技术的应用也会越来越多,在车载导航、智能家居等场景有广泛的应用前景。

现有技术中目前主要有三种方案进行语音唤醒。第一种方法是基于模板匹配,通过语音信号滑窗,从实时语音流中截取一段语音信号,与关键词模板库中语音模板匹配,通过dtw算法计算该窗信号与关键词匹配程度,当达到一定的阈值就唤醒。计算量少,但是错误率高。第二种方法是基于hmm模型的“关键词-垃圾词(filler)”模型。利用大规模语料,除去关键词,其他的词都称作“垃圾词”(包括静音和噪声),训练一个建立基于hmm的模型,用来区分关键词和垃圾词。利用viterbi方法,也就是说利用了语音识别器,但是它不需要非常大的词表。基于这种方法的关键词检测可以看成一个受限的语音识别问题,其与语音识别不同的是不需要识别整个句子。缺点是需要大量的训练数据来训练所需的模型。

第三种是基于大词汇量连续语音识别(largevocabularycontinuousspeechrecognition,lvcsr)的语音关键词检测系统主要分为语音识别和关键词检索两个阶段,在语音识别阶段,利用lvcsr语音识别系统进行识别解码,将语音转换为文本形式输出解码结果;然后在关键词检索阶段,再对解码结果进行关键词检索。

发明专利[专利号:cn201711161966],公开了一种语音端点检测和唤醒方法,先对语音流做端点检测,然后提取端点检测区间数据的fbank特征,送入二值化神经网络,经过前向计算,得到二值神经网络的输出,然后将输出结果送到预先设置的后端评判策略,判定是否唤醒。该专利第一个二值化神经网络用来做端点检测(voiceactivitydetection,vad),得到唤醒语音段后,再将语音段的fbank特征送入第二个二值化神经网络,得到声学后验概率,再将声学后验概率送入策略判定模块。这种设计过于复杂,且各模块间性能耦合严重,其中任一模块性能的短板,都会影响唤醒率,且后端的策略模块的设计尤为重要。

发明专利[专利号:cn201710343427],公开了一种基于鉴别性训练的唤醒定制系统,首先神经网络输出逐帧声学概率;然后基于大规模文本训练的音素级的语言模型,为唤醒词构建搜索网络;结合逐帧声学概率和上述搜索空间,进行唤醒词竞争项建模,得到后验概率;上述后验概率结合已标注的唤醒词,进行声学鉴别性训练,得到最终的声学模型。该专利公开的方法适用用户自定义唤醒词场景,为唤醒词构建搜索网络步骤这一步骤,严重依赖基于大规模文本语料训练的语言模型,且整个系统设计较为复杂。

发明专利[专利号:cn201710722743],其中唤醒部分公开了一种基于云端的命令词识别方法,主要涉及汽车语音控制方法。基于lvcsr模型,该模型部署在云端,识别出文字信息后,经过语义分析,与云端命令词库匹配,决定是否唤醒。该专利中公开的语音唤醒方法是采用云端lvcsr模型,结合自然语言处理(naturallanguageprocessing,nlp)的语义分析功能。首先只能在云端部署,无法在端设备上部署,用户体验会受网络延时的限制,同样,语义分析模块也需要大规模文本语料来训练。

发明专利[专利号:cn201310645815],公开了一种包含说话人识别的唤醒模型。首先获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定所述语音源自所述用户时,识别所述语音中的命令词。该专利中公开的技术侧重声纹识别和用户认证。唤醒模块与发明专利[专利号:cn201310035979]中公布专利基本相同。

发明专利[专利号:cn201310035979],公开了一种语音命令识别方法和系统。其中唤醒词识别分为两部分,首先对声学背景环境建模,然后对声学前景环境建模,结合两个模型输出以音素为单位的解码序列,将解码序列送入字符级的解码器,判定是否唤醒。该专利中公布的技术是采用两个模型分别对语音的背景(噪声、安静环境)和前景建模,使用时结合在一起输出语音的音素序列,然后送入解码器进行字符级解码。这种模型适应的语音环境单一,不同的噪声环境会对模型性能产生较大影响;最后解码出来的字符串序列,仍然要再送入判定模块,判定是否是唤醒词。



技术实现要素:

本发明要解决的技术问题是克服现有技术中的语音唤醒方法模型比较复杂,抗噪能力差的缺陷,提供一种基于级联dnn的语音唤醒优化方法。

一种基于级联dnn的语音唤醒优化方法,包括以下步骤:

1)实时获取麦克风采集的语音信号,经过特征抽取,获得实时语音信号的逐帧声学特征;

2)以固定窗长,截取声学特征序列,形成一帧,作为第一级dnn的输入;

3)经过第一级dnn声学模型的前向过程计算,输出得到逐帧音素的声学后验概率;

4)以固定的窗长截取第一级dnn的输出,形成一帧音素后验概率序列,作为第二级dnn的输入;

5)经过第二级dnn前向过程计算,判定是否唤醒,并输出唤醒与否的判定结果。

进一步的,所述步骤1)中特征抽取是指实时语音的mfcc(melfrequencycepstralcoefficents)特征提取,共14维度,第14维为当前帧的对数能量。

进一步的,经过第一级dnn声学模型的前向过程计算,输出得到逐帧音素的声学后验概率,包含以下步骤:

1)将帧变形至维度为1,形成1维的特征序列;

2)将1维特征序列送入第一级dnn,进行音素级声学后验概率计算;

3)经过第一级dnn前向计算获得关键词音素(唤醒词包含的音素)、静音音素或者非关键词音素(统一指定为filler音素)的声学后验概率。

进一步的,所述的第一级dnn为上下文相关的音素声学模型,利用一个多层全连接神经网络对声学特征序列建模。

进一步的,所述的关键词音素为组成关键词的所有音素,非关键词音素是指除关键词音素和静音音素以外所有音素,模型中统一标定为filler。

进一步的,步骤5)中,经过第二级dnn前向过程计算,判定是否唤醒,包含如下步骤:

一、将音素后验概率序列变形至1维,作为第二级dnn的输入;

二、第二级dnn经过前向计算,音素后验概率序列的分类结果:唤醒或者不唤醒。

进一步的,所述的音素后验概率序列为第一级dnn输出的多个音素声学后验概率的组合,这种组合在时序上是连续的。

进一步的,所述的音素后验概率序列模型,利用一个多层的全连接神经网络对音素后验概率序列进行建模。

本发明所达到的有益效果是:这种设计方案能最大程度利用dnn的抗噪能力,环境适应性强,不必先做vad再做唤醒检测;也不必对语音背景单独建模;两级模型能够互补,不要求两级dnn都是训练完备的强分类器,这可以极大减少训练所需语料;没有语言模型,不需要文本语料。

1、本发明的基于级联dnn的语音唤醒优化方法采用两级的dnn模型,分别对声学模型和逐帧声学后验序列建模。将唤醒的过程分为两个步骤进行,两级dnn协同,有很好的鲁棒性,具备很好的环境适应性,具备很好的抗噪能力,误唤醒率低;

2、相较于hmm(hiddenmarkovmodel)模型训练的数据需求,两级dnn可以用较少的数据来训练,不需要语言模型,不需要文本语料训练,对数据量不敏感;

3、没有置信度计算策略,也没有判定策略,唤醒与否依赖第二级dnn输出,不必精细挑选唤醒阈值;

4、两级dnn模型可以部署在云端,做完定点化后,可部署在端设备上。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明的原理示意图;

图2是本发明的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

实施例

如图1-2所示,一种基于级联dnn的语音唤醒优化方法,包括以下步骤:

1)实时获取麦克风采集的语音信号,经过特征抽取,获得实时语音信号的逐帧声学特征;特征抽取是指实时语音的mfcc(melfrequencycepstralcoefficents)特征提取,共14维度,第14维为当前帧的对数能量;

2)以固定窗长,截取声学特征序列,形成一帧,作为第一级dnn的输入;

3)经过第一级dnn声学模型的前向过程计算,输出得到逐帧音素的声学后验概率;具体的方法如下:

a)将帧变形至维度为1,形成1维的特征序列;

b)将1维特征序列送入第一级dnn,进行音素级声学后验概率计算;

c)经过第一级dnn前向计算获得关键词音素(唤醒词包含的音素)、静音音素或者非关键词音素(统一指定为filler音素)的声学后验概率。

4)以固定的窗长截取第一级dnn的输出,形成一帧音素后验概率序列,作为第二级dnn的输入;

5)经过第二级dnn前向过程计算,判定是否唤醒,并输出唤醒与否的判定结果。首先将音素后验概率序列变形至1维,作为第二级dnn的输入;然后第二级dnn经过前向计算,音素后验概率序列的分类结果:唤醒或者不唤醒。

如图1所示:其中实时语音101,进过特征提取模块102,形成声学特征103,多个连续103部件,组合成帧,送入第一级dnn模型104,前向计算得到逐帧的声学后验概率105,多个连续声学后验概率105,组合成帧,送入第二级dnn106,前向计算,输出唤醒与否的判定结果107

第一级dnn为上下文相关的音素声学模型,利用一个多层全连接神经网络对声学特征序列建模。关键词音素为组成关键词的所有音素,非关键词音素是指除关键词音素和静音音素以外所有音素,模型中统一标定为filler。

所述的音素后验概率序列为第一级dnn输出的多个音素声学后验概率的组合,这种组合在时序上是连续的。所述的音素后验概率序列模型,利用一个多层的全连接神经网络对音素后验概率序列进行建模。

这种设计方案能最大程度利用dnn的抗噪能力,环境适应性强,不必先做vad再做唤醒检测;也不必对语音背景单独建模;两级模型能够互补,不要求两级dnn都是训练完备的强分类器,这可以极大减少训练所需语料;没有语言模型,不需要文本语料。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1