一种基于后验知识监督的噪声鲁棒声学建模方法与流程

文档序号:16236623发布日期:2018-12-11 22:40阅读:247来源:国知局
一种基于后验知识监督的噪声鲁棒声学建模方法与流程

本发明属于语音人机交互技术领域,具体的说是一种基于后验知识监督的噪声鲁棒声学建模方法。

背景技术

近年来,随着语音识别、自然语言处理、深度学习等技术的发展和市场需求的不断深化,语音交互产品的研发与应用逐渐成为一个新的热点;另一方面,由于实际应用场景的复杂性,语音交互系统的运行通常处在一个低信噪比的环境下,由于对噪声的抗干扰能力不足,系统交互过程中经常会出现语音识别准确率低或人机交互混乱等情况,导致服务对象的交互体验感不佳,很大程度上限制了语音交互产品的市场应用及推广。

相关研究表明,语音声学模型能否从带噪语音中提取出完整音素信息是决定语音交互系统噪声鲁棒性的关键,声学模型在噪声鲁棒性上的不足主要是模型构建阶段环境噪声导致训练数据与测试数据不匹配而造成的,即提高噪声鲁棒性的目的是要最大限度的降低或消除此类因素的影响。迄今为止,语音识别领域的诸多学者对声学模型噪声鲁棒性开展了广泛研究并提出了多种改进策略,其中应用效果较好的有特征补偿、模型补偿、鲁棒性特征提取和语音增强四种方法。

特征与模型补偿是通过自适应算法对声学模型进行优化处理的噪声鲁棒性方法。例如leggetter等利用最大似然回归(mllr)算法进行模型自适应;tran等通过线性分解网络对基于深度神经网络(dnn)的声学模型训练的输入数据进行自适应处理,使声学模型能够较好的匹配带噪语音的数据结构,模型鲁棒性得到提升。

鲁棒性特征提取是指从语料中提炼出对于噪声不敏感的特征参数,构建抗噪能力强的特征序列,从而提高声学模型的噪声鲁棒性。倒谱均值归一化法(cmn)和均值方差归一化方法(mvn)是最常见的两种鲁棒性特征提取方法,另外也有学者将感知线性预测系数(plp)特征与相对谱(rasta)滤波结合,加强声学模型对加性噪声和线性滤波的鲁棒性;另外刘长征等以mfcc特征作为cnn网络的输入,采取有监督学习的方式,提取出更高层的语音特征,实验表明这些特征在噪声环境下具有较好的时序不变性。

语音增强现今最常用的方式是通过噪声更新与噪声消除相结合的谱减法对语音和噪声独立处理,在假设噪声信息已知的情况下估计出语料的噪声谱,从带噪语音谱中减去预估的噪声谱得到语料的干净谱,从而提取出噪声语音中的干净特征用于声学模型的训练;此外xu等提出了谱减法与dnn网络相结合的方式,将谱减法处理后的特征与噪声估计参数作为基础样本输入到dnn网络中,通过噪声依赖训练得到的深度声学模型与谱减法相比抗噪性能更好。

上述四种方法虽然可以有效的提升声学模型的环境鲁棒性,但是在理论与应用上存在两个问题:一是上述方法只是通过干净语音对带噪语音的降噪进行监督或者通过带噪语音对干净语音进行拟合,降低二者之间的差异性,并未充分挖掘干净语音的隐含知识,对信息的提炼不够充分;另一方面,上述四类方法中声学特征提取模块与后续的训练识别过程是相互独立的,没有考虑建模与特征提取单元之间的内在联系,使得模型训练的目标函数与系统整体的性能指标有偏差,并且提取出的语音特征中包含部分冗余信息,这些冗余信息通常不具备噪声鲁棒性,导致使得整个声学网络往往达不到最优性能。

因此,如何提高语音交互系统的噪声鲁棒性是现阶段急需解决的问题。



技术实现要素:

针对上述现有技术中存在的问题,本发明的目的在于提供一种基于后验知识监督的噪声鲁棒声学建模方法,该方法可提升声学模型的噪声鲁棒性。

本发明所采用的技术方案为:

提供了一种基于后验知识监督的噪声鲁棒声学建模方法,包括:

通过老师模型的训练得出干净语音的后验概率分布;

以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;

其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。

进一步的,所述老师模型的训练,包括:

对干净语音进行特征xt提取;

对分窗后的特征xt进行逐帧强制对齐,并得到每一帧语音数据的硬标注;所述分窗即分帧和加窗,一般是根据预设的参数对语音数据进行分帧,并加窗便于后续特征对齐。

在强制对齐的基础上对每一个硬标注进行时间维度上的起止点标注;

将所述起止点标注信息与硬标注数据作为监督信息送入dnn模块进行声学模型的建模训练。

进一步的,所述对分窗后的特征进行逐帧强制对齐,通过gmm-hmm模块进行。

进一步的,所述声学模型的建模训练,包括:

将特征xt作为模型输入,音素硬标注与标注数据作为监督信息,利用前向算法得出逐帧数据的三因素后验概率分布。

进一步的,所述学生模型的训练,包括:

对带噪语音进行初步特征xs提取;

提取出的音素特征xs与老师模型的软标注进行平行对齐,从而得到学生模型的软标注;

在初步提取的声学特征基础上提取高层特征,并进行高层特征的降维,提炼出能够对噪声语音不变性进行表征的特征序列;

将高层特征输入dnn模块进行声学模型的建模训练。

进一步的,所述提取高层特征借助cnn网络局部连接与降采样模块进行提取。

进一步的,所述神经网络模块的训练过程以相对熵最小化作为优化准则。

进一步的,所述老师模型和学生模型的后验概率分布差异性,通过相对熵进行量化。

进一步的,所述老师模型和学生模型的相对熵为:

其中:pt为老师模型的后验概率分布,qs为学生模型的后验概率分布,i表示三音素状态集合中的次序,phi为三音素状态集合中的第i个状态,xt表示用于训练老师模型的干净语音特征,xs表示用于训练学生模型的带噪语音特征,pt(phi︱xt)表示特征xt被识别为第i个三音素状态的后验概率,qs(phi︱xs)表示特征xs被识别为第i个三音素状态的后验概率。

进一步的,所述老师模型和学生模型的后验概率分布相对熵为:

与现有技术相比,本发明的有益效果为:

1、本发明示例的基于后验知识监督的噪声鲁棒声学建模方法,以干净语音训练的模型作为老师模型,带噪语音训练的模型作为学生模型,提炼老师模型的后验概率分布知识用于监督学生模型的训练,间接性的达到提高声学模型环境鲁棒性的要求。

2、本发明示例的基于后验知识监督的噪声鲁棒声学建模方法,采用cnn(卷积神经网络)与dnn(深度神经网络)相结合的声学模型训练网络结构,其中cnn模块用于提取带噪语音的不变性特征,dnn用于声学建模,整个网络参数的训练通过cnn与dnn模块联动调整与优化,构建的模型在chime数据集上进行了不同信噪比下的语音识别性能验证与对比,测试结果表明该模型具有较强的环境鲁棒性,表现出优越的抗噪性能。

3、本发明示例的基于后验知识监督的噪声鲁棒声学建模方法,采用的cnn-dnn学生模型与dnn模型相比,增加了卷积神经网络模块进行语音高层特征的提取,能够更好的捕捉带噪语音的时序不变性;另外cnn卷积神经网络内部的降采样(pooling)层对语音特征冗余信息具有剔除作用,实现了语音特征降维,在提高声学模型噪声鲁棒性的同时也促进了模型训练的效率提升。

4、本发明示例的基于后验知识监督的噪声鲁棒声学建模方法,相比传统的标准交叉熵(ce)最小化准则,以概率向量(软标注)替换了0-1向量(硬标注),软标注是对后验概率分布的深层提炼,包含的有用信息更丰富,更利于鲁棒性声学模型的建模。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1为本发明实施例的流程图;

图2为本发明实施例老师模型训练的流程图;

图3为gmm-hmm模块的结构示意图;

图4为本发明实施例学生模型训练的流程图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示,本发明的一个实施例提供了一种基于后验知识监督的噪声鲁棒声学建模方法,包括:

s1:通过老师模型的训练得出干净语音的后验概率分布;

s2:以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;

其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。

对于两种模型的后验概率分布差异性,本实施例使用kl散度(相对熵)进行量化。对声学模型而言,kl散度的物理意义是指在相同的基础语音空间里,概率分布p(x)对应的每个音素特征,若用概率分布q(x)编码时,平均每个音素特征编码长度增加的比特数。本实施例假设pt为老师模型的后验概率分布,qs为学生模型的后验概率分布,qs相当于对pt后验概率分布的近似估计,因此二者的相对熵可表示为:

其中:i表示三音素状态集合中的次序,phi为三音素状态集合中的第i个状态,xt表示用于训练老师模型的干净语音特征,xs表示用于训练学生模型的带噪语音特征,pt(phi|xt)表示特征xt被识别为第i个三音素状态的后验概率,qs(phi|xs)表示特征xs被识别为第i个三音素状态的后验概率,该式通过变形可简化成以下形式:

通过观察可以发现,的计算与学生模型的建模过程无关,在实际监督训练过程中可以忽略,因此两种模型的后验概率分布相对熵可以表示为:

上述算式从形式上看类似于标准交叉熵(ce)的计算,差别在于标准交叉熵(ce)是对训练数据的经验概率分布与模型后验概率分布进行差异性分析,一般来说,经验概率分布通常是以0-1向量硬标注来进行描述,而老师模型与学生模型的相对熵是对两种模型的后验概率分布进行差异性比较,相当于将“硬标注”替换成了“软标注”。

老师模型的构建是以gmm-hmm与神经网络的混合模型为基础,其训练步骤如图2所示:

首先对干净语音进行特征xt提取,gmm-hmm模块对分窗后的特征xt进行逐帧强制对齐,并得到每一帧语音数据的硬标注,即对每一帧的三音素状态进行0-1向量判断,属于某一音素状态则观测概率设为1,不属于设为0,从而得到每一帧数据的三音素状态观测概率分布,例如[110100];在强制对齐的基础上对每一个硬标注进行时间维度上的起止点标注,该标注信息与硬标注数据作为监督信息送入神经网络模块进行声学模型的建模训练。gmm-hmm模块的结构如图3所示。上述分窗即分帧和加窗,一般是根据预设的参数对语音数据进行分帧,并加窗便于后续特征对齐。

神经网络模块的训练以特征xt作为模型输入,音素硬标注与标注数据作为监督信息,利用前向算法得出逐帧数据的三音素后验概率分布(硬标注)。硬标注与软标注的区别在于,软标注是指每一帧数据的三音素状态后验概率分布,而非简单的0-1判断,由此得到的每一帧数据的软标注的形式类似于[0.20.150.30.10.10.1],其中的每个数据表示该帧数据属于不同三音素状态的后验概率。

学生模型的构建采用cnn与dnn网络相结合的方法,学生模型的基本训练流程如图4所示:

学生模型的训练首先对带噪语音进行初步特征xs提取,提取出的音素特征xs与老师模型的软标注进行平行对齐,从而得到学生模型的软标注。在初步特征提取的基础上,借助cnn网络局部连接与降采样模块的功能特性,在mfcc和fbank等初步提取的声学特征基础上提取高层特征,并进行高层特征的降维,从而提炼出能够对噪声语音不变性进行表征的特征序列;另一方面,考虑到dnn网络具有强大的分类能力,在声学模型的性能上已经超越了gmm等传统模型,最后将高层特征输入dnn层进行声学建模,整个模型网络的训练过程以相对熵最小化(式3)作为优化准则。上述高层特征的降维是指通过pooling层对特征图进行降维并凝练重要的具有局部概括性的特征。

本实施例的基于后验知识监督的噪声鲁棒声学建模方法,类似于老师指导学生的方式,以老师模型的后验概率分布(软标注)作为监督信息对学生模型的训练进行指导,并设计出一种基于cnn-dnn混合网络的学生模型,通过对带噪语音的高层特征进行提炼,提升声学模型的抗噪性能。本实施例构建的学生模型在chime带噪数据集下进行了性能验证工作,实验结果显示三种老师模型监督下的学生模型词错误率与基线模型相比平均下降了5.21%,6.35%和7.83%,表明本文提出的后验知识监督方法对声学模型的鲁棒性具有很好的提升效果。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

除说明书所述的技术特征外,其余技术特征为本领域技术人员的已知技术,为突出本发明的创新特点,其余技术特征在此不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1