相位敏感的门控多尺度空洞卷积网络语音增强方法与系统与流程

文档序号:23818191发布日期:2021-02-03 14:14阅读:93来源:国知局
相位敏感的门控多尺度空洞卷积网络语音增强方法与系统与流程

[0001]
本发明涉及语音增强方法,尤其涉及一种相位敏感的门控多尺度空洞卷积网络语音增强方法与系统。


背景技术:

[0002]
早期的听觉实验研究表明,当信噪比高于6db时,相位失真对语音质量和可懂度的影响很小,因此目前大多数单通道语音增强方法主要还是在语音信号的幅度域进行降噪处理,并直接利用带噪相位进行语音信号的重构。但是,当我们的语音产品面对的声学场景更加恶劣时,例如信噪比低于0db,或者局部时间内噪声信号完全淹没语音信号的情况等,如果只对语音信号的幅度进行增强,并不能保证增强语音具备良好的语音可懂度,甚至还会出现一些声音颤抖、嗡嗡声等语音失真问题。


技术实现要素:

[0003]
为了解决现有技术中的问题,本发明提供了一种相位敏感的门控多尺度空洞卷积网络语音增强方法与系统。
[0004]
本发明提供了一种相位敏感的门控多尺度空洞卷积网络语音增强方法,利用神经网络模型构建语音信号复数频谱之间的映射关系,将经过时频分析处理后的带噪语音实虚部频谱进行映射,获得增强后的实虚部频谱,并恢复成增强的时域语音信号。
[0005]
作为本发明的进一步改进,首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的复数谱,分离实虚部,并只取有效值部分,便得到了两组输入特征:实部特征和虚部特征。
[0006]
作为本发明的进一步改进,随后将两组输入特征送入门控多尺度空洞卷积网络模型。
[0007]
作为本发明的进一步改进,所述门控多尺度空洞卷积网络模型的处理流程包括:首先,由门控编码模块进行门控编码操作,来获取高纬度非线性的特征表示形式,紧接着利用多尺度特征分析模块分别对编码的实部特征和虚部特征表示进行时序特征分析,并由门控解码模块分别进行门控解码操作,得到增强后的实虚部频谱。
[0008]
作为本发明的进一步改进,将增强后的实虚部频谱进行反傅里叶变换,再重叠相加,最终得到增强语音信号。
[0009]
作为本发明的进一步改进,所述门控编码模块由至少两个门控线性编码单元堆叠而成,每个门控线性编码单元采用1
×
3的卷积核,以步长为1
ꢀ×
2的方式进行二维卷积操作。
[0010]
作为本发明的进一步改进,每个门控线性编码单元的输出都进行指数线性激活,来进行特征的非线性变换。
[0011]
作为本发明的进一步改进,所述多尺度特征分析模块的输入包括两组特征:(1)原始的带噪语音的实或虚部谱;(2)所述门控编码模块输出的实或虚部特征。
[0012]
作为本发明的进一步改进,所述多尺度特征分析模块由至少两个多尺度分析单元堆叠而成,每个多尺度分析单元将两组特征张量进行拼接操作,拼接之前需要对两组张量进行重塑操作,使其变成一个三维的张量,形状为[句子数,句子长度,322]。接下来,将拼接的特征张量进行子带分解,这里一共分成8个子带,前7个子带的张量形状为[句子数,句子长度,40],最后一个子带的形状为[句子数,句子长度,42],将当前子带的输入和其邻近的子带卷积输出相拼接,然后再进行一维的空洞卷积操作,在每个子带卷积之后,采用指数线性激活,经过多个多尺度分析单元之后,利用一层1024维的全连接层对多尺度分析后的特征进行拓展,并将输出的特征张量再重塑成4维的张量形式[句子数,句子长度,4,256],紧接着,将两组重塑后的特征张量分别送进门控解码模块进行解码操作。
[0013]
本发明还提供了一种相位敏感的门控多尺度空洞卷积网络语音增强系统,包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。
[0014]
本发明的有益效果是:通过上述方案,提高了语音增强的效果,保证了增强语音具备良好的语音可懂度,较好的避免了语音失真问题。
附图说明
[0015]
图1是本发明一种相位敏感的门控多尺度空洞卷积网络语音增强方法的处理流程框图。
[0016]
图2是本发明一种相位敏感的门控多尺度空洞卷积网络语音增强方法的门控多尺度空洞卷积网络结构图。
[0017]
图3是本发明一种相位敏感的门控多尺度空洞卷积网络语音增强方法的门控线性编码及解码单元的结构图。
[0018]
图4是本发明一种相位敏感的门控多尺度空洞卷积网络语音增强方法的多尺度分析单元结构图。
具体实施方式
[0019]
下面结合附图说明及具体实施方式对本发明作进一步说明。
[0020]
一种相位敏感的门控多尺度空洞卷积网络语音增强方法,旨在利用神经网络模型构建语音信号复数频谱之间的映射关系,将经过时频分析处理后的带噪语音实虚部频谱进行映射,获得增强后的实虚部频谱,并恢复成增强的时域语音信号。整个算法的处理流程如图1所示,虚线部分为本发明所设计的门控多尺度空洞卷积网络结构,是整个算法的核心模块,它通过门控编码、多尺度特征分析和门控解码三个模块实现对带噪语音实虚部频谱的降噪处理。
[0021]
如图1所示,带噪语音信号首先进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的复数谱,分离实虚部,并只取有效值部分,便得到了两组输入特征:实部特征和虚部特征。随后将两组特征送入门控多尺度空洞卷积网络模型,首先进行门控编码操作,来获取高纬度非线性的特征表示形式,紧接着利用多尺度特征分析模块分别对编码的特征表示进行时序特征分析,并分别进行解码,得到增强后的实虚部频谱。下面将分别对门控多尺度空洞卷积网络的各个模块进行详细的介绍。
[0022]
门控多尺度空洞卷积网络的详细结构如图2所示,由门控编码、多尺度特征分析和门控解码三个部分构成。输入的带噪语音的实虚部特征 x
real
(n,k)和x
imag
(n,k)会首先进入到门控编码部分进行特征变换,门控线性编码单元的结构如图3中的(a)所示,输入的实虚部特征的张量形状为[句子数,句子长度,161,2],由于采用16k的采样率,语音帧长为20ms,重叠10ms,因此第三维的161为实部或虚部的每一帧所对应的特征长度,第四维的2代表了实部和虚部,共计两个维度。这里一共堆叠了5个门控线性编码单元,每个编码单元采用1
×
3的卷积核,以步长为1
×
2的方式进行二维卷积操作,通道数量分别为16,32,64,128,256,也就依次得到了5个线性编码单元的输出张量:[句子数,句子长度,80,16]、[句子数,句子长度,39,32]、[句子数,句子长度,19,64]、[句子数,句子长度,9, 128]和[句子数,句子长度,4,256]。为了实现特征之间的注意力控制,采用了sigmoid激活函数将每个编码单元中一侧的卷积输出进行非线性激活,使其变成[0,1]内的概率值,然后以一种门控注意力的方式,点乘在另一侧的卷积输出特征上。此外,每个门控线性编码单元的输出都会进行下式(1) 中的指数线性激活,来进行特征的非线性变换。
[0023][0024]
其中,α是训练过程中需要进行优化的参数,这种指数线性激活有利于缓解训练过程中的梯度消失,使得模型对输入噪声更加鲁棒。
[0025]
接下来,为了充分利用语音信号之间的上下文信息,我们采用了一种多尺度的时域特征分析方法,对过去帧和当前帧中的特征信息进行分析和综合,捕获更有利于估计当前帧特征的上下文信息。所设计的多尺度分析单元的结构如图4所示,其中多尺度分析单元的输入主要有两个部分:原始的带噪语音的实或虚部谱以及前面模块所输出的特征,随后将两组特征张量进行拼接操作,拼接之前需要对两组张量进行重塑操作,使其变成一个三维的张量,形状为[句子数,句子长度,322]。接下来,将拼接的特征张量进行子带分解,这里一共分成8个子带,前7个子带的张量形状为[句子数,句子长度,40],最后一个子带的形状为[句子数,句子长度,42]。对每个子带进行卷积操作时,需要将当前子带的输入和其邻近的子带卷积输出相拼接,然后再进行一维的空洞卷积操作,由于这里一共堆叠了5个多尺度分析单元,为了更好地扩大卷积的感受野,采用空洞率逐渐提升的方式,分别为1,3,5,7,11。此外,在每个子带卷积之后,采用了式子 (1)中的指数线性激活。这种子带拼接卷积的方式,使得每层卷积层具备了不同的感受野范围,并且在分解方向上,感受野线性增加,从而保证了卷积层具备了不同尺度的时序特征分析能力。然而,我们希望每一个多尺度分析单元都可以产生一组复数谱特征的中间估计,并以此作为下一个多尺度分析单元的输入。因此,在多尺度卷积层之后,我们设计了一个全连接的线性解码层,将多尺度层得到的特征进行线性变换,得到一个实部或虚部的中间估计值,其张量的形状为[句子数,句子长度,161]。
[0026]
经过5个多尺度分析单元之后,利用一层1024维的全连接层对多尺度分析后的特征进行拓展,并将输出的特征张量再重塑成4维的张量形式[句子数,句子长度,4,256]。紧接着,将两组重塑后的特征张量分别送进门控线性解码单元进行解码操作。其中,线性解码单元的运算方式如图3(b) 所示,与线性编码单元不同,线性解码单元采用二维的反卷积操作实现对特征张量的拓展,每个解码单元采用1
×
3的卷积核,以步长为1
×
2的方式进行二
维反卷积,便可以实现每个通道特征的逐渐拓宽,而通道数量采用逐渐递减的方式,分别为128,64,32,16,1,也就依次得到了5个线性解码单元的输出张量为:[句子数,句子长度,9,128]、[句子数,句子长度,19,64]、[句子数,句子长度,39,32]、[句子数,句子长度,80, 16]和[句子数,句子长度,161,1]。同样地,每个门控线性解码单元的输出也会进行式子(1)中的指数线性激活,来进行特征的非线性变换,门控线性解码单元如图3中的(b)所示。
[0027]
神经网络模型构建完成以后,还需要对其进行大量数据的训练,才能使其具备映射纯净实虚部频谱的能力。首先,需要准备足够多对的带噪语音复数谱和理想的语音复数谱作为训练数据集,所以我们挑选了timit数据集
[1]
中4620句话作为训练集的纯净语音数据,然后利用noisex-92
[2]
噪声库中的12种噪声,包括了餐厅噪声、2种战斗机噪声、2种驱逐舰噪声、工厂噪声、坦克噪声、volvo汽车噪声、高频信道噪声、白噪声、豹式战车噪声和机枪噪声,作为噪声数据与纯净语音进行随机混合,混合的信噪比在[-5,15]之间,服从均匀分布,总共获得时长约为38个小时的带噪训练数据。为了对模型的参数进行调优,需要设置验证集,同样从tmit数据集的测试集中挑选出280句话作为验证集纯净语音数据,并与训练集中的12 种噪声进行信噪比为-5到15db的均匀混合。门控多尺度空洞卷积网络训练时的损失函数用均方差来计算,计算式如式子(2)所示,其中n和k分别语音信号的帧和频率索引,x
real
(n,k)和x
imag
(n,k)为理想的实虚部谱,而和则是神经网络输出的的实虚部谱:
[0028][0029]
训练时,以20%随机神经元失活率和批归一化的方式减小模型的过拟合问题,并利用adam优化算法进行反向传播,以0.001的学习率迭代50次,然后再以0.0001的学习率迭代10次,便可以得到一个具备映射纯净语音实虚部谱的门控多尺度空洞卷积网络模型。
[0030]
下面实验验证了本发明所提出方法的降噪效果,为了评价降噪后语音的质量、可懂度以及失真情况,我们采用了pesq(perceptual evaluation ofspeech quality)、stoi(short-time objective intelligibility)和sdr(signalto distortion ratio)指标来评测降噪后的语音。如表1所示,所有的降噪效果和指标都是在测试集上测得,指标越高代表性能越好。所用的测试集是从timit数据集的测试集中挑选出的与训练集和验证集均不重复的另外 320句话,并分别与noisex-92中12种训练过的噪声和3种未训练过的噪声(未训练过的战斗机噪声、未训练过的工厂噪声以及粉红噪声)混合成
ꢀ-
5db,0db,5db,10db和15db五种噪声污染程度。表1的实验结果表明,本发明所提出的方法不仅可以在训练过的噪声场景中具备很好的降噪效果,而且可以良好地泛化到未训练过的噪声场景中,具备了不错的模型泛化性能。即使是在工厂噪音、机枪声等瞬时噪声存在的情况下,本发明所提出的方法效果依然十分明显,几乎听不到突兀的背景噪声,并且语音质量也恢复地很好。在一些低信噪比的噪声环境中,增强后的语音也不存在嗡嗡声、声音抖动等问题。除此之外,本发明设计的方法的时间延迟小于 30ms,完全可以满足大多数语音产品对实时性的要求。
[0031]
表1不同噪声环境下的pesq、stoi和sdr指标评测结果
[0032][0033][0034]
与现有技术只在幅度域进行增强的深度神经网络降噪方法不同,本发明,将对语
音信号的复数谱信息,也就是傅里叶变换后的实虚部谱进行建模,构建一种多尺度编解码架构的空洞卷积神经网络,在复数域学习带噪信号和纯净信号之间的映射关系,从而实现对相位和幅度信息的共同优化。该算法的主要优点如下:
[0035]
(1)在复数域进行学习,考虑了对相位信息的增强,可以在低信噪比环境下实现更好的语音可懂度和语音质量;
[0036]
(2)复数谱的实虚部信息相当于两个学习目标,与映射单一幅度谱的方法相比,多目标的模型具备更好的泛化性能;
[0037]
(3)利用多尺度卷积方法进行建模,可以更精细地捕获语音中的上下文信息,利于恢复更多的语音细节;
[0038]
(4)所设计的模型是一个完全因果的系统,也就是说,模型的输出只与当前帧和过去帧信息有关,最大程度减少了算法的时延。
[0039]
参考文献:
[0040]
[1]j.s.garofolo,“getting started with the darpa timit cd rom:an acoustic phonetic continuous speech database nist tech report,”1988.
[0041]
[2]andrew varga,herman j.m.,steeneken,“assessment for automatic speech recognition:ii.noisex-92:a database and an experiment to study the effect of additive noise on speech recognition systems,”speech communication,vol.12, no.3,1993.
[0042]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1