一种基于逐级幅度补偿网络的单通道语音增强方法

文档序号:35814156发布日期:2023-10-22 06:29阅读:34来源:国知局
一种基于逐级幅度补偿网络的单通道语音增强方法

本发明涉及语音增强领域,尤其涉及一种基于逐级幅度补偿网络的单通道语音增强方法。


背景技术:

1、单通道语音增强是指从仅由一个麦克风捕获的噪声语音信号中去除背景噪声。由于没有来自其他麦克风的语音信号作为参考,单通道语音增强是一个极具挑战性的任务。近些年,利用深度学习的语音增强方法在这个领域有了突出的表现,特别是在处理非平稳噪声和低信噪比等难题时,深度学习方法明显优于传统的单通道语音增强算法。卷积神经网络和循环神经网络是两种常用于语音增强的方法。

2、2020年,有人提出了一种深度复数神经网络,它结合了复数卷积神经网络和lstm神经网络,获得了2020年dns(deep noise suppression)挑战赛实时降噪赛道(real-timetrack,rt)的第一名。但是,这种单支路语音增强系统会带来幅度和相位之间的补偿问题,可能导致实部和虚部收敛到局部次优解,这会降低具有挑战性的场景中的性能。

3、为了解决这个问题,提出了目标解耦策略,将原始优化目标分解为多个相互关联的子目标。为此,在时频域中设计了两种有效的网络架构,即多阶段深度神经网络和双路径深度神经网络。对于前者,网络联合优化每个阶段的输出,以逐步增强语音的质量。对于后者,网络的两条路径并行优化每条路径的相应目标,并合作重构增强后的语音频谱。然而,这些时频域方法都忽略了时域方法可以避免带来幅度和相位的补偿问题的特点。并且,双路径深度神经网络的各个分支的信息只是进行简单的交互融合,忽略了各个支路之间信息的动态调整过程,最终会影响增强后的语音的质量与可懂度。

4、cn202210885817.6一种基于渐进式融合校正网络的单通道语音增强方法,只利用了时频域的幅度谱特征和复数谱特征进行语音增强,同时不能保证因果性,计算复杂度大,模型参数量大,很难部署于实际的终端系统中,相比于上述方法,本发明充分利用了来自时域的信息,并且通过跨域信息融合模块有效提取时域、幅度域和复数域的信息,同时考虑到三个域之间的动态调整过程,能够提高增强后语音的质量与可懂度。本发明确保模型的因果性,并且具有很小的可训练参数,可以灵活地应用在大量实际场景中。

5、cn202210885819.5一种基于交互性时频注意力机制的单通道语音增强方法,仅仅利用了时频域的复数谱特征,不能有效地解决幅度和相位之间的补偿问题;相比于上述方法,本发明将传统的复数谱估计解耦为逐级优化幅度和相位,缓解了幅度和相位之间的补偿问题,避免幅度和相位之间的相互影响,提升语音增强的性能。

6、另外,与其它以前专利申请相比,以前的专利申请学习来自复数域的谐波信息或来自时域的波形信息,没有同时考虑来自复数域、幅度域和时域的信息,带来信息损失或幅度和相位的补偿问题,限制了语音增强的性能。本发明通过幅度谱估计支路对带噪信号进行初步去噪,然后与复数谱细化支路输出的残差相加,重构最终输出增强后的语音信号的频谱,该策略能够有效提高语音增强的性能。本发明中的跨域信息融合模块,通过多尺度卷积块对来自复数域、幅度域和时域的三条支路进行多尺度的特征提取,能够完成更有效的幅度补偿,提升语音增强的性能。


技术实现思路

1、本发明技术解决问题:克服传统的复数谱估计带来的幅度和相位之间的补偿问题和没有充分利用时域波形信息的问题,提供一种基于逐级幅度补偿网络的单通道语音增强方法,利用幅度谱估计支路滤除主要的噪声成分,复数谱细化支路补绘缺失的细节,两个支路重构输出增强后的语音信号的频谱,能够有效地弥补幅度和相位之间的隐含补偿效果,提升语音增强的性能。

2、本发明结合了时域和时频域各自的优点,在网络中同时引入基于时频域的支路和基于时域的支路,同时有效地利用了时频谱中的谐波信息和时域波形的信息,通过一个跨域的信息融合模块,对各个阶段的幅度谱估计支路和复数谱细化支路进行逐级的幅度补偿和信息的动态调整,能够提高语音信号的质量和可理解性,具有在增强效果上比一般的语音增强神经网络有明显的优势。

3、本发明的技术解决问题是通过以下技术方案实现的:

4、第一方面,本发明提供一种基于逐级幅度补偿网络的单通道语音增强方法,包括以下内容:

5、步骤1:将带噪语音信号做短时傅里叶变换stft后得到带噪语音信号频谱中每一帧的复数谱、幅度谱和相位;

6、步骤2:所述复数谱输入三支路网络中的复数谱细化支路;所述幅度谱输入三支路网络中的幅度谱估计支路;所述带噪语音信号分帧后输入三支路网络中的时域波形校正支路;

7、幅度谱估计支路、复数谱细化支路和时域波形校正支路每一个中间层输出的幅度谱支路的幅度、复数谱细化支路的幅度、时域信息分别输入至跨域信息融合模块;

8、所述跨域信息融合模块对幅度谱支路的幅度、复数谱细化支路的幅度和时域波形校正支路的时域信息分别进行特征提取、融合和投影,得到针对幅度谱支路和复数谱细化支路的幅度的两个跨域增强校正掩码,利用时域信息实现校正,完成对幅度谱支路和复数谱细化支路的幅度的补偿;

9、所述跨域信息融合模块包括三个阶段,分别为特征提取阶段、特征融合阶段和特征投影阶段;

10、在特征提取阶段中,对幅度谱估计支路幅度信息进行深层特征提取,得到针对幅度谱估计支路的特征图;对复数谱细化支路的幅度信息进行深层特征提取,得到针对复数谱细化支路的幅度信息的特征图;对时域波形支路的时域信息进行深层特征提取,得到针对时域波形校正支路的特征图;

11、在特征融合阶段中,对针对幅度谱估计支路的特征图、针对复数谱细化支路的特征图和针对时域波形校正支路的特征图进行融合,得到一个跨域融合后的特征图;

12、在特征投影阶段中,将所述跨域融合后的特征图分别投影到幅度谱估计支路和复数谱细化支路的幅度上,分别得到针对幅度谱估计支路和复数谱细化支路的幅度的两个跨域增强校正掩码;

13、输入跨域信息融合模块的幅度谱估计支路和复数谱细化支路的幅度信息分别与该中间层的跨域信息融合模块输出的跨域增强校正掩码相乘,完成对这两个支路的幅度补偿;

14、在幅度谱估计支路、复数谱细化支路和时域波形校正支路每个中间层引入多个跨域信息融合模块,对输入的带噪语音信号进行逐级幅度补偿,构成逐级幅度补偿网络;

15、幅度谱估计支路最后的输出作为估计出的针对幅度谱的理想比值掩码,滤除主要的噪声成分;复数谱细化支路中最后的输出作为初步去噪的语音信号与增强后的语音信号之间的残差;

16、步骤3:将步骤2所述幅度谱估计支路输出的理想比值掩码与步骤1的幅度谱点乘后,再与步骤1中的相位耦合成初步去噪的语音信号,所述初步去噪的语音信号的频谱与步骤2复数谱细化支路输出的所述残差相加,重构最终输出增强后的语音信号的频谱,对所述增强之后的语音信号的频谱再经过短时傅里叶反变换istft后得到增强后的语音信号。

17、进一步地,所述幅度谱估计支路包括实数卷积编码器、实数长短时记忆网络lstm及实数卷积解码器;实数卷积编码器对输入的带噪语音信号的幅度谱进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数长短时记忆网络lstm,对时间依赖关系进行建模,再经过实数卷积解码器恢复增强后的语音信号的幅度谱,和原始带噪语音信号的相位一起重构初步增强后的语音信号;

18、复数谱细化支路包括复数卷积编码器、复数长短时记忆网络lstm及复数卷积解码器;复数卷积编码器对输入的带噪语音信号的复数谱进行深度特征提取,得到一个具有深度特征信息的特征图,把这个特征图输入复数长短时记忆网络lstm,对时间依赖关系进行建模,再经过复数卷积解码器恢复出初步增强后的语音复数谱缺失的细节;

19、时域波形校正支路包括实数卷积编码器、实数长短时记忆网络lstm及实数卷积解码器;实数卷积编码器对输入的分帧时域带噪语音波形进行深度特征提取,得到一个具有深度特征信息的特征图,将所述特征图输入实数长短时记忆网络lstm,对时间依赖关系进行建模,再经过实数卷积解码器解码。

20、进一步地,所述复数卷积编码器由六个卷积块堆叠而成,每一个卷积块由一个复数形式的卷积层、复数形式的批归一化层以及复数形式的带参relu激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵w=wr+jwi,复数形式的输入向量x=xr+jxi,其中,wr和wi是实数张量滤波器矩阵,xr和xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:

21、fout=(xr*wr-xi*wi)+j(xr*wi+xi*wr)    (1)

22、式中,fout是复数形式卷积层的输出;同理,也有复数形式lstm层,输出flstm定义为:

23、flstm=(frr-fii)+j(fri+fir)

24、frr=lstmr(xr),fii=lstmi(xi)

25、fri=lstmi(xr),fir=lstmr(xi)    (2)

26、式中,lstm表示传统的lstm神经网络,下标r和i分别表示对应网络的实部和虚部;复数卷积解码器由六个对应大小的反卷积块堆叠而成,编码器与解码器之间使用残差连接。

27、进一步地,所述幅度谱估计支路特征提取路径和复数谱细化支路的特征提取路径均由一个时频域多尺度卷积块组成,时频域多尺度卷积块先分别经过三个卷积核大小为3*1、1*3和3*3的卷积层,三个卷积层的输出拼接后,送入一个卷积块,卷积块由一个卷积核大小为1*1的卷积层、批归一化和sigmoid激活函数组成;幅度谱估计支路的特征提取路径和复数谱细化支路的特征提取路径的输出分别表示为:

28、

29、

30、

31、其中,和分别表示幅度谱估计支路的特征提取路径和复数谱细化支路的特征提取路径获得的特征图,mi和|ci|分别表示第i层跨域信息融合模块来自幅度谱估计支路的幅度信息和来自复数谱细化支路的幅度,θi表示复数谱细化支路的相位,w1、w2和w3分别代表卷积核大小为3*1、1*3和3*3的卷积层的权重矩阵,b1、b2和b3分别代表偏差,concat函数代表在通道维进行拼接,fm和fc为两条支路所述卷积块的各自的映射函数,*代表卷积操作;其中公式(3)和(4)的w1、w2、w3不相同,同理,b1、b2、b3不相同;

32、所述时域波形校正支路的特征提取路径由一个时域多尺度卷积块组成,时域多尺度卷积块先分别经过三个卷积核大小为1*3和3*3的卷积层,三个卷积层的输出拼接后,送入一个卷积块,卷积块由一个卷积核大小为1*1的卷积层、批归一化和sigmoid激活函数组成;输出分别经过平均池化和最大池化,输出求和作为时域波形校正支路的特征提取路径获得的特征图,如下所示:

33、xout=ft(concat(w1*wi+b1,w2*wi+b2))

34、

35、其中,xout表示时域多尺度卷积块的输出,表示时域波形校正支路的特征提取路径获得的特征图,wi表示第i层跨域信息融合模块来自时域波形校正支路的输入,w1和w2是卷积核的权重,b1和b2是偏差;ft为时域波形校正支路所述卷积块的映射函数,avgpool和maxpool分别代表平均池化和最大池化;

36、将特征提取阶段提取的分别来自幅度谱估计支路、复数谱细化支路和时域波形校正支路的特征图送入特征融合阶段,先将三个特征图点乘,然后送入一个卷积块,卷积块由卷积层,批归一化和激活函数sigmoid组成,最终输出一个跨域融合后的特征图,如下所示:

37、

38、其中,代表第i层跨域信息融合模块的融合张量,bn代表批归一化,σ代表sigmoid激活函数;分别表示来自幅度谱估计支路、复数谱细化支路和时域波形校正支路的特征图,w是卷积核的权重,b是偏差;

39、特征映射阶段接受来自特征融合阶段的跨域融合后的特征图,分别映射到幅度谱估计支路和复数谱细化支路的幅度上;映射到幅度谱估计支路的过程和映射到复数谱细化支路的过程都由一层卷积层,批归一化和激活函数sigmoid组成,如下所示:

40、

41、

42、其中,和分别代表映射到幅度谱估计支路和复数谱细化支路的幅度的跨域增强校正掩码;

43、输入跨域信息融合模块的幅度谱估计支路和复数谱细化支路的幅度信息分别与得到的该中间层的跨域信息融合模块输出的跨域增强校正掩码相乘,完成对这两个支路的幅度补偿,如下所示:

44、

45、

46、

47、其中,代表幅度谱估计支路经过幅度补偿后的输出,代表复数谱细化支路的幅度经过幅度补偿后的输出,代表复数谱细化支路经过幅度补偿最终的复数输出。

48、进一步地,所述步骤3中,重构最终输出的增强后的语音信号的频谱包括:

49、给定幅度谱估计支路的理想比值掩码的预测输出与复数谱细化支路的残差输出其中分别代表的实部与虚部,最终的频谱重构方式如下:

50、

51、式中,表示增强后语音信号的复数谱,|x|为待增强语音的幅度,∠θx代表带噪语音信号的相位谱。

52、进一步,所述步骤1中,短时傅里叶变换stft包括:

53、对带噪语音进行采样,使得所有音频信号的采样率均为16khz,使用帧长为30ms,帧移为10ms的汉宁窗进行分帧后,进行短时傅里叶变换stft,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:

54、y(t,f)=s(t,f)+n(t,f)           (12)

55、式中,

56、y(t,f)=yr(t,f)+jyi(t,f)

57、s(t,f)=sr(t,f)+jsi(t,f)

58、其中,y(t,f)表示经过短时傅里叶变换后的带噪语音频谱,t表示时间维度,f表示频率维度;s(t,f)和n(t,f)代表干净语音和背景噪声,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为320,变换后的161维对应着频率范围从0到8000hz。

59、进一步地,所述步骤2中,理想比值掩码irm如下:

60、

61、理想比值掩码irm作为训练目标重构待增强语音的时频图,是一种定义的理想掩码,其中,|x|为待增强语音的幅度谱,|s|为纯净语音信号的幅度谱。

62、第二方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述一种基于逐级幅度补偿网络的单通道语音增强方法。

63、第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于逐级幅度补偿网络的单通道语音增强方法。

64、本发明与现有技术相比的优点在于:

65、(1)本发明是一种基于逐级幅度补偿网络的单通道语音增强方法,用来弥补在复数域中同时重建语音的实部和虚部带来的幅度和相位之间的隐含补偿效应。本发明采用一种基于编码器-解码器的三分支结构,分别为幅度谱估计支路、复数谱细化支路和时域波形校正支路。本发明在利用幅度谱估计支路滤除主要的噪声成分,复数谱细化支路补绘缺失的细节,隐式估计相位信息的基础上,利用时域波形对两个支路进行校正。为了充分利用三个支路的信息,在本发明中,提出跨域信息融合模块,并嵌入到三个分支中,逐级提取和融合三个分支的特征,对幅度谱估计支路和复数谱细化支路的信息进行校正和幅度补偿。本发明能够有效地弥补幅度和相位之间的隐含补偿效果,提高语音信号的质量和可理解性,优于目前最先进的跨域语音增强方法和以往的先进系统。

66、(2)本发明是基于跨域的,融合了时域和时频域各自的优点,在网络中同时引入基于复数域的支路、基于幅度域的支路和基于时域的支路,同时有效地利用了频谱中的谐波信息和时域波形的信息,能够更好地恢复语音信号的细节,提高语音质量和可懂度。

67、(3)本发明将传统的复数谱估计解耦为逐级优化幅度和相位,缓解了幅度和相位之间的补偿问题,即缓解了传统复数谱估计牺牲幅度的准确性用于补偿相位的问题。这样,本发明可以减轻幅度和相位之间的相互影响,提升语音增强的性能。

68、(4)本发明提出一个跨域的信息融合模块,对各个阶段的幅度谱估计支路和复数谱细化支路进行逐级的幅度补偿生成层级跨域增强校正掩码,既促进幅度谱估计支路和复数谱细化支路之间信息的动态调整,又利用来自时域波形的信息对两个支路的幅度进行逐级增强,进一步提升语音增强的性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1