一种融合降噪与对抗防御的语音增强方法、装置、设备及介质

文档序号:35781736发布日期:2023-10-21 17:01阅读:49来源:国知局
一种融合降噪与对抗防御的语音增强方法、装置、设备及介质

本发明涉及语音信号处理,具体涉及一种融合降噪与对抗防御的语音增强方法、装置、设备及介质。


背景技术:

1、随着深度学习的进一步发展,自动语音识别(automatic speech recognition,asr)技术、自动说话人确认(automatic speaker verification)技术等越来越多的语音任务使用神经网络的方式实现,然而这种方式在通过添加人为精心构造的对抗扰动到正常样本上时,可能会导致神经网络输出错误的结果。

2、语音增强技术旨在去除语音中存在的背景噪声以提高语音感知质量和可懂度;研究表明,对抗扰动也可看成是噪声的一种,通过语音增强技术去除对抗扰动成为可能;然而,由于对抗扰动和真实语音的相关性较大,直接将语音增强技术应用于去除对抗扰动效果不佳,目前常见的有以下三种方法:一、wiener滤波器,是一种通过维纳滤波方式进行去噪的方法,该方法作为传统的语音增强方法只能应对平稳噪声,对于非平稳噪声效果不佳;二、语音增强生成对抗网络(speech enhancement generative adversarial network,segan),是利用对抗生成机制的一种语音增强方法,其包含一个生成器和判别器,通过二者的博弈使生成器能够生成语音质量更好的样本,但是该方法存在训练难度大,增强效果提升不够显著的问题;三、深度复数卷积循环神经网络(deep complex convolutionalrecurrent network,dccrn),是一种利用复数卷积和复数长短时记忆层构建神经网络的语音增强方法,该方法无法判断与语音相关性较强的扰动,因此对于对抗防御方面的性能较差。


技术实现思路

1、本发明的目的在于克服现有技术中的不足,提供一种融合降噪与对抗防御的语音增强方法、装置、设备及介质,能够有效去除语音中的噪声的同时降低对抗扰动的影响,进一步提高语音的感知质量和可懂度。

2、为达到上述目的,本发明是采用下述技术方案实现的:

3、第一方面,本发明提供了一种融合降噪与对抗防御的语音增强方法,所述方法包括:

4、获取待增强的语音波形数据;

5、将所述语音波形数据输入预先构建并训练好的基于融合降噪与对抗防御的seadnet增强模型中,获得所述语音的增强结果;

6、其中,所构建的seadnet增强模型包括可学习加噪掩蔽模块、语音增强网络和对抗样本判别模块;所述seadnet增强模型是基于样本语音数据集并以语音增强损失和对抗防御损失的总损失最小为目标训练获得的。

7、结合第一方面,可选的,所述seadnet增强模型的训练过程包括以下步骤:

8、获取预设数量的带噪-干净语音数据对、带扰动-真实语音数据对及带噪带扰动-干净真实语音数据对的数据,构建样本语音数据集;

9、按照数据组合将所述样本语音数据集划分为训练集和测试集;

10、从训练集中选取多组数据组合分别输入至所述seadnet增强模型中进行训练,获得多个seadnet增强模型的训练集语音的增强结果;

11、将测试集中的干净语音、真实语音和干净真实语音数据作为真实值,将其分别对应的带噪语音、带扰动语音和带噪带扰动语音输入到seadnet增强模型中所述语音增强网络输出的增强结果作为增强值,根据真实值和增强值计算语音增强损失,同时根据所述对抗样本判别模块的输出值与其对应的真实样本标签0计算对抗防御损失;

12、将所述语音增强损失和对抗防御损失进行求和,获取总损失;

13、以所述总损失最小化为优化目标,采用梯度下降算法对所述seadnet增强模型进行参数优化,获取最终训练好的seadnet增强模型。

14、结合第一方面,可选的,所述总损失的计算公式为:

15、

16、式中,ltotal表示总损失;outwav是语音增强网络输出的增强值,wavclean是样本的真实值,|·|1表示l1范式;outadv是对抗样本判别模块的输出,0表示真实语音标签,|·|2表示均方差。

17、结合第一方面,可选的,所述可学习加噪掩蔽模块,用于将掩蔽后的噪声与输入的语音波形进行时域相加后,输出噪声掩蔽的语音时域波形特征;

18、所述语音增强网络,用于将所述噪声掩蔽的语音时域波形特征进行语音增强处理后,输出增强后的语音时域波形特征;

19、所述对抗样本判别模块,用于将增强后的语音时域波形特征进行对抗样本判决后,输出其对应的对抗样本判定值。

20、结合第一方面,可选的,所述可学习加噪掩蔽模块包括依次连接的用于实现短时傅里叶变换的卷积层、n复数卷积层、n个复数反卷积层、用于实现短时傅里叶逆变换的卷积层;

21、每个所述复数卷积层和每个所述复数反卷积层后均连接有复数批归一化层、复数prelu层和压缩激励块;各所述复数卷积层的输出作为与其各对应连接的反卷积层的输入;

22、所述复数卷积层的计算公式为:

23、

24、式中,xcconv表示复数卷积层的输入,和分别表示xcconv的实部和虚部;wcconv表示卷积核,和分别表示卷积核的实部和虚部;表示复数卷积操作,*表示一般卷积操作;i表示虚部记号;

25、所述复数批归一化层的计算公式为:

26、

27、式中,xcbn表示复数批归一化层的输入,和分别表示xcbn的实部和虚部;cbn表示复数批归一化操作,bn表示一般批归一化操作;

28、所述复数prelu层的计算公式为:

29、

30、式中,xcprelu表示复数prelu层的输入,和分别表示xcprelu的实部和虚部;cprelu表示复数prelu操作,prelu表示一般prelu操作;

31、所述复数反卷积层的计算公式为:

32、

33、式中,xctconv表示复数反卷积层的输入,和分别表示xctconv的实部和虚部;wctconv表示卷积核,和分别表示卷积核的实部和虚部;◎表示复数反卷积操作,o表示一般反卷积操作;

34、所述压缩激励块包括一个适应平均池化层和两个卷积层,其计算公式为:

35、outse=conv2(conv1(adaptavgpool(xse)))(6)

36、式中,xse表示压缩激励块的输入,conv1和conv2分别表示两个卷积层;adaptavgpoll表示适应平均池化层,outse表示压缩激励块的输出。

37、结合第一方面,可选的,所述语音增强网络包括依次连接的用于实现短时傅里叶变换的卷积层、m个复数卷积层、k个复数长短时记忆层、m个复数反卷积层和用于实现短时傅里叶逆变换的卷积层;

38、每个所述复数卷积层和每个所述复数反卷积层后均连接有复数批归一化层;各所述复数卷积层的输出作为与其各对应连接的反卷积层的输入;

39、所述复数长短时记忆层的计算公式为:

40、

41、式中,和分别表示复数长短时记忆层输入的实部和虚部;符号clstm表示复数长短时记忆操作,符号lstm表示一般长短时记忆操作;和分别表示计算的不同的中间变量,clstmout表示复数长短时神经网络的输出。

42、结合第一方面,可选的,所述对抗样本判别模块包括可微分梅尔谱转换器、h个卷积层和全连接层,输入依次经过可微分梅尔谱转换器、h个卷积层后,计算输出时间维度的均值以及标准差并进行拼接后输入到全连接层中,获得对应的对抗样本判决输出值。

43、第二方面,本发明提供了一种融合降噪与对抗防御的语音增强装置,所述装置包括:

44、获取模块,用于获取待增强的语音波形数据;

45、语音增强模块,用于将所述语音波形数据输入预先构建并训练好的基于融合降噪与对抗防御的seadnet增强模型中,获得所述语音的增强结果;

46、其中,所构建的seadnet增强模型包括可学习加噪掩蔽模块、语音增强网络和对抗样本判别模块;所述seadnet增强模型是基于样本语音数据集并以语音增强损失和对抗防御损失的总损失最小为目标训练获得的。

47、第三方面,本发明提供了一种电子设备,包括处理器及存储介质;

48、所述存储介质用于存储指令;

49、所述处理器用于根据所述指令进行操作以执行如第一方面任一所述的融合降噪与对抗防御的语音增强方法的步骤。

50、第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如第一方面任一所述的融合降噪与对抗防御的语音增强方法的步骤。

51、与现有技术相比,本发明所达到的有益效果:

52、本发明通过设计的基于融合降噪与对抗防御的seadnet增强模型对待增强的语音进行增强,利用seadnet增强模型中的可学习加噪掩蔽模块破坏对抗扰动后,再对语音增强网络进行增强的处理,还利用对抗样本检测模块引导语音增强网络的训练,提高防御对抗样本攻击的效率,达到同时减轻背景噪声和对抗扰动影响的效果;本发明增强的语音具有更好的感知质量和可懂度,以及更低的对抗性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1