本发明涉及合成音频检测,具体而言,涉及一种解耦声纹和内容的合成音频检测方法、装置、设备和介质。
背景技术:
1、声纹是用电声学仪器显示的携带言语信息的声波频谱。成年以后人的声音可保持长期相对稳定。每个人的发声习惯有所不同,并且每个人的发声器官均有所区别,所以声纹具有特定性。音频深度合成技术能够合成出符合目标说话人的音色以及定制化语音内容信息。
2、深度合成音频检测是对音频进行检测分析,判断音频是合成音频或真实录制的音频。常规的按照声纹判断是否为深度合成音频的方式在深度合成音频上收效甚微;而按照文本相关的方式进行深度合成音频检测又限制过大,应用场景过窄。
3、有鉴于此,申请人在研究了现有的技术后特提出本申请。
技术实现思路
1、本发明提供了一种解耦声纹和内容的合成音频检测方法、装置、设备和介质,以改善上述技术问题中的至少一个。
2、第一方面、
3、本发明实施例提供了一种解耦声纹和内容的合成音频检测方法,其包含步骤s1至步骤s5。
4、s1、获取待检测音频。
5、s2、根据待检测音频,通过深度神经网络提取声纹特征。
6、s3、根据待检测音频,通过内容编码器提取内容特征。
7、s4、根据待检测音频,以声纹特征和内容特征作为噪声参考,通过信号分离神经网络,获取剥离声纹特征和内容特征的鲁棒抗噪真伪特征。
8、s5、根据鲁棒抗噪真伪特征,通过全连接神经网络判断待检测音频是否为合成音频,获取判断结果。
9、第二方面、
10、本发明实施例提供了一种解耦声纹和内容的合成音频检测装置,其包含:
11、初始音频获取模块,用于获取待检测音频。
12、声纹特征提取模块,用于根据待检测音频,通过深度神经网络提取声纹特征。
13、内容特征提取模块,用于根据待检测音频,通过内容编码器提取内容特征。
14、解耦模块,用于根据待检测音频,以声纹特征和内容特征作为噪声参考,通过信号分离神经网络,获取剥离声纹特征和内容特征的鲁棒抗噪真伪特征。
15、判别模块,用于根据鲁棒抗噪真伪特征,通过全连接神经网络判断待检测音频是否为合成音频,获取判断结果。
16、第三方面、
17、本发明实施例提供了一种解耦声纹和内容的合成音频检测设备,其包括处理器、存储器,以及存储在存储器内的计算机程序。计算机程序能够被处理器执行,以实现如第一方面任意一段所说的解耦声纹和内容的合成音频检测方法。
18、第四面、
19、本发明实施例提供了一种计算机可读存储介质。计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如第一方面任意一段所说的解耦声纹和内容的合成音频检测方法。
20、通过采用上述技术方案,本发明可以取得以下技术效果:
21、本发明实施例的合成音频检测方法彻底解耦音频中的说话人身份信息(即声纹)以及文本信息(即内容),从而对剩余部分进行深度合成检测,大大提高了识别精度以及鲁棒性。
1.一种解耦声纹和内容的合成音频检测方法,其特征在于,包含:
2.根据权利要求1所述的解耦声纹和内容的合成音频检测方法,其特征在于,所述深度神经网络为lstm长短期记忆神经网络;
3.根据权利要求1所述的解耦声纹和内容的合成音频检测方法,其特征在于,所述内容编码器包含残差块和下采样块;其中,所述下采样块为全卷积神经网络;所述全卷积神经网络为跨步卷积。
4.根据权利要求1所述的解耦声纹和内容的合成音频检测方法,其特征在于,根据所述待检测音频,以所述声纹特征和所述内容特征作为噪声参考,通过信号分离神经网络,获取剥离所述声纹特征和所述内容特征的鲁棒抗噪真伪特征,具体包括:
5.根据权利要求4所述的解耦声纹和内容的合成音频检测方法,其特征在于,使用平行协同注意力机制将声纹特征与内容特征进行融合,得到融合特征具体包括:
6.根据权利要求5所述的解耦声纹和内容的合成音频检测方法,其特征在于,使用交替协同注意力机制将融合特征从待检测音频中解耦出来,获得鲁棒抗噪真伪特征包括:
7.根据权利要求5所述的解耦声纹和内容的合成音频检测方法,其特征在于,所述合成音频检测方法训练时使用对抗训练;
8.一种解耦声纹和内容的合成音频检测装置,其特征在于,包含:
9.一种解耦声纹和内容的合成音频检测设备,其特征在于,包括处理器、存储器,以及存储在所述存储器内的计算机程序;所述计算机程序能够被所述处理器执行,以实现如权利要求1至7任意一项所述的解耦声纹和内容的合成音频检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任意一项所述的解耦声纹和内容的合成音频检测方法。