本申请实施例涉及声学领域,具体而言,尤其涉及一种伪造语音检测方法和电子设备。
背景技术:
1、随着语音合成与语音转换技术的飞速发展,通过深度生成方法可以便捷地生成高质量伪造语音。语音生成等技术在语音交互等领域带来了便利,但这些技术也可被恶意用于电信欺诈,舆论宣传,造谣诽谤等方面,给社会稳定和人民生命财产安全带来威胁。伪造语音检测技术的主要目标就是高效准确地自动鉴别伪造语音。典型的伪造语音检测系统一般由前端特征提取和后端分类器两部分组成,前端通过分析语音信号提取具有区分性的特征,后端通过分类器判断语音是真实语音还是伪造语音。近年来基于深度学习的系统逐渐成为主流,系统前端提取高维语音特征如语谱图等,后端则通过深度神经网络学习特征的高级表示,从而进行分类判决。但目前基于深度学习的伪造语音检测技术鲁棒性较差,特别是面对跨信道和未知算法等场景时,性能下降严重。
技术实现思路
1、本申请实施例的目的在于增强目前基于深度神经网络的伪造语音检测系统的在复杂场景下的鲁棒性。
2、第一方面,本申请实施例提供了一种面向复杂场景的鲁棒性伪造语音检测方法,包括:训练阶段,采集用于训练第一语音信号;确定第一语音信号中的静音帧和语音帧;对第一语音信号的静音帧进行零值掩蔽;获取掩蔽后的第一语音信号的特征;将特征输入伪造语音检测模型进行训练,得到训练好的伪造语音检测模型;推理阶段,推理阶段包括:采集用于测试目标语音,对目标语音进行零值掩蔽,获取目标语音的特征;将目标语音的特征输入训练好伪造语音检测模型,输出目标语音的检测结果,检测结果包括目标语音为伪造语音或目标语音为真语音。
3、以此,本申请实施例通过对训练语音和目标语音进行静音帧检测并掩蔽静音帧,使得语音在保留静音时长的同时去除静音内容,从而防止深度神经网络对静音内容过拟合,提升伪造语音检测系统的鲁棒性。
4、在一些可以实现的实施方式中,确定第一语音信号中的静音帧和语音帧,包括:将第一语音信号分为多帧,对每一帧分频,得到多个子带;计算每个子带的对数能量;计算每个子带的对数能量之和得到每一帧的总能量;在当前帧的总能量小于第一阈值时,确定当前帧为静音帧;在当前帧的总能量大于第一阈值时,根据当前帧的每个子带的对数能量进行局部判决和全局判决,根据局部判决结果和全局判断结果确定当前帧为语音帧。
5、以此,本申请实施例对语音进行静音检测区分静音帧和语音帧。
6、在一些可以实现的实施方式中,确定第一语音信号中的静音帧和语音帧,包括:将奈奎斯特频率为4khz的第一语音信号分频,得到80~250hz,250~500hz,500~1khz,1k~2khz,2k~3khz,3k~4khz六个子带。
7、以此,本申请实施例基于奈奎斯特采样定理获取语音的有效信息。
8、在一些可以实现的实施方式中,根据当前帧的每个子带的对数能量进行局部判决和全局判决,包括:将当前帧的每个子带能量通过高斯混合模型计算对数似然比,根据每个子带的对数似然比与第二阈值进行局部判决,局部判决的结果为语音帧或静音帧;计算当前帧的每个子带对数似然比的加权和,根据加权和与第三阈值进行全局判决,全局判决的结果为语音帧或静音帧;在局部判决的结果为语音帧或全局判决的结果为语音帧的情况下,确定当前帧的判决结果为语音帧。
9、以此,通过对语音能量分布局部分析和和全局分析,精准确定语音当前帧的判决结果为语音帧。
10、在一些可以实现的实施方式中,对第一语音信号的静音帧进行零值时域掩蔽,包括:根据每一帧的判决结果进行平滑,将静音帧的数值置为0。
11、以此,本申请实施例直接对语音信号进行优化,通过检测并掩蔽静音帧,迫使模型更加关注伪造语音的非静音部分。
12、在一些可以实现的实施方式中,的特征为语谱图特征,获取第一语音信号的特征,包括:预加重掩蔽后的第一语音信号得到第二语音信号;对第二语音信号进行短时傅里叶变换,得到语谱图特征。
13、以此,本申请实施例对语音信号进行优化的同时获得静音时长包含的语音节奏等信息,能够有效提升系统鲁棒性。
14、在一些可以实现的实施方式中,特征为线性频率倒谱系数特征,获取第一语音信号的特征,包括:将语谱图特征通过一组线性分布的滤波器,得到滤波器组特征;根据滤波器组特征求对数和离散余弦变换,得到线性频率倒谱系数特征。
15、以此,本申请实施例可以提取更加有效的特征,缓解过拟合。
16、在一些可以实现的实施方式中,特征为语谱图特征,将特征输入伪造语音检测模型进行训练,得到训练好的伪造语音检测模型,包括:将语谱图特征输入挤压-激励网络,使用残差连接加深网络深度,获得嵌入式特征;将嵌入式特征送入二分类线性层,得到分类结果;对挤压-激励网络和二分类线性层使用adam优化器和角度损失函数进行训练,得到训练好的伪造语音检测模型。
17、以此,本申请实施例将语谱图特征送入挤压-激励网络(squeeze-excitationnetwork,senet),使用残差连接加深网络深度,同时缓解了梯度消失的问题,挤压-激励的操作增大有效频道特征的权重。
18、在一些可以实现的实施方式中,特征为线性频率倒谱系数特征,将特征输入伪造语音检测模型进行训练,得到训练好的伪造语音检测模型,包括:将线性频率倒谱系数特征输入轻型卷积神经网络;轻型卷积神经网络通过最大值特征映射操作,输出嵌入式特征;将嵌入式特征送入二分类线性层,得到分类结果;对轻型卷积神经网络和二分类线性层使用adam优化器和角度损失函数进行训练,得到训练好的伪造语音检测模型。
19、以此,本申请实施例在提取有效特征的同时可以减小模型参数,缓解过拟合。
20、第二方面,本申请实施例提供了一种伪造语音检测装置该装置包括:训练模块和推理模块。其中训练模块采集用于训练第一语音信号;确定第一语音信号中的静音帧和语音帧;对第一语音信号的静音帧进行零值掩蔽;获取掩蔽后的第一语音信号的特征;将特征输入伪造语音检测模型进行训练,得到训练好的伪造语音检测模型;推理模块采集目标语音,获取目标语音的特征;将目标语音的特征输入训练好伪造语音检测模型,输出目标语音的检测结果,检测结果包括目标语音为伪造语音或目标语音为真语音。其有益效果如第一方面所述,此处不再赘述。
21、第三方面,本申请实施例提供了一种电子设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行如第一方面任意一项的方法。
22、第四方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序;所述计算机程序用于实现如上述第一方面任意实施例所述的方法。
23、第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括指令,当所述指令被执行时,使得计算机执行上述第一方面任意实施例方法。
1.一种伪造语音检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的伪造语音检测方法,其特征在于,所述确定所述第一语音信号中的静音帧和语音帧,包括:
3.根据权利要求1所述的伪造语音检测方法,其特征在于,所述确定所述第一语音信号中的静音帧和语音帧,包括:
4.根据权利要求2或3所述的伪造语音检测方法,其特征在于,所述根据所述当前帧的每个子带的对数能量进行局部判决和全局判决,包括:
5.根据权利要求1-3任意一项所述的伪造语音检测方法,其特征在于,所述对所述第一语音信号的静音帧进行零值时域掩蔽,包括:
6.根据权利要求1-3任意一项所述的伪造语音检测方法,其特征在于,所述的特征为语谱图特征,所述获取所述第一语音信号的特征,包括:
7.根据权利要求6所述的伪造语音检测方法,其特征在于,所述的特征为线性频率倒谱系数特征,所述获取所述第一语音信号的特征,包括:
8.根据权利要求1-3任意一项所述的伪造语音检测方法,其特征在于,所述特征为语谱图特征,所述将所述特征输入伪造语音检测模型进行训练,得到训练好的伪造语音检测模型,包括:
9.根据权利要求1-3所述的伪造语音检测方法,其特征在于,所述特征为线性频率倒谱系数特征,所述将所述特征输入伪造语音检测模型进行训练,得到训练好的伪造语音检测模型,包括:
10.一种电子设备,其特征在于,包括: