本发明属于语音欺骗检测,具体涉及基于双感知卷积和频率增强注意力的语音欺骗检测方法。
背景技术:
1、随着语音合成、转换技术与人工智能技术的不断进步与发展,当前生成的合成语音质量已逐步接近真实语音,使得人耳难以区分真假语音。这一发展在一定程度上为自动化语音处理带来了便利,但同时也引发了严重的安全隐患。研究表明,利用合成语音或对语音进行回放可以有效欺骗自动说话人验证(automatic speaker verification,asv)系统,导致系统误判用户身份,从而可能引发身份伪造、欺诈交易等安全问题。因此,针对伪造语音及合成语音的语音欺骗检测已成为当前语音安全研究的重要方向。现今,采用基于transformer的后端分类器的欺骗语音检测模型表现出较好性能,该模型针对卷积神经网络(convolutional neural network,cnn)在全局依赖建模上的不足,结合transformer的自注意力机制(self-attention),能够有效提取语音信号的全局特征,提高欺骗语音和真实语音的检测能力。
技术实现思路
1、本发明所要解决的问题是:提供基于双感知卷积和频率增强注意力的语音欺骗检测方法,使用改进的双感知卷积模块来捕捉语音信号的局部特征信息,使用经过频率增强注意力的改进的transformer模块来捕捉语音信号的全局特征,以实现精确提取语音信号特征以及开集情况下高质量的深度伪造欺骗语音检测。
2、本发明采用如下技术方案:一种基于双感知卷积和频率增强注意力的语音欺骗检测方法,包括训练阶段和测试阶段;
3、训练阶段,包括以下步骤:
4、步骤1、获取训练语料,训练语料包括真实语音和深度伪造语音;
5、步骤2、将获取的训练语料进行预处理,得到经过预加重的固定片长为4秒的语音片段;
6、步骤3、构建检测模型,将语音片段输入到检测模型中进行模型训练,所述检测模型包括特征提取和语音分类,对检测的语音进行特征提取获得增强的特征;并对增强的特征进行检测分类,得到语音预测的分类标签;
7、步骤4、在检测模型训练过程中,设置检测模型的超参数,使目标损失函数最小化,直到设置的训练轮数,得到训练好的检测模型,其中,最优模型可能出现在训练的中间轮次;
8、转换阶段包括以下步骤:
9、步骤5、获取待验证语料,待验证语料包括真实语音和深度伪造语音,提取固定片长为4秒的语音片段;
10、步骤6、将提取的语音片段输入到训练好的检测模型中,进行语音欺骗检测。
11、优选地,步骤2中,将获取训练语料进行预处理,其具体步骤为:训练语料的采样率设置为16khz,片长为4s,然后对语音片段进行预加重,以增强高频成分的特征。
12、优选地,步骤3中,前端特征提取模块、位置编码模块、后端分类模块。
13、优选地,前端特征提取模块由一个sin卷积层、一个最大池化层、一个批归一化层、一个selu激活函数、一个通道注意力模块和一个空间注意力模块组成,位置编码模块由一个展平器和一个一维位置编码组成、后端分类模块由两个transformer编码器、一个频率增强通道注意力模块、一个池化层、一个线性层组成。
14、其中,前端特征提取模块中的sin卷积层是一种特殊的1d卷积层,其核心思想是利用可参数化的sinc函数进行滤波,代替传统的可学习的卷积核,其构造的滤波器公式如下:
15、
16、hideal(t)=hhigh(t)-hlow(t) (3),
17、其中,fmax和fmin是每个通道的最高和最低截止频率,fs是采样率,是标准sinc函数,hideal(t)是构造出的带通滤波器。
18、然后,在滤波器上施加汉明窗用于减少频谱泄露,计算公式为:
19、h(t)=hideal(t)·w(t) (4),
20、其中,n为滤波器长度;
21、最后,将滤波器用于1d卷积:
22、y(t)=x(t)*h(t) (5),
23、其中,*表示卷积运算,x(t)表示输入语音信号,h(t)表示sinc滤波器。
24、优选地,前端特征提取感知模块中,双感知卷积模块由一个二维卷积块和三个通过通道注意力模块和空间注意力模块增强的二维卷积块,其中,二维卷积块的公式为:
25、y=w*x+b (6),
26、其中,w为卷积核,x为经过sinc滤波器处理过的低维特征图,b为偏置项,*代表卷积运算;
27、通道注意力模块计算公式为:
28、mc(x)=σ(w2(δ(w1(avgpool(x)))+w2(δ(w1(maxpool(x)))))) (7),
29、其中,avgpool(x)和maxpool(x)分别为全局平均池化与全局最大池化,w1和w2为全连接层,δ(·)为relu激活函数,σ(·)为sigmoid激活函数;
30、空间注意力模块计算公式为:
31、ms(x)=σ(f([avgpool(x),maxpool(x)])) (8),
32、其中,f为7×7的卷积核,avgpool(x)和maxpool(x)分别为全局平均池化与全局最大池化,σ(·)为sigmoid激活函数。
33、优选地,前端特征模块中,批归一化的计算公式为:
34、
35、其中,μ为小批量均值,σ2是小批量方差,γ,β是可训练参数,ε是数值稳定项,避免分母为0;
36、selu激活函数的计算公式为:
37、
38、其中,λ为缩放因子,取值约为1.05,α为负半轴参数,取值约为1.67。
39、优选地,一唯位置编码的公式如下:
40、
41、其中,x表示输入序列的位置索引,i表示通道索引,c表示模型的嵌入维度,sin函数用于偶数索引的维度,cos函数用于奇数索引的维度,10000作为缩放因子。
42、优选地,频率增强通道注意力模块所包含的离散余弦变换的计算公式为:
43、
44、其中,xk为变换后的频域系数,xn为输入的时域信号,n为采样点数,k为频率索引,频率增强通道注意力模块所包含的通道注意力模块计算公式为:
45、α=σ(w2·δ(w1·avgpool(fc))) (15),
46、其中,δ(·)为relu激活函数,σ(·)为sigmoid激活函数,w1和w2是两个线性层,avgpool(fc)为全局平均池化,fc为经过归一化的频域特征。
47、优选地,二元交叉损失函数lbce表示为:
48、
49、其中,yi为分类标签,取值为1代表真实语音,取值为0表示深度伪造语音,是模型预测值,取值为0到1之间,n是批量大小。
50、相对于现有技术,本发明的有益效果为:
51、1)本发明的检测模型在特征提取中提出了双感知卷积模块,该模块增强了模型对局部重要特征的选择性。双感知卷积模块在基线模型的卷积块之间增加了结合通道注意力和空间注意力的残差连接,能够自适应地调整特征权重,使模型关注于伪造语音的关键区域。通道注意力模块能够有效增强对关键特征通道的选择能力,而空间注意力模块能够优化特征图在空间维度上的关注区域,从而提高语音欺骗检测的准确性;
52、2)本发明的检测模型在语音分类过程中进一步引入了频率增强通道注意力模块,以提高对伪造语音频域异常的建模能力。所提出的频率增强通道注意力模块采用离散余弦变换对输入特征进行频域编码,通过强调频谱中能量集中的关键区域,增强了对高频伪影特征的识别能力。针对传统傅里叶变换在周期信号边界处引入的吉布斯现象,该模块采用压缩能力更强,能量更集中,低频保留更高的离散余弦变换,通过提取吉布斯现象在真实语音与伪造语音之间的差异性特征,强化了分类模型对伪造模式的感知能力。同时,模块内置的通道注意力模块根据不同通道频率响应特征动态赋予权重,显著提升了网络对欺骗性频谱扰动的建模精度。该机制能够有效压制非判别性冗余频率信息,提高系统的抗噪性与特征鲁棒性,最终使得检测模型在跨数,据集和多种欺骗方式下表现出优异的泛化能力;
53、3)本发明的检测模型通过双感知卷积模块和频率增强通道注意力的协同作用,使特征提取兼具局部信息提取和全局信息建模能力,显著提升欺骗语音的检测性能。具体而言,双感知卷积模块通过注意力机制增强局部关键特征,而频率增强通道注意力进一步优化了全局特征的表达能力,最终实现更全面的语音欺骗检测。该方法不仅能识别常见的合成语音攻击,还能有效检测未知算法的伪造语音,进一步提高开集情况下检测模型的鲁棒性。