一种语音对抗样本识别模型训练方法及系统

文档序号:30223133发布日期:2022-05-31 23:18阅读:254来源:国知局
一种语音对抗样本识别模型训练方法及系统

1.本发明涉及对抗样本识别领域,尤其涉及一种语音对抗样本识别模型训练方法及系统。


背景技术:

2.随着人工智能技术的不断发展,越来越多的基于人工智能技术的应用被广泛使用在了生活中,包括语音内容识别、智能助手等等。这类基于人工智能模型来处理业务需求的方法却拥有脆弱性,容易遭受语音对抗样本的攻击。语音对抗样本是一种在原始音频上叠加一个人耳难以察觉的扰动,造成人工智能模型识别的结果出错的一种攻击方式。
3.现有的识别语音对抗样本的方法大多是利用正常样本和对抗样本在时域或者频域上的微小差别进行的。但由于微小差异难以捕捉,直接使用深度学习网络的方式进行容易出现模型的训练成本过大的问题。


技术实现要素:

4.本发明为了解决上述技术问题,提供了一种语音对抗样本识别模型训练方法及系统,通过利用音频数据的fratio累计值设计滤波器组,放大了正常音频和对抗音频间的微小差距,使得模型训练的代价减小,训练速度快,精度高。
5.为实现上述目的,本发明的第一个目的在于提供一种语音对抗样本识别模型训练方法,包括:
6.步骤1:获取音频数据集,所述的音频数据集包含正常音频数据与对抗音频数据;
7.步骤2:设计音频的采样频率,得到音频数据集中每一个音频数据在(0-m)频率范围的频谱图,根据离散的采样点生成频谱特征;m表示采样频率范围的最大值;
8.步骤3:计算不同频率范围下的所有音频数据的fratio值和fratio累计值,得到关于采样频率的fratio累计值的单调递增曲线f;
9.步骤4:根据单调递增曲线f设计滤波器组,并对音频数据集中的所有音频进行滤波操作;
10.步骤5:利用滤波后的音频数据集对语音对抗样本识别模型进行训练。
11.进一步的,所述的采样频率范围为0-16k。
12.进一步的,所述的fratio值的计算公式为:
[0013][0014]
[0015][0016]
其中,表示第i类中第j个音频的频谱特征,j=1,2,

,n,n表示音频数据集中第i类的音频数量,i=1,2,分别对应正常类和对抗类;ui表示第i类中n个音频的频谱特征的均值,u表示全部音频的频谱特征的均值。
[0017]
进一步的,所述的单调递增曲线f具体为:
[0018]
在(0-m)频率范围内设置不同的采样频率(m1,m2,

,mi,

,mn),获取在(0-mi)频率范围的频谱图,计算该频率范围下的所有音频数据的fratio值,记作所述的fratio累计值为
[0019]
遍历所有的(0-mi)频率范围组合,得到不同频率范围下的所有音频数据的fratio累计值,构成关于频率的单调递增曲线f。
[0020]
进一步的,所述的滤波器组的设计方法为:
[0021]
将单调递增曲线f的值域等分为m个标志点,每一个标志点对应一个频率点,该频率点即为滤波器的中心频率点,得到一组滤波器中心点向量为:
[0022][0023]
其中,max表示单调递增曲线f的值域最大值;(ci,1)表示第i个滤波器的中心点,该中心点与相邻两点(c
i-1
,0)和(c
i+1
,0)相连,即可得到一个三角滤波器;遍历ci,i=1,2,

,m,得到m个三角滤波器。
[0024]
进一步的,将音频数据集中的所有音频的频谱特征和滤波器组进行卷积计算,实现滤波器组对音频的滤波操作。
[0025]
本发明的另一个目的在于提供一种语音对抗样本识别系统,包括:
[0026]
音频预处理模块,其采用上述的语音对抗样本识别模型训练方法得到的滤波器组,对音频数据集中的所有音频进行滤波操作;
[0027]
对抗样本识别模块,其用于将滤波后的待识别音频数据作为输入,得到该音频的判别分数;
[0028]
识别结果展示模块,其用于将判别分数与阈值进行比较,若高于阈值,则发出警报提示检测到对抗音频,并在系统界面上进行可视化展示。
[0029]
优选的,所述的音频预处理模块包括:
[0030]
音频数据集获取模块,其用于获取待识别的音频数据集;
[0031]
频域变换模块,其用于将待识别的音频数据集中的音频数据进行频域变换得到频谱图,根据离散的采样点生成频谱特征;
[0032]
滤波模块,其用于将频谱特征与权利要求1得到的滤波器组进行卷积计算,得到滤波后的待识别音频数据。
[0033]
优选的,所述的对抗样本识别模块为权利要求1训练好的语音对抗样本识别模型。
[0034]
与现有技术相比,本发明通过利用fratio来设计滤波器以放大正常音频与对抗音频间的微小差距,为对抗音频的识别提供了新方法,且模型训练简单,在较少的训练代价
下,具备较高的识别精度。
附图说明
[0035]
图1为本发明提供的一种语音对抗样本识别模型训练方法的流程框图。
[0036]
图2为本发明提供的一种滤波器设计方法示意图。
[0037]
图3为本发明提供的一种基于resnet的深度学习模型框架。
[0038]
图4为本发明提供的一种语音对抗样本识别系统的流程框图。
具体实施方式
[0039]
下面结合附图对发明的技术框架进行说明。
[0040]
现有的识别语音对抗样本的方法大多是利用正常样本和对抗样本在时域或者频域上的微小差别进行的。但由于微小差异难以捕捉,直接使用深度学习网络的方式进行容易出现模型的训练成本过大的问题。
[0041]
为了能够解决现有技术中对于对抗样本和正常样本差异不敏感的问题,本发明实施例提供一种语音对抗样本识别模型训练方法及系统。
[0042]
以下结合附图,详细说明本发明中各实施例提供的技术方案。附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0043]
一种语音对抗样本识别模型训练方法,如附图1所示,所述方法包括:
[0044]
步骤s101,获取音频数据集,包含正常音频数据与对抗音频数据;本实施例中,获取的正常音频数据以及对抗音频数据各约5000条,其中对抗音频数据标签标记为1,正常音频数据标签标记为0。
[0045]
步骤s102,利用数据集中包含的全部音频计算fratio值。
[0046]
步骤s103,根据fratio值设计滤波器组,并对音频进行滤波。
[0047]
步骤s104,将滤波之后的音频数据输入到语音对抗样本识别模型中,对深度学习模型进行训练。
[0048]
如图2所示,设计滤波器的过程如下:
[0049]
本发明设计m维的滤波器组。首先,将音频数据集中的音频数据进行频域变换,得到0-8k范围的频谱图,离散成64个采样点生成频谱特征。本实施例将0-8k频率范围等分为60份,得到(0,m1,m2,

,mi,

,8k),获取在(0-mi)频率范围的频谱图,计算该频率范围下的所有音频数据的fratio值,记作所述的fratio累计值为fratio值可以用来增强正常音频数据和对抗音频数据间的高判别信息,并抑制音频中的个体或语言信息,本发明通过引入fratio值,可以让后续的训练更加集中于正常音频和对抗音频间的差异,并减弱对语音内容以及说话人差异的关注。
[0050]
fratio值的计算公式为:
[0051]
[0052][0053][0054]
其中,表示第i类中第j个音频的频谱特征,j=1,2,

,n,n表示音频数据集中第i类的音频数量,i=1,2,分别对应正常类和对抗类;ui表示第i类中n个音频的频谱特征的均值,u表示全部音频的频谱特征的均值。
[0055]
遍历所有的(0-mi)频率范围组合,得到不同频率范围下的所有音频数据的fratio累计值,由于每一个累计值为会随着i的增加而增大,因此可以得到关于频率的单调递增曲线f,如图2中的频率(hz)-fratio累计值曲线。
[0056]
将单调递增曲线f的值域等分为m个标志点,每一个标志点对应一个频率点,该频率点即为滤波器的中心频率点,得到一组滤波器中心点向量为:
[0057][0058]
其中,max表示单调递增曲线f的值域最大值;(ci,1)表示第i个滤波器的中心点,该中心点与相邻两点(c
i-1
,0)和(c
i+1
,0)相连,即可得到一个三角滤波器;遍历ci,i=1,2,

,m,得到m个三角滤波器,如图2中的频率(hz)-幅值三角滤波器示意图,共计24个三角滤波器。
[0059]
本实施例中,该步骤最终得到一组64
×
256维的滤波器。将音频数据集中的所有音频的频谱特征和滤波器组进行卷积计算,得到维数为(t,64)的预处理数据,该数据用于后续的模型训练,t表示音频的持续时间。
[0060]
如图3所示,以resnet深度模型作为待训练的语音对抗样本识别模型,由三个卷积层和三个残差模块交替组成,卷积层的大小为(5
×
5),通道分别为64,128和256。在残差块中,包含了两个(3
×
3)的卷积层。通过池化层之后,特征再经过多组全连接层之后得到最终分数,分数越高则表示其为对抗音频的可能性越大。
[0061]
本发明还公开了一种语音对抗样本识别系统,附图4展示了语音对抗样本识别系统的工作流程,所述语音对抗样本识别系统包括:
[0062]
音频预处理模块,其采用上述的语音对抗样本识别模型训练方法得到的滤波器组,对音频数据集中的所有音频进行滤波操作;
[0063]
对抗样本识别模块,其用于将滤波后的待识别音频数据作为输入,得到该音频的预测分数;
[0064]
识别结果展示模块,其用于将判别分数与阈值进行比较,若高于阈值,则发出警报提示检测到对抗样本,并在系统界面上进行可视化展示。
[0065]
所述的对抗样本识别模块为上述训练好的语音对抗样本识别模型。例如,上述过程中使用5000条正常音频和5000条对抗音频训练得到的resnet深度学习模型。
[0066]
所述的识别结果展示模块将识别结果进行可视化的处理。将计算得到得预测分数ε与阈值∈进行比较,若高于阈值,则通过语音播放识别到的结果,并播放警报声音;在界面
上通过文字显示模型预测的结果,并警示待测音频可能为对抗样本。阈值∈是由人为设置的,本实施例设置为0.6。
[0067]
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为音频预处理模块,可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中,还可以进一步拆分,例如,所述的音频预处理模块包括:
[0068]
音频数据集获取模块,其用于获取待识别的音频数据集;
[0069]
频域变换模块,其用于将待识别的音频数据集中的音频数据进行频域变换得到频谱图,根据离散的采样点生成频谱特征;
[0070]
滤波模块,其用于将频谱特征与权利要求1得到的滤波器组进行卷积计算,得到滤波后的待识别音频数据。
[0071]
上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本技术方案的目的。
[0072]
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1