基于深度学习的说话人语音欺骗攻击检测方法及系统的制作方法

文档序号:10513501阅读:477来源:国知局
基于深度学习的说话人语音欺骗攻击检测方法及系统的制作方法
【专利摘要】一种基于深度学习的说话人语音欺骗攻击检测方法及系统,通过构建音频训练集,初始化并采用训练集的多帧特征向量和单帧向量序列分别训练深度前馈神经网络和深度递归神经网络;在测试阶段,将待测音频的帧级别和序列级别特征向量分别导入经训练的两个线性差分分析模型,将所得到的两个结果分数加权后作为评分,经与预定义阈值比较实现语音欺骗辨别。本发明既能够捕捉局部特征,又能把握全局信息。并且在识别验证阶段采用线性差分分析作为分类器,通过分数融合做出判断,能够极大地提高语音欺骗检测的精确度。
【专利说明】
基于深度学习的说话人语音欺骗攻击检测方法及系统
技术领域
[0001] 本发明涉及的是一种智能语音领域的技术,具体是一种基于深度学习的说话人语 音欺骗攻击检测方法及系统。
【背景技术】
[0002] 语音欺骗攻击,是指针对特定目标声音进行伪造,从而对于自动说话人识别系统 进行攻击的技术。说话人识别技术目前已在诸多领域得到了广泛的应用,例如:身份验证、 互联网安全、人机交互、银行证券系统、军事刑侦等。近年来针对说话人识别系统的攻击主 要分为四类,即模仿攻击,录音重放,语音合成,语音转换。研究表明,传统的语音欺骗攻击 检测的主要问题存在于特征提取上,现有的特征提取方法在人类语音特征的表现力上以及 鲁棒性方面有着诸多不足。
[0003] 近年来现有的技术中,针对语音欺骗攻击的检测及识别,特征提取部分经常采用 的特征参数主要有频谱特征参数,相位特征参数,类耳蜗听觉特征(cochlea based f eatures),情感韵律特征等,这些特征提取的方法在表征真假语音的特征方面尚有不足, 从而影响检测精度。此外,这些方法都利用了语音信号的听觉特征,丢失了语音信号的动态 特征,鲁棒性较差,识别效果不理想。
[0004] 在识别模型部分,主流的方法主要为高斯混合模型(G Μ Μ)和支持向量机模型 (SVM)。这两种方法适合处理连续信号,受训练准则的限制,在表达能力上较弱,其处理结果 只能简单地区分不同类样本之间的区别,因此,其识别效果较差。

【发明内容】

[0005] 本发明针对现有传统的语音欺骗攻击检测的方法具有特征提取不能准确表征欺 骗语音和真实语音之间鉴别性特征,以及丢失语音信号的动态特征、鲁棒性较差等局限性 以及识别效果不佳的缺点,提出一种基于深度学习的说话人语音欺骗攻击检测方法及系 统,在特征提取阶段,利用深度学习模型提取特征向量,两种不同框架:基于深度前馈神经 网络的帧级别特征表示以及基于深度递归神经网络的序列级别特征表示,既能够捕捉局部 特征,又能把握全局信息。并且在识别验证阶段采用线性差分分析作为分类器,通过分数融 合做出判断。本发明能够极大地提高语音欺骗检测的精确度。
[0006] 本发明是通过以下技术方案实现的:
[0007] 本发明涉及一种基于深度学习的说话人语音欺骗攻击检测方法,构建音频训练 集,初始化并采用训练集的多帧特征向量和单帧向量序列分别训练深度前馈神经网络和深 度递归神经网络;在测试阶段,将待测音频的帧级别和序列级别特征向量分别导入经训练 的两个线性差分分析模型,将所得到的两个结果分数加权后作为评分,经与预定义阈值比 较实现语音欺骗辨别。
[0008] 所述的训练深度前馈神经网络和深度递归神经网络,具体为:采用多帧的Mel滤波 器组提取得到的注册音频的声学特征,即Filter-bank特征训练深度前馈神经网络,然后音 频训练集通过深度前馈神经网络,在网络的最后一个隐层上得到该音频的帧级别特征向 量;采用多帧的Mel滤波器组提取得到的注册音频的声学特征训练深度递归神经网络,然后 通过特征归一化,在深度递归神经网络的最后一个隐层上得到该音频的序列级别特征向 量。
[0009] 所述的训练深度前馈神经网络和深度递归神经网络,其后向传播过程中,学习率 由模拟退火和尽早停止策略确定。
[0010] 所述的多帧是指:31帧窗且每边15帧。
[0011] 所述的声学特征,即Mel滤波器组的声学特征,通过通过一组Mel滤波器对频域上 的待检测音频信号进行滤波,得到一组过滤后的数组,即Mel频谱,其中每一个带通滤波器 输出一位Filter-bank系数,数组的长度等于Mel滤波器组中的滤波器个数。
[0012] 所述的Mel滤波器,采用但不限于三角窗滤波器。
[0013] 所述的深度前馈神经网络,包含若干个隐层,隐层之间是全连接,参数值随机化初 始,通过后向传播算法传播;
[0014] 所述的深度递归神经网络,包含若干个隐层,其中除了全连接还包含隐层自身到 自身的连接,用来传播上一时刻的信息,以达到保存信息的目的。
[0015] 所述的网络输出层不同节点代表不同的攻击方式或者真实人类语音,整个神经网 络对于输入语音进行分类,以交叉熵作为目标函数。
[0016] 所述的帧级别和序列级别特征向量分别经由深度前馈神经网络和深度递归神经 网络输出,优选经过规整处理以具备相同的向量二范数长度。
[0017] 所述的经训练的两个线性差分分析(LDA)模型,是指:采用深度前馈神经网络和深度 递归神经网络的最后一个隐层得到帧级别和序列级别特征向量分别训练两个线性差分模型,
该LDA模型中每个分类的密度由多维高斯分布建模: 中:和μΑ别是第k个类的协方差、均值矩阵,该LDA模型假定:? = L且后验概率由 贝叶斯公式给出
·其中:?是第k个类的先验概率。
[0018] 所述的两个LDA模型,优选根据开发集上的表现调整两者的得分权重。
[0019] 所述的分类的数量与所述神经网络的输出层节点数一致,即攻击种类+1。
[0020] 本发明涉及一种基于深度学习的说话人语音欺骗攻击检测系统,包括:对数谱特 征提取模块、深度神经网络模块和线性差分模块,其中:对数谱特征提取模块与深度神经网 络模块相连并传输待测音频的声学特征信息,深度神经网络模块根据声学特征信息输出特 征向量信息至线性差分模块以进行训练,线性差分模块经过训练后能够对待测音频的特征 向量信息判断并评分,从而实现语音欺骗的检测。 技术效果
[0021] 与现有技术相比,本发明中提出的利用深度学习提取的特征向量能够更准确地表 征人的语音特征;而在分类识别部分采用线性差分分析(LDA)模型作为分类器,能够缩小同 类之间的差异,扩大不同类之间的差距,识别效果好,鲁棒性强,精度较现有的方法有了很 大的提升,本发明技术效果包括:
[0022] 1)识别精度较现有的方法大幅提高;
[0023] 2)提取的特征能够更准确地表征说话人的个性特征;
[0024] 3)深度学习策略避免了网络的过拟合;
[0025] 4)深度学习使特征变得更加有区分性;
[0026] 5)在不同信道和环境下鲁棒性更强;
[0027] 此外,本发明在未知的复杂条件下效果更加鲁棒。
【附图说明】
[0028]图1为本发明流程示意图。
【具体实施方式】 实施例1
[0029] 本实施例采用新发布的ASVSp〇〇f2015数据集进行了测试,并与现有的基线方法进 行了对比,结果如表1所示。可以看到,本发明所提出的方法,能够达到目前最好的结果。
[0030] 本实施例涉及的说话人语音欺骗攻击检测系统,包括:对数谱特征提取模块、深度 神经网络模块和线性差分模块,其中:对数谱特征提取模块与深度神经网络模块相连并传 输待测音频的声学特征信息,深度神经网络模块根据声学特征信息输出特征向量信息至线 性差分模块以进行训练,线性差分模块经过训练后能够对待测音频的特征向量信息判断并 评分,从而实现语音欺骗的检测。
[0031 ]本实施例涉及上述系统的检测过程如下:
[0032]步骤1)构建音频训练集(ASVSp〇〇f2015的训练集)并随机初始化由深度前馈神经 网络和深度递归神经网络构成的深度神经网络;
[0033]所述的深度神经网络的损失函数为交叉熵,且有一个系数为10_6的欧氏距离(L2-norm)权重衰减项。
[0034] 所述的随机初始化是指:随机得到网络参数初始值,基于随机梯度下降(SGD)的后 向传播算法用于深度前馈神经网络的参数调整,基于SGD的时间进化反传(BPTT)算法用于 深度递归神经网络的参数调整。
[0035] 步骤2)训练阶段,用训练音频的多帧特征向量训练深度前馈神经网络,窗大小为 31帧,左右各扩展15帧;用训练音频的单帧向量序列训练深度递归神经网络,采用基于SGD 的BPTT算法。学习率由模拟退火和尽早停止策略确定,采用交叉熵训练,引入值为10-6的权 重衰减项。在网络训练完成后,训练音频在分别通过深度前馈神经网络和深度递归神经网 络的最后一个隐层后得到帧级别和序列级别特征向量,用来训练两个线性差分模型。最后 根据开发集上的表现调整两者的得分权重。
[0036]步骤3)测试阶段,计算待测音频的帧级别和序列级别特征向量,分别导入训练好 的的线性差分分析模型,将所得到的两个结果加权后作为评分,经与训练阈值比较实现语 音欺骗辨别。
[0037]本发明与现有算法之间的比较具体如下表:
[0038]上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同 的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所 限,在其范围内的各个实现方案均受本发明之约束。
【主权项】
1. 一种基于深度学习的说话人语音欺骗攻击检测方法,其特征在于,通过构建音频训 练集,初始化并采用训练集的多帧特征向量和单帧向量序列分别训练深度前馈神经网络和 深度递归神经网络;在测试阶段,将待测音频的帧级别和序列级别特征向量分别导入经训 练的两个线性差分分析模型,将所得到的两个结果分数加权后作为评分,经与预定义阈值 比较实现语音欺骗辨别。2. 根据权利要求1所述的说话人语音欺骗攻击检测方法,其特征是,所述的训练深度前 馈神经网络和深度递归神经网络,具体为:采用多帧的Mel滤波器组提取得到的注册音频的 声学特征,即Filter-bank特征训练深度前馈神经网络,然后音频训练集通过深度前馈神经 网络,在网络的最后一个隐层上得到该音频的帧级别特征向量;采用多帧的Mel滤波器组提 取得到的注册音频的声学特征训练深度递归神经网络,然后通过特征归一化,在深度递归 神经网络的最后一个隐层上得到该音频的序列级别特征向量。3. 根据权利要求1或2所述的说话人语音欺骗攻击检测方法,其特征是,所述的训练深 度前馈神经网络和深度递归神经网络,其后向传播过程中,学习率由模拟退火和尽早停止 策略确定。4. 根据权利要求1所述的说话人语音欺骗攻击检测方法,其特征是,所述的声学特征, 即Mel滤波器组的声学特征,通过通过一组Mel滤波器对频域上的待检测音频信号进行滤 波,得到一组过滤后的数组,即Mel频谱,其中每一个带通滤波器输出一位Filter-bank系 数,数组的长度等于Mel滤波器组中的滤波器个数。5. 根据权利要求1或2所述的说话人语音欺骗攻击检测方法,其特征是,所述的深度前 馈神经网络,包含若干个隐层,隐层之间是全连接,参数值随机化初始,通过后向传播算法 传播;所述的深度递归神经网络,包含若干个隐层,其中除了全连接还包含隐层自身到自身 的连接,用来传播上一时刻的信息,以达到保存信息的目的。6. 根据权利要求1所述的说话人语音欺骗攻击检测方法,其特征是,所述的帧级别和序 列级别特征向量分别经由深度前馈神经网络和深度递归神经网络输出,经过规整处理以具 备相同的向量二范数长度。7. 根据权利要求1所述的说话人语音欺骗攻击检测方法,其特征是,所述的经训练的两 个线性差分分析模型,是指:采用深度前馈神经网络和深度递归神经网络的最后一个隐层 得到帧级别和序列级别特征向量分别训练两个线件差分樽塑,该LDA模型中每个分类的密 度由多维高斯分布建模其中:Σ??和yk*别是第k 个类的协方差、均值矩阵,该LDA模型假定:為=& Yk:,且后验概率由贝叶斯公式给出:其中:取是第k个类的先验概率。8. 根据权利要求1或7所述的说话人语音欺骗攻击检测方法,其特征是,所述的两个LDA 模型,根据开发集上的表现调整两者的得分权重。9. 根据权利要求7所述的说话人语音欺骗攻击检测方法,其特征是,所述的分类的数量 与所述神经网络的输出层节点数一致,即攻击种类+1。10. -种基于深度学习的说话人语音欺骗攻击检测系统,其特征在于,包括:对数谱特 征提取模块、深度神经网络模块和线性差分模块,其中:对数谱特征提取模块与深度神经网 络模块相连并传输待测音频的声学特征信息,深度神经网络模块根据声学特征信息输出特 征向量信息至线性差分模块以进行训练,线性差分模块经过训练后能够对待测音频的特征 向量信息判断并评分,从而实现语音欺骗的检测。
【文档编号】G10L15/14GK105869630SQ201610478041
【公开日】2016年8月17日
【申请日】2016年6月27日
【发明人】钱彦旻, 陈楠昕, 俞凯
【申请人】上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1