用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络的制作方法

文档序号:12721602阅读:985来源:国知局
用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络的制作方法与工艺

本发明涉及一种语音处理领域的技术,具体涉及一种原波输入的用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络(CLDNN)。



背景技术:

欺骗检测是说话人确认领域中的一个分支,用于区分真实(人)的与人造(欺骗性)的口头话语。欺骗检测的主要目的是计算每个话语的评分,并用评分区分这两种(欺骗性的,人的)话语种类。评分用于计算出一个阈值,通过这个阈值一个话语可被划分为真实的(如果其评分大于定义的阈值)或者欺骗性的(其评分低于阈值)。

检测欺骗性语音需要特征:人工向量,目的在于在一个较低的维度空间内表示一个给定的话语,唯一性是首要的。在传统的语音相关任务中,原波话语拥有高维度,因而对真实世界里的任务不可行。特征一般在固定大小的帧窗中从给定的原波话语中提取出来。另外,相邻帧窗的重叠用于合并上下文信息。

在说话人-反欺骗社区内,大多数研究工作着重于伪造人工特征,这样能够成功区分前述两个话语种类。对于后端分类器,如支持向量机(Support Vector Machine,SVM)和高斯混合模型(Gaussian Mixture Model,GMM)的研究,仅产生些微的改进,强化了专注特征改进的地位。在这里我们尝试了不同的方向:采用深度神经网络作为前端特征提取和后端分类的统一模型。

深度神经网络(Deep Neural Network,DNN)作为人工智能网络,在现有技术中用于机器学习任务,如图像、语音和说话人识别。在大多数机器学习任务中发现,深度神经网络远胜于现有的神经网络方法。神经网络可视作一个广义的非线性功能拟合器,根据特征进行学习,而特征通常为一组多向量,代表一组标签的有限集(如在说话人欺骗中,输入可以是一个贴有指示人的语音或欺骗语音的标签的语段)。

与DNN相比,卷积神经网络(Convolution Neural Network,CNN)在二维输入上进行卷积操作,以获得不变的信号表示。因而卷积是深度神经网络的二维加强版。在语音识别行业中,CNN可用作强化的特征提取器,开发特征的功能以从单输入产生不变的输出。

原波特征(Raw wave features)曾被语音识别行业广泛忽视,主要因其维数通常较大,并且有模糊不清之处。特征提取是一个逐渐减少给定的原波输入的维数,同时旨在使特征尽可能唯一的过程。然而,这种情况随着深度神经网络,特别是CNN的引入得到改变。CNN可以用于评估特征提取过程,其与传统特征提取的主要区别在于参数并不固定,而是为了适应当前任务进行动态调整。

长短期记忆(Long and Short Term Memory,LSTM)在现有的序列上增加设定,从而加强上述DNN和CNN模型,其中DNN和CNN只作局部处理且只仅采用(通常是独立的)特征向量作为输入,但这样的处理方式对于一个有序的自然体,如语音的数据而言是不常见的。



技术实现要素:

本发明针对现有技术中的特征仅可在任务外提取,并且不是能够反映欺骗任务的最优特征以及终端分类器与所检测的特征间的匹配度不高等缺陷,提出一种用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络,通过对现有各种特征的综合能力进行考量,规避了特征提取的过程,并提高了方法架构针对不同任务的适应性。

本发明是通过以下技术方案实现的:

本发明涉及一种卷积长短期记忆深度神经网络(Convolutional LSTM DNN,CLDNN),包括:一个具备长短期记忆序列映射的卷积神经网络前端和一个神经网络直接分类器。

所述的卷积神经网络前端包括:至少两个用于标准特征提取的CNN和至少一个用于标签预测的CNN,该用于标签预测的CNN标准特征以长短期记忆的序列方式进行标签预测。

所述的用于标准特征提取的CNN采用时序卷积神经网络进行标准特征提取,其中:第一个CNN将导入的原波输入缩小为固定大小的向量,第二个CNN则对缩小后的特征信号进行不变性转化,其中:所述的向量的大小与常量特征39维相似;所述的不变性转化是指:包括256个特征映射,在每个时间步长内一个样本产生一个256维的输入特征。

所述的长短期记忆的序列方式为每个时间步长作一个向量的输出,并采用输出序列中的最后一个作为代表输出。

所述的神经网络直接分类器优选为包含有两层标准前馈的深度神经网络,通过插入原波话语得到的相关分类的评分进行设计,并采用标准反传算法逐层训练得以实现。

本发明中的原波语音优选根据目标帧大小(如25ms)被分为同等大小的向量,帧的大小由波形文件的采样率决定,大多数数据集是16000Hz。并且,在标准特征提取过程中,采用重叠以在单个帧内包含一个上下文信息。

本发明中上述重叠率优选为50%。

技术效果

与现有技术相比,本发明采用的卷积长时深度神经网络能够直接优化特征提取和分类根据当前任务。因此,给定的输入可表示得更有鲁棒性和有效,从而使检测结果得到全面提高;通过结合分类器训练直接评估合适的特征,使得模型能够适应任何的相关任务;由于去除了前端程序,使得本发明模型大大简化了流水线,尤其是API调用;通过在单个模型内联合分类与最优化,使得本发明无需为单独的分类器和特征提取方法调用多参数。

附图说明

图1为本发明结构示意图;

图2为第一层卷积神经网络的结构示意图;

图3为第二层卷积神经网络的结构示意图。

具体实施方式

如图1所示,本实施例涉及一种基于卷积长短时记忆的端对端语音欺骗检测系统,包括作为联合特征提取器和分类器的CLDNN,该CLDNN包括:CNN、LSTM和DNN。

本实施例中采用原波对分类器进行训练,Torch作为本模型的深度学习库,需要安装RNN包以完成LSTM模型。

每一个输入的原波文件首先被分割为相同大小的560帧,即相当于一个35ms的帧窗。相邻帧之间有17.5ms的重叠(即50%重叠率)。

本实施例中的CLDNN包括:用于标准特征提取的使用64张特征图的第一层CNN和使用128张特征图的第二层CNN、用于标签预测的第三第四层LSTM使用128个节点以及作为神经网络直接分类器的DNN层。

本实施例通过以下方式进行工作:

①首先以固定尺寸的连续帧对上述网络进行训练,同时通过使得序列帧的权值共享,作为CNN的序列输入;从而实现CNN在每个时间步长内对应每个输入产生一个输出,该输出将进一步输送至LSTM。

②由于LSTM在每个时间步长内的输出对应的一个向量,我们只采用最后一个时间步长的向量作为代表。这有助于提高模型的效果并降低计算的复杂性。

③将上述得到的向量进一步由一个单层256神经元DNN进行分类。

总体而言,由于该任务为二分式,因此本实施例中的两个输出神经元即可满足对模型的训练需求。

如图2所示,本实施CLDNN的第一层卷积神经网络的输入是原始波形wav,利用一层卷积提取39维的频率特征。

如图3所示,本实施CLDNN的第三层卷积神经网络的的输入是图2的输出的39维特征。利用再一层的卷积操作,精细化的局部提取特征语谱信息。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1