一种基于3D卷积神经网络的声纹识别方法与流程

文档序号:16636455发布日期:2019-01-16 07:04阅读:929来源:国知局
一种基于3D卷积神经网络的声纹识别方法与流程

本发明涉及深度学习及语音信号处理技术领域,具体涉及一种基于3d卷积神经网络的声纹识别方法。



背景技术:

随着世界信息化进程日新月异,信息安全问题日趋严重,造成的影响越来越大,“个人隐私保密”问题迫切需要解决;而如何准确而安全的确定一个人的身份引起人们的思考。传统的安全认证方法比如密码或密钥认证通常易忘、易丢、易盗。常见的声纹识别方法比如早期的基于信号处理的声纹识别方法,使用信号处理技术中一些技术方法计算出语音数据在信号学的参数,然后进行模板匹配、统计方差分析等,该方法对语音数据极为敏感,准确率很低,识别效果很不理想。基于高斯混合模型的识别方法能取得较好的效果且简单灵活,但其对语音数据量要求很大,对信道环境噪声非常敏感,无法满足真实场景下的要求。现有的基于深度学习神经网络的方法并未考虑语音信号的上下文相关的本质,提取到的特征并不能很好地代表说话人,并没有完全发挥深度学习的优势。



技术实现要素:

本发明的目的在于克服现有技术的缺点与不足,提供一种基于3d卷积神经网络的声纹识别方法,该方法可与其它生物特征识别(人脸,语音,虹膜,指纹等)相结合,提高安全性和准确率,可应用于远程登录,交易支付,语音拨号,门禁系统等场合。

本发明的目的通过下述技术方案实现:

一种基于3d卷积神经网络的声纹识别方法,包括下述步骤:

步骤一,对语音信号的预处理;语音采集过程中会产生较多的信道噪声,则会给识别任务带来较大的困难,因此首先采用谱相减法对输入语音数据进行去噪处理,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱;此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;去除信道噪音的同时,完全保存了与说话人有关的所有信息;

其中,所述谱相减法的具体步骤如下:

首先对输入的语音信号进行预滤波,对滤波后的语音信号进行预加重,将语音信号分帧,对信号帧加汉明窗,对加窗后的信号进行fft变换,对各帧语音信号求功率谱,然后求平均噪声功率,利用vad进行噪声估计监测寂静段,进而组合递归平滑,更新噪声谱,进行谱减运算,得出估计的语音信号功率谱,然后插入相位谱,计算出语音谱,再进行ifft变换,得到还原的语音帧,根据各个语音帧组合为语音信号,将语音信号加重得到最终信号;

步骤二,声学特征的提取和拼接;对步骤一中得到的纯语音数据按照帧长25ms、帧移10ms进行分帧,每一条语音数据能够分为多帧语音信号,分别计算每一帧语音信号的mfcc特征参数;

其中,所述计算mfcc特征参数的具体步骤如下:

首先将语音信号通过一个高通滤波器,即预加重处理,然后将信号分帧,每一帧乘以汉明窗,之后每帧再经过fft变换以得到在频谱上的能量分布,然后将功率谱通过一组mel标度的三角形滤波器组,计算每个滤波器组输出的对数能量,最后经过dct变换得到mfcc特征参数;然后选择前13维mfcc特征参数并继续计算其一阶和二阶差分,分别提取前13维mfcc特征拼接成为一个39维的特征向量,由此作为这一帧语音信号的特征参数;然后将每39帧语音信号的39个特征合并成为一个39*39的二维数据,不足39帧的语音信号丢弃;

步骤三,3d卷积神经网络的构建;首先堆叠20帧的数据,即20*39*39的数据作为3d卷积神经网络的输入;然后根据识别结果不断调整卷积神经网络参数,具体步骤如下:

首先收集大量的人声数据,每个人的声音数据需要多个,然后将部分的人声数据用于特征采集,剩余部分的人声数据用于声纹识别,当识别输出的身份匹配不正确时,修正卷积神经网络参数,直到最终识别正确;最后,通过softmax分类器输出结果。

本发明与现有技术相比具有以下的有益效果:

(1)本发明的语音信号预处理采用谱相减法,相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,从而可以有效提高识别的准确性;

(2)声学特征mfcc考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的mel非线性频谱中,然后转换到倒谱上,其在人工语音特征方面表现极为突出,而通常方法使用的倒谱参数mfcc只反映了语音参数的静态特性,因此我们可以用这些静态特征的差分谱来描述语音的动态特性(即:一、二阶差分反映语音的动态特征),本发明将动、静态特征结合,可以提高系统的识别性能;

(3)本发明利用3d卷积神经网络进行声谱图的特征提取,更好的提取时间和空间的特征信息,也考虑了语音信号的上下文相关的本质,从而实现了更为准确的声纹识别。

附图说明

图1为本发明的谱相减法流程图;

图2为本发明的声学特征提取流程图;

图3为本发明的2d卷积和3d卷积比较示意图;

图4为本发明的3d卷积神经网络结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

如图1~4所示,一种基于3d卷积神经网络的声纹识别方法,包括下述步骤:

步骤一,对语音信号的预处理;语音采集过程中会产生较多的信道噪声,则会给识别任务带来较大的困难,因此首先采用谱相减法对输入语音数据进行去噪处理,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱;此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;去除信道噪音的同时,完全保存了与说话人有关的所有信息;

其中,所述谱相减法的具体步骤如下:

首先对输入的语音信号进行预滤波,对滤波后的语音信号进行预加重,将语音信号分帧,对信号帧加汉明窗,具体来说,在信号处理过程中,加窗处理是一个必经的过程,因为我们的计算机只能处理有限长度的信号,因此原始信号x(t)要以t(采样时间)截断,即有限化,成为xt(t)后再进一步处理,这个过程就是加窗处理,实际的信号处理过程中,我们一般用矩形窗,但矩形窗在边缘处将信号突然截断,窗外时域信息全部消失,导致在频域增加了频率分量的现象,即频谱泄漏,考虑如何减少加窗时造成的泄漏误差,主要的措施是使用合理的加窗函数,汉明窗就是信号窗口的一种,它主要部分的形状像sin(x)在0到pi区间的形状,而其余部分都是0,这样的函数乘上其他任何一个函数f,f都只有一部分有非零值;对加窗后的信号进行fft(快速傅里叶变换)变换,对各帧语音信号求功率谱,然后求平均噪声功率,利用vad(语音端点检测,voiceactivitydetection)进行噪声估计监测寂静段,进而组合递归平滑,更新噪声谱,进行谱减运算,得出估计的语音信号功率谱,然后插入相位谱,计算出语音谱,再进行ifft(快速傅里叶反变换)变换,得到还原的语音帧,根据各个语音帧组合为语音信号,将语音信号加重得到最终信号;

步骤二,声学特征的提取和拼接;对步骤一中得到的纯语音数据按照帧长25ms、帧移10ms进行分帧,每一条语音数据能够分为多帧语音信号,分别计算每一帧语音信号的mfcc特征参数;梅尔倒谱系数(mel-scalefrequencycepstralcoefficients,简称mfcc)是在mel标度频率域提取出来的倒谱参数,mel标度描述了人耳频率的非线性特性。

其中,所述计算mfcc特征参数的具体步骤如下:

首先将语音信号通过一个高通滤波器,即预加重处理,然后将信号分帧,每一帧乘以汉明窗,之后每帧再经过fft变换以得到在频谱上的能量分布,然后将功率谱通过一组mel标度的三角形滤波器组,计算每个滤波器组输出的对数能量,最后经过dct变换(离散余弦)得到mfcc特征参数;然后选择前13维mfcc特征参数并继续计算其一阶和二阶差分,分别提取前13维mfcc特征拼接成为一个39维的特征向量,由此作为这一帧语音信号的特征参数;然后将每39帧语音信号的39个特征合并成为一个39*39的二维数据,不足39帧的语音信号丢弃;

步骤三,3d卷积神经网络的构建;

3d卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3d卷积核,相当于人为地提供了高度相关的话语表达来捕捉说话者的信息,在这个结构中,卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连,因此可以捕捉到与上下文有关的时间信息。首先堆叠20帧的数据,这里的数据是指步骤二中每39帧语音信号的39个特征向量合并成的二维数据,用来表征语音信号的特征参数),即20*39*39的数据作为3d卷积神经网络的输入;

然后根据识别结果不断调整卷积神经网络参数,具体是指卷积神经网络训练过程中的learningrate,batchsize,weightdecay,epoch-number,dropout,epoch等参数,具体步骤如下:

首先收集大量的人声数据,每个人的声音数据需要多个,然后将部分的人声数据用于特征采集,剩余部分的人声数据用于声纹识别,当识别输出的身份匹配不正确时,修正卷积神经网络参数,直到最终识别正确;3d卷积神经网络与通常的2d卷积神经网络原理是相似的,只是多出一维,包括输入层,卷积层,池化层,全连接层,最后,通过softmax分类器输出结果。

语音作为人机交互的一个关键接口,在身份认证上发挥着重要作用,声纹作为说话人独一无二的生物特征,正是克服传统认证方法的新手段,与其他方法相比,蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;声纹认证适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录。说话人识别,即声纹识别,声纹作为人的生物特征具有其唯一性,使识别的安全性得以提高,同时克服了易忘,易丢,易盗的缺点。而3d卷积神经网络能够更好的捕捉时间和空间上的信息,将其引入声纹识别中,可准确高效的完成识别任务。

本发明的语音信号预处理采用谱相减法,相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,从而可以有效提高识别的准确性;声学特征mfcc考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的mel非线性频谱中,然后转换到倒谱上,其在人工语音特征方面表现极为突出,而通常方法使用的倒谱参数mfcc只反映了语音参数的静态特性,因此我们可以用这些静态特征的差分谱来描述语音的动态特性(即:一、二阶差分反映语音的动态特征),本发明将动、静态特征结合,可以提高系统的识别性能;利用3d卷积神经网络进行声谱图的特征提取,更好的提取时间和空间的特征信息,也考虑了语音信号的上下文相关的本质,从而实现了更为准确的声纹识别。

上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1