一种基于神经网络的声纹识别方法及相关装置与流程

文档序号:31470104发布日期:2022-09-09 22:58阅读:110来源:国知局
一种基于神经网络的声纹识别方法及相关装置与流程

1.本技术涉及声纹识别技术领域,尤其涉及一种基于神经网络的声纹识别方法及相关装置。


背景技术:

2.声纹识别系统是根据人声的特质来自动识别说话人身份的系统,身纹识别技术属于生物验证技术的一种,即通过语音对说话人的身份进行验证。这种技术具有较好的便捷性、稳定性、可测量性、安全性等特点,其通常用在银行、社保、公安、智能家居、移动支付等领域。
3.现有的声纹识别方法局限于声纹信息中的噪声影响,使得识别结果缺乏准确性和可靠性,而基于神经网络模型的声纹识别的时延建模能力有限,这就导致实际的声纹识别效果欠佳,无法满足高标准应用需求。


技术实现要素:

4.本技术提供了一种基于神经网络的声纹识别方法及相关装置,用于解决现有声纹识别技术的抗噪能力较差,且时延建模能力有限,导致识别结果缺乏准确性和可靠性的技术问题。
5.有鉴于此,本技术第一方面提供了一种基于神经网络的声纹识别方法,包括:
6.基于多个半正交卷积块构建半正交分解神经网络模型,每个所述半正交卷积块包括多个半正交一维卷积层,所述半正交一维卷积层之间通过串联方式、内跳连接结构和外跳连接结构连接;
7.根据训练声纹信息对应的预置mfcc训练集对所述半正交分解神经网络模型进行声纹识别训练,得到目标识别网络模型;
8.采用所述目标识别网络模型对目标声纹进行识别,得到声纹识别结果。
9.优选地,所述根据训练声纹信息对应的预置mfcc训练集对所述半正交分解神经网络模型进行声纹识别训练,得到目标识别网络模型,之前还包括:
10.对训练声纹信息进行预处理操作,得到待处理音频帧,所述预处理操作包括加重、分帧和加窗处理;
11.基于傅里叶变换算法,采用梅尔滤波器对所述音频帧进行计算,得到mfcc特征;
12.根据所述mfcc特征构建预置mfcc训练集。
13.优选地,所述根据训练声纹信息对应的预置mfcc训练集对所述半正交分解神经网络模型进行声纹识别训练,得到目标识别网络模型,还包括:
14.基于多个半正交卷积块构建半正交分解特征提取器;
15.根据训练声纹信息对应的预置mfcc训练集对所述半正交分解特征提取器进行声纹特征提取训练,得到目标声纹特征提取器;
16.在声纹信息注册过程中,通过所述目标声纹特征提取器对新增声纹进行特征提
取,并将提取的声纹特征保存在数据库中。
17.优选地,所述根据训练声纹信息对应的预置mfcc训练集对所述半正交分解神经网络模型进行声纹识别训练,得到目标识别网络模型,之后还包括:
18.采用测试声纹信息对应的预置mfcc测试集对所述目标识别网络模型进行声纹识别测试,得到测试结果;
19.根据所述测试结果对所述目标识别网络模型进行筛选,得到优化识别网络模型;
20.相应的,所述采用所述目标识别网络模型对目标声纹进行识别,得到声纹识别结果,包括:
21.采用所述优化识别网络模型对目标声纹进行识别,得到声纹识别结果。
22.本技术第二方面提供了一种基于神经网络的声纹识别装置,包括:
23.模型构建模块,用于基于多个半正交卷积块构建半正交分解神经网络模型,每个所述半正交卷积块包括多个半正交一维卷积层,所述半正交一维卷积层之间通过串联方式、内跳连接结构和外跳连接结构连接;
24.模型训练模块,用于根据训练声纹信息对应的预置mfcc训练集对所述半正交分解神经网络模型进行声纹识别训练,得到目标识别网络模型;
25.声纹识别模块,用于采用所述目标识别网络模型对目标声纹进行识别,得到声纹识别结果。
26.优选地,还包括:
27.预处理模块,用于对训练声纹信息进行预处理操作,得到待处理音频帧,所述预处理操作包括加重、分帧和加窗处理;
28.特征提取模块,用于基于傅里叶变换算法,采用梅尔滤波器对所述音频帧进行计算,得到mfcc特征;
29.训练集构建模块,用于根据所述mfcc特征构建预置mfcc训练集。
30.优选地,还包括:
31.提取器构建模块,用于基于多个半正交卷积块构建半正交分解特征提取器;
32.提取器训练模块,用于根据训练声纹信息对应的预置mfcc训练集对所述半正交分解特征提取器进行声纹特征提取训练,得到目标声纹特征提取器;
33.提取器使用模块,用于在声纹信息注册过程中,通过所述目标声纹特征提取器对新增声纹进行特征提取,并将提取的声纹特征保存在数据库中。
34.优选地,还包括:
35.测试模块,用于采用测试声纹信息对应的预置mfcc测试集对所述目标识别网络模型进行声纹识别测试,得到测试结果;
36.优化模块,用于根据所述测试结果对所述目标识别网络模型进行筛选,得到优化识别网络模型;
37.相应的,所述声纹识别模块,具体用于:
38.采用所述优化识别网络模型对目标声纹进行识别,得到声纹识别结果。
39.本技术第三方面提供了一种基于神经网络的声纹识别设备,所述设备包括处理器以及存储器;
40.所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
41.所述处理器用于根据所述程序代码中的指令执行第一方面所述的基于神经网络的声纹识别方法。
42.本技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的基于神经网络的声纹识别方法。
43.从以上技术方案可以看出,本技术实施例具有以下优点:
44.本技术中,提供了一种基于神经网络的声纹识别法,包括:基于多个半正交卷积块构建半正交分解神经网络模型,每个半正交卷积块包括多个半正交一维卷积层,半正交一维卷积层之间通过串联方式、内跳连接结构和外跳连接结构连接;根据训练声纹信息对应的预置mfcc训练集对半正交分解神经网络模型进行声纹识别训练,得到目标识别网络模型;采用目标识别网络模型对目标声纹进行识别,得到声纹识别结果。
45.本技术提供的基于神经网络的声纹识别方法,在构建半正交分解神经网络模型的过程中,采用跳连接结构对卷积层进行连接,将浅层的声纹特征信息直接传输给深层卷积层,使得深层网络获取到更加丰富的声纹信息,从而提升网络的抗噪能力;而多个半正交一维卷积层可以对网络中的原有参数矩阵进行分解,能够压缩冗余参数表达空间,滤除噪声干扰的同时降低时延跨度,达长时延学习的目的。因此,本技术能够解决现有声纹识别技术的抗噪能力较差,且时延建模能力有限,导致识别结果缺乏准确性和可靠性的技术问题。
附图说明
46.图1为本技术实施例提供的一种基于神经网络的声纹识别方法的流程示意图;
47.图2为本技术实施例提供的一种基于神经网络的声纹识别装置的结构示意图;
48.图3为本技术实施例提供的半正交分解神经网络模型结构示意图;
49.图4为本技术实施例提供的半正交卷积块的网络结构示意图。
具体实施方式
50.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
51.为了便于理解,请参阅图1,本技术提供的一种基于神经网络的声纹识别方法的实施例,包括:
52.步骤101、基于多个半正交卷积块构建半正交分解神经网络模型,每个半正交卷积块包括多个半正交一维卷积层,半正交一维卷积层之间通过串联方式、内跳连接结构和外跳连接结构连接。
53.需要说明的是,目前主流的深度神经网络(delayneuralnetwork,dnn)与声纹识别应用,是时延神经网络(time delayneuralnetwork,tdnn)的提出,并以tdnn的倒数第一层或第二层隐藏层作为声纹特征输出,称之为x-vector。tdnn主要是以多层的一维卷积神经网络(convolutional neural network,cnn)组件去搭建而成。但是,一维卷积组件具有多尺度描述图像或者语音特征的能力,优于普通的全连接方式,但是tdnn在强噪声环境中识别效果下降,抗噪的能力不足。另外,tdnn的时延建模能力有限,只能在短时平稳的时间范
围内进行有效的学习。
54.因此,本实施例选用半正交卷积层对神经网络的权重矩阵进行分解,使得原有的一维卷积权重层的参数量较大程度地减少;在有监督学习说话人标签下,半正交分解神经网络基于有限参数,在每次的因式分解中提取出重要的说话人声纹信息,把无关的噪声信息滤除,从而发挥出抗噪的能力。此外,半正交卷积层的时延建模范围有限,若设置过大的跨度,会出现漏采样,会恶化信息的滤除,所以,本实施例采用多段半正交卷积块,能以小跨度的卷积块实现大的时延范围学习,在抗噪声的同时增强了上下文学习能力。
55.请参阅图3,本事实例中的半正交分解神经网络模型包括多个不等的半正交卷积块,相邻半正交卷积块之间是串联的方式连接,除此之外,从网络模型的第二个半正交卷积块开始,每个半正交卷积块都会拼接一个、两个或者多个外跳连接结构,或者内跳连接结构的输出。需要说明的是,外跳连接结构同样包括半正交一维卷积层、激活函数等网络结构,其输出传输给网络模型中第二个半正交卷积块以及之后的深层半正交卷积块。内跳连接结构是从第二个半正交卷积块开始,浅层特征信息都需要传输给后面的深层半正交卷积块。从图3给出的示例可知,第二个半正交卷积块的输入包括一个串联输入和一个外跳连接输入;第三个半正交卷积块的输入包括一个串联输入、一个外跳连接输入和一个内跳连接输入,后面的以此类推。具体的,网络模型包括的半正交卷积块的数量可以根据实际需要确定,在此不作限定,只要符合本实施例的卷积块连接思维即可。
56.半正交卷积块包括多个半正交一维卷积层,且数量至少为2,因此是多段半正交卷积块,请参阅图4,图4中的弧线箭头即为内跳连接结构和外跳连接结构数据流向,而半正交卷积块中除了半正交一维卷积层之外,还包括外跳拼接层、激活函数、规整层和输出层,输出层包括融入内跳连接结构输入信息和规整层输出信息;外跳拼接层可以接收其他的半正交卷积块输入的外跳连接结构的输出信息,以拼接的方式与该层接收的其他信息进行组合。可以理解的是,外跳拼接层可以接收多个不等的外跳连接结构的输出信息。
57.需要说明的是,半正交一维卷积层可以将输入参数矩阵a[a,a]进行分解,约束分解的参数矩阵m[a,b]符合半正交分解,使得输出矩阵b[b,b]的有效声纹信息能保留下来,其中,a,b均为矩阵维度数,约束分解的公式如下:
[0058][0059]
a=mb
[0060]
其中,α为浮点系数,默认为1;i为单位矩阵。
[0061]
当约束收敛时,会有:
[0062]
a=mb≈mm
t
[0063]
即输出矩阵b近似等于参数矩阵m
t

[0064]
一维卷积的参数矩阵n[b,a],对分解后的矩阵b或拼接后的矩阵进行卷积操作,多个卷积核学习不同尺度上的信息生成出矩阵p[a,a];其中,矩阵p有别于普通一维卷积tdnn的输出结果r[a,a],假设普通一维卷积tdnn的参数矩阵是w[a,a],则普通一维卷积与半正交分解一维卷积具体有如下差异:
[0065]
普通一维卷积:a*w
→r[0066]
半正交分解一维卷积:a*mn

p
[0067]
当参数矩阵m的降维是小于等于a/4时,m和n的总参数量会小于等于w的一半参数量。每位训练说话人的多条音频会具有多种噪声因子差异,在有监督学习说话人标签中,神经网络将会学习多种噪声下的说话人共性。而半正交一维卷积,通过对原有矩阵分解,压缩冗余参数表示空间,使其能精炼说话人信息,滤除噪声干扰;噪声信息的建模量为:
[0068]
ε=w-mn。
[0069]
激活函数与规整层,对半正交一维卷积层输出的矩阵p进行非线性激活处理再规整后得到隐藏层信息q;最后输出层对激活规整后的矩阵q与跳连接输入矩阵a进行相加或拼接等整合运算,本实施例选择的是权重相加,权重默认为0.66,权重相加后成一个输出矩阵o。
[0070]
步骤102、根据训练声纹信息对应的预置mfcc训练集对半正交分解神经网络模型进行声纹识别训练,得到目标识别网络模型。
[0071]
半正交分解神经网络模型训练的数据是声学特征,即梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc),对于存在标签的训练集,可以将模型输出结果与标签作交叉熵计算损失,进而优化模型的训练,得到目标识别网络模型。
[0072]
进一步地,步骤102,之前还包括:
[0073]
对训练声纹信息进行预处理操作,得到待处理音频帧,预处理操作包括加重、分帧和加窗处理;
[0074]
基于傅里叶变换算法,采用梅尔滤波器对音频帧进行计算,得到mfcc特征;
[0075]
根据mfcc特征构建预置mfcc训练集。
[0076]
进一步地,步骤102,还包括:
[0077]
基于多个半正交卷积块构建半正交分解特征提取器;
[0078]
根据训练声纹信息对应的预置mfcc训练集对半正交分解特征提取器进行声纹特征提取训练,得到目标声纹特征提取器;
[0079]
在声纹信息注册过程中,通过目标声纹特征提取器对新增声纹进行特征提取,并将提取的声纹特征保存在数据库中。
[0080]
特征提取器与半正交分解神经网络模型前面的网络结构相同,实质就是在半正交分解神经网络模型最后的池化层的第一层进行声纹特征输出,不作最后全连接层的识别结果输出即可。目标声纹特征提取器的训练过程与识别模型的训练过程相同;且特征提取器可以用于初始人声信息注册过程,也可以应用与验证集的获取过程。
[0081]
进一步地,步骤102,之后还包括:
[0082]
采用测试声纹信息对应的预置mfcc测试集对目标识别网络模型进行声纹识别测试,得到测试结果;
[0083]
根据测试结果对目标识别网络模型进行筛选,得到优化识别网络模型;
[0084]
相应的,步骤103,包括:
[0085]
采用优化识别网络模型对目标声纹进行识别,得到声纹识别结果。
[0086]
步骤103、采用目标识别网络模型对目标声纹进行识别,得到声纹识别结果。
[0087]
本技术实施例提供的基于神经网络的声纹识别方法,在构建半正交分解神经网络模型的过程中,采用跳连接结构对卷积层进行连接,将浅层的声纹特征信息直接传输给深层卷积层,使得深层网络获取到更加丰富的声纹信息,从而提升网络的抗噪能力;而多个半
正交一维卷积层可以对网络中的原有参数矩阵进行分解,能够压缩冗余参数表达空间,滤除噪声干扰的同时降低时延跨度,达长时延学习的目的。因此,本技术实施例能够解决现有声纹识别技术的抗噪能力较差,且时延建模能力有限,导致识别结果缺乏准确性和可靠性的技术问题。
[0088]
为了便于理解,请参阅图2,本技术提供了一种基于神经网络的声纹识别装置的实施例,包括:
[0089]
模型构建模块201,用于基于多个半正交卷积块构建半正交分解神经网络模型,每个半正交卷积块包括多个半正交一维卷积层,半正交一维卷积层之间通过串联方式、内跳连接结构和外跳连接结构连接;
[0090]
模型训练模块202,用于根据训练声纹信息对应的预置mfcc训练集对半正交分解神经网络模型进行声纹识别训练,得到目标识别网络模型;
[0091]
声纹识别模块203,用于采用目标识别网络模型对目标声纹进行识别,得到声纹识别结果。
[0092]
进一步地,还包括:
[0093]
预处理模块204,用于对训练声纹信息进行预处理操作,得到待处理音频帧,预处理操作包括加重、分帧和加窗处理;
[0094]
特征提取模块205,用于基于傅里叶变换算法,采用梅尔滤波器对音频帧进行计算,得到mfcc特征;
[0095]
训练集构建模块206,用于根据mfcc特征构建预置mfcc训练集。
[0096]
进一步地,还包括:
[0097]
提取器构建模块207,用于基于多个半正交卷积块构建半正交分解特征提取器;
[0098]
提取器训练模块208,用于根据训练声纹信息对应的预置mfcc训练集对半正交分解特征提取器进行声纹特征提取训练,得到目标声纹特征提取器;
[0099]
提取器使用模块209,用于在声纹信息注册过程中,通过目标声纹特征提取器对新增声纹进行特征提取,并将提取的声纹特征保存在数据库中。
[0100]
进一步地,还包括:
[0101]
测试模块210,用于采用测试声纹信息对应的预置mfcc测试集对目标识别网络模型进行声纹识别测试,得到测试结果;
[0102]
优化模块211,用于根据测试结果对目标识别网络模型进行筛选,得到优化识别网络模型;
[0103]
相应的,声纹识别模块203,具体用于:
[0104]
采用优化识别网络模型对目标声纹进行识别,得到声纹识别结果。
[0105]
本技术还提供了一种基于神经网络的声纹识别设备,设备包括处理器以及存储器;
[0106]
存储器用于存储程序代码,并将程序代码传输给处理器;
[0107]
处理器用于根据程序代码中的指令执行上述方法实施例中的基于神经网络的声纹识别方法。
[0108]
本技术还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行上述方法实施例中的基于神经网络的声纹识别方法。
[0109]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0110]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0111]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0112]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read-only memory,英文缩写:rom)、随机存取存储器(英文全称:randomaccess memory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0113]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1