基于小波神经网络的声纹特征提取模型构建方法及系统与流程

文档序号:29127196发布日期:2022-03-05 00:25阅读:184来源:国知局
基于小波神经网络的声纹特征提取模型构建方法及系统与流程

1.本发明涉及声纹识别技术领域,尤其是涉及一种基于小波神经网络的声纹特征提取模型构建方法及系统。


背景技术:

2.声纹识别是对说话人的声音识别或者验证的应用系统,是通过辨别说话人声音信号中的独有特征来区分说话人的技术。特征提取是声纹识别中非常重要的一步,是将输入的说话人声音信号提取出特征向量,从而减少信息冗余,降低计算复杂度,降低噪声干扰,便于后续处理。由于语音具有短时平稳性,所以我们可以对声音信号进行分帧,得到每一帧再进行处理,就可以得到声音信号的短时频谱特征。当前使用最广泛的短时频谱特征是mel倒谱系数。
3.mel倒谱系数的步骤一般包括:数据预处理、快速傅里叶变换和倒谱计算。其中数据预处理包括预加重、分帧和加窗;倒谱计算包括计算mel滤波器组、对数运算和离散余弦变换。计算mel倒谱系数使用的傅里叶变换主要是三角函数(正弦函数或余弦函数)的线性组合,三角函数是全时域的,受到局部噪音的影响之后就会影响整个频谱,导致mel倒谱系数抗噪性能较差。


技术实现要素:

4.本发明的目的在于提供一种基于小波神经网络的声纹特征提取模型构建方法及系统,旨在解决mel倒谱系数抗噪性能较差以及提取流程繁复的问题。
5.本发明提供一种基于小波神经网络的声纹特征提取模型构建方法,包括:
6.s1.获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号;
7.s2.选择小波基函数,将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数;
8.s3.将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型。
9.本发明提供一种基于小波神经网络的声纹特征提取模型构建系统,包括:
10.数据处理模块:用于获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号;
11.模型构建模块:用于通过将选择的小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数;
12.模型训练模块:用于将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型。
13.本发明实施例还提供一种基于小波神经网络的声纹特征提取模型构建设备,包
括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述模型构建方法的步骤。
14.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述模型构建方法的步骤。
15.本发明实施例中的小波神经网络模型训练简单,对专业性的要求低;最终得到的特征提取模型抗噪性能优秀;小波神经网络能够提取声音信号的深层特征,具有更强的表征能力。
16.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
17.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本发明实施例的基于小波神经网络的声纹特征提取模型构建方法的流程图;
19.图2是本发明实施例的小波神经网络结构图;
20.图3是本发明实施例的基于小波神经网络的声纹特征提取方法流程图;
21.图4是本发明实施例的基于小波神经网络的声纹特征提取模型构建系统示意图;
22.图5是本发明实施例的基于小波神经网络的声纹特征提取模型构建设备示意图。
具体实施方式
23.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
25.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通
技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
26.方法实施例
27.根据本发明实施例,提供了一种基于小波神经网络的声纹特征提取模型构建方法,图1是本发明实施例的基于小波神经网络的声纹特征提取模型构建方法的流程图,如图1所示,根据本发明实施例的基于小波神经网络的声纹特征提取模型构建方法具体包括:
28.s1.获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号。
29.具体的,输入网络的数据需要是wav格式、16khz采样率和16bit的语音,需要将获取到的数据处理成上述格式再输入神经网络。
30.s2.选择小波基函数,将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数。
31.小波神经网络是在误差反传神经网络结构的基础上发展而来的网络,其方法是将神经网络隐藏层中神经元的传递激发函数用小波基函数来代替,小波神经网络充分继承了小波变换和神经网络的优点,即时频局部化、对噪声不敏感和网络收敛速度快。
32.小波变换是在短时傅里叶变换的基础上发展而来的,它继承了短时傅里叶变换局部化的特点,也解决了短时傅里叶变换窗口大小固定分辨率无法改变的缺点。小波变换使用快速衰减的小波基函数来表示信号,通过对小波基函数的伸缩的到不同分辨率的值,在信号的高频成分处使用高时间分辨率低频率分辨率,在低频成分出使用低时间分辨率高频率分辨率。
33.小波神经网络的一个重要问题在于小波基函数的选择,小波基函数的选择应该满足以下要求:
34.1、应具有振荡性;
35.2、应具有紧支撑性,即小波基函数应快速衰减,以便获得空间局域化;
36.3、应具有正交性,有利于信号的精确重构;
37.4、消失距数目,消失距越大,频域的局部化能力越强,有利于提高抗噪性能。
38.本实施例中使用的小波基函数是多贝西小波,图2为本发明实施例中获得的小波神经网络结构图,如图2所示,小波神经网络由输入层、隐藏层、输出层组成,x1,x2,...,x
t
为网络输入,小波基函数为隐藏层激活函数,y1,...,yn为网络输出;输入样本x1,x2,...,x
t
由输入层传入,经隐藏层处理后传到输出层,若输出层的实际输出y1,...,yn与期望输出不符,则进行误差反向传播更新网络权值,对网络进行训练。
39.设置训练参数包括:初始化权重、设置初始学习率、选择优化器和损失函数以及设置迭代训练停止条件;
40.具体的,把权重初始化为均值为0,方差为0.1的高斯分布,设置初始学习率为0.001,选择adam优化器,选择交叉熵损失函数作为训练损失函数;
41.设置迭代训练停止条件为:设置迭代轮次最大值,当迭代次数达到所述最大值时停止迭代;
42.保存每一轮迭代的模型,迭代结束后,选择所有迭代轮次中性能最好的模型作为声纹特征提取模型。
43.s3.将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实
值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型。
44.具体的,对小波神经网络进行迭代训练的过程为:
45.s301.将处理好的声音信号输入小波神经网络中进行计算,输出小波神经网络预测值;
46.s302.将所述预测值与真实值输入定义好的损失函数中计算损失函数值;
47.s303.执行反向传播,计算损失函数在每一个神经元节点处的偏导数,对损失函数计算权值对应的梯度,使用梯度下降算法更新网络权值,使损失函数值减小;
48.s304.重复执行s301到s303,直到达到所述迭代训练停止条件,网络训练完成,得到训练好的声纹特征提取模型。
49.图3是本发明实施例的基于小波神经网络的声纹特征提取方法流程图,通过训练完成后的声纹特征提取模型进行声纹特征提取时,首先将要输入模型的声音数据进行预处理,然后将处理完毕的数据输入训练完成的小波神经网络中则可得到对应语音的说话人特征,进一步地,将提取到的特征归入说话人分类网络中。
50.采用本发明实施例,进行网络训练时只需要设置好网络结构即可,模型训练简单,专业性要求低;小波神经网络使用有限长快速衰减的小波基函数,局部噪声不会影响整个频谱,具有更好的抗噪性能;小波神经网络为深层结构,可以更好的提取声音信号的深层特征,表征能力更强。
51.系统实施例
52.根据本发明实施例,提供了一种基于小波神经网络的声纹特征提取模型构建系统,图4是本发明实施例的基于小波神经网络的声纹特征提取模型构建系统的示意图,如图3所示,根据本发明实施例的基于小波神经网络的声纹特征提取模型构建系统具体包括:
53.数据处理模块40:用于获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号。
54.模型构建模块42:用于通过将选择的小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数;
55.模型构建模块42具体用于:将权重初始化为均值为0,方差为0.1的高斯分布,设置初始学习率为0.001,选择adam优化器,选择交叉熵损失函数作为训练损失函数以及设置迭代训练停止条件。
56.模型训练模块44:用于将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型;
57.模型训练模块44具体用于:
58.将声音信号输入小波神经网络计算,得到小波神经网络输出的预测值;
59.将所述预测值与真实值输入定义好的损失函数中计算损失函数值;
60.执行反向传播,计算损失函数在每一个神经元节点处的偏导数,对损失函数计算每个权值对应的梯度,使用梯度下降算法更新网络权值;
61.重复执行上述过程,直到达到所述迭代训练停止条件,得到所述声纹特征提取模型。
62.本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以
参照方法实施例的描述进行理解,在此不再赘述。
63.装置实施例一
64.本发明实施例提供一种基于小波神经网络的声纹特征提取模型构建设备,如图5所示,包括:存储器50、处理器52及存储在所述存储器50上并可在所述处理器52上运行的计算机程序,所述计算机程序被所述处理器52执行时实现如下方法步骤:
65.s1.获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号。
66.具体的,输入网络的数据需要是wav格式、16khz采样率和16bit的语音,需要将获取到的数据处理成上述格式再输入神经网络。
67.s2.选择小波基函数,将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数。
68.本实施例中使用的小波基函数是多贝西小波,图2为本发明实施例中获得的小波神经网络结构图,如图2所示,小波神经网络由输入层、隐藏层、输出层组成,x1,x2,...,x
t
为网络输入,小波基函数为隐藏层激活函数,y1,...,yn为网络输出;输入样本x1,x2,...,x
t
由输入层传入,经隐藏层处理后传到输出层,若输出层的实际输出y1,...,yn与期望输出不符,则进行误差反向传播更新网络权值,对网络进行训练。
69.设置训练参数包括:初始化权重、设置初始学习率、选择优化器和损失函数以及设置迭代训练停止条件;
70.具体的,把权重初始化为均值为0,方差为0.1的高斯分布,设置初始学习率为0.001,选择adam优化器,选择交叉熵损失函数作为训练损失函数以及设置迭代训练停止条件;
71.设置迭代训练停止条件为:设置迭代轮次最大值,当迭代次数达到所述最大值时停止迭代;
72.保存每一轮迭代的模型,迭代结束后,选择所有迭代轮次中性能最好的模型作为声纹特征提取模型。
73.s3.将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型。
74.具体的,对小波神经网络进行迭代训练时的过程为:
75.s301.将处理好的声音信号输入小波神经网络中进行计算,输出小波神经网络预测值;
76.s302.将所述预测值与真实值输入定义好的损失函数中计算损失函数值;
77.s303.执行反向传播,计算损失函数在每一个神经元节点处的偏导数,对损失函数计算每个权值对应的梯度,使用梯度下降算法更新网络权值,使损失函数值减小;
78.s304.重复执行s301到s303,直到达到所述迭代训练停止条件,网络训练完成,得到训练好的声纹特征提取模型。
79.通过训练完成后的声纹特征提取模型进行声纹特征提取时,首先将要输入模型的声音数据进行预处理,然后将处理完毕的数据输入训练完成的小波神经网络中则可得到对应语音的说话人特征,进一步地,将提取到的特征归入说话人分类网络中。
80.装置实施例二
81.本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器52执行时实现如下方法步骤:
82.s1.获取特定格式的声音数据,对所述声音数据进行预处理,转化为固定维度的声音信号。
83.具体的,输入网络的数据需要是wav格式、16khz采样率和16bit的语音,需要将获取到的数据处理成上述格式再输入神经网络。
84.s2.选择小波基函数,将所述小波基函数设置为神经网络隐藏层中神经元的传递激发函数,构造小波神经网络,设置训练参数。
85.本实施例中使用的小波基函数是多贝西小波,图2为本发明实施例中获得的小波神经网络结构图,如图2所示,小波神经网络由输入层、隐藏层、输出层组成,x1,x2,...,x
t
为网络输入,小波基函数为隐藏层激活函数,y1,...,yn为网络输出;输入样本x1,x2,...,x
t
由输入层传入,经隐藏层处理后传到输出层,若输出层的实际输出y1,...,yn与期望输出不符,则进行误差反向传播更新网络权值,对网络进行训练。
86.设置训练参数包括:初始化权重、设置初始学习率、选择优化器和损失函数以及设置迭代训练停止条件;
87.具体的,把权重初始化为均值为0,方差为0.1的高斯分布,设置初始学习率为0.001,选择adam优化器,选择交叉熵损失函数作为训练损失函数以及设置迭代训练停止条件;
88.设置迭代训练停止条件为:设置迭代轮次最大值,当迭代次数达到所述最大值时停止迭代;
89.保存每一轮迭代的模型,迭代结束后,选择所有迭代轮次中性能最好的模型作为声纹特征提取模型。
90.s3.将所述声音信号输入所述小波神经网络进行计算,基于输出的预测值和真实值,根据所述训练参数对小波神经网络进行迭代训练,获得声纹特征提取模型。
91.具体的,对小波神经网络进行迭代训练时的过程为:
92.s301.将处理好的声音信号输入小波神经网络中进行计算,输出小波神经网络预测值;
93.s302.将所述预测值与真实值输入定义好的损失函数中计算损失函数值;
94.s303.执行反向传播,计算损失函数在每一个神经元节点处的偏导数,对损失函数计算每个权值对应的梯度,使用梯度下降算法更新网络权值,使损失函数值减小;
95.s304.重复执行s301到s303,直到达到所述迭代训练停止条件,网络训练完成,得到训练好的声纹特征提取模型。
96.通过训练完成后的声纹特征提取模型进行声纹特征提取时,首先将要输入模型的声音数据进行预处理,然后将处理完毕的数据输入训练完成的小波神经网络中则可得到对应语音的说话人特征,进一步地,将提取到的特征归入说话人分类网络中。
97.本实施例所述计算机可读存储介质包括但不限于为:rom、ram、磁盘或光盘等。
98.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储
在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
99.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1