一种基于卷积模糊神经网络的音源识别方法与流程

文档序号:22681652发布日期:2020-10-28 12:43阅读:来源:国知局

技术特征:

1.一种基于卷积模糊神经网络的说音源识别方法,其特征在于:包括下列步骤:

s1、对原始音源数据的预处理;

s2、对预处理后的音源数据进行快速傅里叶变换fft、对能量谱进行滤波、计算对数能量、进行离散余弦变换,进而得到mfcc特征参数;

s3、将提取的mfcc特征参数经过变换,用卷积核对经过变换的mfcc特征参数进行局部过滤,形成特征映射输入到卷积层;

s4、卷积层的特征映射通过卷积层与池化层之间的采样区域,运用最大池化算法对卷积层的特征映射进一步过滤,并进行降维处理;

s5、将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算输入值属于各音源变量的隶属度函数值;

s6、模糊化操作之后,将数据进一步输入到模糊推理层,根据模糊规则库中的规则,通过对隶属度的匹配判断,推导模糊规则库中的规则的适用度,并进行归一化计算;

s7、在去模糊化层,对数据进行去模糊操作,将模糊量变换为精确值输出;

s8、对输出的精确值进行训练学习,直至达到误差值最小或者达到训练迭代次数30次输出结果;

s9、利用交叉熵损失函数对输出结果进行判断,交叉熵损失函数值越小识别效果越好,交叉熵损失函数值越大识别效果越差。

2.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s1中对原始音源数据的预处理的方法为:包括下列步骤:

s1.1、数据采样和量化,对模拟信号的原始音源数据进行采样、量化,将模拟信号转换为计算机可以分析储存的二进制数字量;

s1.2、数据预加重,采用一阶高通滤波器对音源信号进行预加重,所述一阶高通滤波器的表达式为:h(z)=1-μz-1,所述z为音源信号,所述μ为预加重系数;

s1.3、数据加窗分帧,音源信号是会随着时间变化的,为了得到稳态的信号,因此对音源信号进行分帧,然后采用窗函数对其进行加窗处理,sw(n)=s(n)*w(n),所述sw(n)为分帧时后面一帧相对于前面一帧的位移量,所述s(n)为进行数据采样之后的离散信号序列,所述w(n)为窗函数,所述窗函数采用hamming窗函数,所述hamming窗函数的表达式为:所述l为帧长;

s1.4、数据端点检测,运用双门限法进行数据的端点检测。

3.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s3中mfcc特征参数变换的方法为:将mfcc特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。

4.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s3中特征映射输入到卷积层的方法为:所述输入的特征映射的尺寸为l1×l2,所述l1为时间域上的特征维数,所述l2为频率域上的特征维数,然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤,进而形成卷积层的输入特征映射,所述卷积核的尺寸为l3×l4,且l3≤l1,l4≤l2,所述卷积核的深度与卷积层输入特征映射的深度相同,所述卷积层的数学模型为:所述表示深度为第l层的第j个卷积核输出的特征映射,所述f为激活函数,所述为深度为第l-1层输出的第i个特征映射,所述为偏置项,所述为卷积核,所述mi为l-1层输出的特征映射的集合。

5.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s4中进行降维处理的方法为:经过卷积核的卷积运算之后,形成了m个(l1-l3+1)×(l2-l4+1)的特征映射,所述m为卷积核的个数,之后可设在卷积层与池化层之间采样区域的尺寸为p×q,则输入池化层的为m个[(l1-l3+1)/p]×[(l2-l4+1)/q]的特征映射,在池化层中,运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理,所述池化层的数学模型为:所述为输入信号,所述f为激活函数,所述激活函数采用sigmoid函数,所述down为池化函数,所述为l-1层输出的第j个特征映射,所述为偏置项。

6.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s5中计算隶属度函数值的方法为:将行特征向量输入模糊化层计算每个音源变量的模糊隶属度ugh(g=1,2,....,nk;h=1,2,....,mk),所述nk为输入向量的维度数,所述mk为输入向量的模糊子集数,所述模糊化层的总节点数为所述隶属度函数采用高斯隶属度函数,所述高斯隶属度函数为:所述xg为输入的行特征向量,所述cgh和σgh分别表示高斯隶属度函数的中心和宽度。

7.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s6中适用度的表达式为:该模糊推理层的总节点为mk,所述s6中归一化的表达式为:所述(h=1,2,....mk),所述αh为每条模糊规则的适用度,mk为节点数。

8.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s7中精确值的表达式为:该去模糊化层的节点数为r,所述woh为最后一层的连接权值。

9.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s8中训练学习的方法为:

s8.1、定义误差函数为:ydo和yo分别表示期望值和输出值;

s8.2、连接权值woh的训练学习的公式为:所述β为学习率;

s8.3、根据梯度寻优算法对隶属度函数的参数进行调整,从而推出训练学习的公式为:所述g=1,2,....nk;h=1,2,....mk,所述e为误差函数,所述β为学习率。

10.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s9中交叉熵损失函数的表达式为:所述s为训练后的输出结果,所述t为期望值。


技术总结
本发明属于音源识别技术领域,具体涉及一种基于卷积模糊神经网络的音源识别方法,包括下列步骤:对原始音源数据的预处理;得到MFCC特征参数;形成特征映射输入到卷积层;进行降维处理;将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算各语言变量的隶属度函数值;进行归一化计算;将模糊量变换为精确值输出;对输出的精确值进行训练学习;利用交叉熵损失函数对输出结果进行判断。本发明在卷积神经网络与模糊神经网络相结合的基础之上,对音源进行辨识;本发明综合了卷积神经网络与模糊神经网络的优点,使得本发明有更好的识别效果。本发明用于对音源的识别。

技术研发人员:李捷;王毫旗;王晓文
受保护的技术使用者:太原科技大学
技术研发日:2020.07.08
技术公布日:2020.10.27
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1