1.一种基于卷积模糊神经网络的说音源识别方法,其特征在于:包括下列步骤:
s1、对原始音源数据的预处理;
s2、对预处理后的音源数据进行快速傅里叶变换fft、对能量谱进行滤波、计算对数能量、进行离散余弦变换,进而得到mfcc特征参数;
s3、将提取的mfcc特征参数经过变换,用卷积核对经过变换的mfcc特征参数进行局部过滤,形成特征映射输入到卷积层;
s4、卷积层的特征映射通过卷积层与池化层之间的采样区域,运用最大池化算法对卷积层的特征映射进一步过滤,并进行降维处理;
s5、将池化层输出的二维数据变换为一个行特征向量,然后输入到模糊化层,计算输入值属于各音源变量的隶属度函数值;
s6、模糊化操作之后,将数据进一步输入到模糊推理层,根据模糊规则库中的规则,通过对隶属度的匹配判断,推导模糊规则库中的规则的适用度,并进行归一化计算;
s7、在去模糊化层,对数据进行去模糊操作,将模糊量变换为精确值输出;
s8、对输出的精确值进行训练学习,直至达到误差值最小或者达到训练迭代次数30次输出结果;
s9、利用交叉熵损失函数对输出结果进行判断,交叉熵损失函数值越小识别效果越好,交叉熵损失函数值越大识别效果越差。
2.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s1中对原始音源数据的预处理的方法为:包括下列步骤:
s1.1、数据采样和量化,对模拟信号的原始音源数据进行采样、量化,将模拟信号转换为计算机可以分析储存的二进制数字量;
s1.2、数据预加重,采用一阶高通滤波器对音源信号进行预加重,所述一阶高通滤波器的表达式为:h(z)=1-μz-1,所述z为音源信号,所述μ为预加重系数;
s1.3、数据加窗分帧,音源信号是会随着时间变化的,为了得到稳态的信号,因此对音源信号进行分帧,然后采用窗函数对其进行加窗处理,sw(n)=s(n)*w(n),所述sw(n)为分帧时后面一帧相对于前面一帧的位移量,所述s(n)为进行数据采样之后的离散信号序列,所述w(n)为窗函数,所述窗函数采用hamming窗函数,所述hamming窗函数的表达式为:
s1.4、数据端点检测,运用双门限法进行数据的端点检测。
3.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s3中mfcc特征参数变换的方法为:将mfcc特征参数变换为在水平方向的时域和垂直方向上的频域内分布的二维特征映射输入到卷积层。
4.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s3中特征映射输入到卷积层的方法为:所述输入的特征映射的尺寸为l1×l2,所述l1为时间域上的特征维数,所述l2为频率域上的特征维数,然后通过在输入层与卷积层之间卷积核的作用下对输入特征进行局部过滤,进而形成卷积层的输入特征映射,所述卷积核的尺寸为l3×l4,且l3≤l1,l4≤l2,所述卷积核的深度与卷积层输入特征映射的深度相同,所述卷积层的数学模型为:
5.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s4中进行降维处理的方法为:经过卷积核的卷积运算之后,形成了m个(l1-l3+1)×(l2-l4+1)的特征映射,所述m为卷积核的个数,之后可设在卷积层与池化层之间采样区域的尺寸为p×q,则输入池化层的为m个[(l1-l3+1)/p]×[(l2-l4+1)/q]的特征映射,在池化层中,运用最大池化算法进一步对输入的表示时域、频域的特征参数进行降维处理,所述池化层的数学模型为:
6.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s5中计算隶属度函数值的方法为:将行特征向量输入模糊化层计算每个音源变量的模糊隶属度ugh(g=1,2,....,nk;h=1,2,....,mk),所述nk为输入向量的维度数,所述mk为输入向量的模糊子集数,所述模糊化层的总节点数为
7.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s6中适用度的表达式为:
8.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s7中精确值的表达式为:
9.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s8中训练学习的方法为:
s8.1、定义误差函数为:
s8.2、连接权值woh的训练学习的公式为:
s8.3、根据梯度寻优算法对隶属度函数的参数进行调整,从而推出训练学习的公式为:
10.根据权利要求1所述的一种基于卷积模糊神经网络的音源识别方法,其特征在于:所述s9中交叉熵损失函数的表达式为: