基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统

文档序号:37594305发布日期:2024-04-18 12:29阅读:10来源:国知局
基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统

本发明涉及人工智能、声音识别领域,具体涉及一种基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统。


背景技术:

1、在临床上,特异的声学指标(如咳嗽声的大小、频次、时间长短)可以协助医生对咳嗽进行诊断。例如,类似鸡鸣的咳嗽声是百日咳的典型特征,类似犬吠的咳嗽声是急性喉炎的典型特征。这些特征可以通过信号处理来提取,并用于训练一个人工智能(ai)引擎,以实现基于咳嗽类型的快速诊断。

2、现有技术中,深度学习如cnn和循环神经网络(recurrent neural network,rnn)被用于咳嗽监测,深度学习的性能优于传统方法。有研究者提出了基于梅尔频谱图(mel-spectrogram)和cnn的咳嗽识别方法。有研究者使用mel-spectrogram作为支持向量机(svm)的输入来区分咳嗽声。有研究者使用时频特征和随机森林区分咳嗽声。有研究者使用原始波形特征识别咳嗽和非咳嗽声。尽管cnn模型在咳嗽声分类领域取得了优异的性能,但现有的方法仍然存在一些问题。首先,这些基于cnn的方法使用梅尔光谱(灰度图)作为输入,而不是rgb图像。其次,cnn是一个针对局部空间的训练模型,它会导致空间关联信息丢失。最后,虽然cnn有许多优秀的模型,但是,还没有研究去探索cnn在咳嗽分类上的性能。总之,现有的咳嗽声音分类方法存在声音诊断识别精度差、速度慢等缺点。


技术实现思路

1、本发明的目的在于克服上述缺点而提出了一种成本低、精度高、快速的基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统。

2、本发明的一种基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统,其中:该方法包括如下步骤:

3、步骤1:数据采集:采集咳嗽音频数据,并进行音频的降噪处理;

4、所述采集咳嗽音频,采用高保真麦克风,以降低信号的失真度。

5、所述音频的降噪处理采用谱减法。

6、步骤2:咳嗽事件检测:对长时音频进行咳嗽事件检测并去除静音段,分割出包含咳嗽事件的短时音频信号;对短时音频信号进行统一处理;

7、所述短时音频信号为1-5秒。

8、所述对短时音频信号进行统一处理为时长5秒、单通道、位深度16、采样率44.1hz的音频信号。

9、步骤3:自适应尺度音频特征提取:对统一处理的短时音频信号进行自适应尺度音频特征提取,生成所述音频的多通道梅尔频谱数据;所述自适应尺度音频特征提取的具体步骤为:

10、步骤3.1:将缩放尺度作为自适应参数引入所述音频分帧方法,对帧长和帧移进行自动生成,生成方式如下:

11、ws=γi*0.025

12、hl=ws/2

13、其中,ws为帧长,hl为帧移,i为通道值,γ为尺度变量;

14、在通道1中,按照所述的生成方式计算帧长和帧移,并根据当前帧长和帧移进行分帧;帧长为每一帧音频的长度,帧移为相邻帧间不重叠的部分;每个帧使用汉明窗进行加窗操作,然后使用快速傅里叶变换生成音频的频谱图,经过上述操作后,咳嗽音频信号y(n)被转换为频域信号x(a,k),转化公式如下:

15、

16、其中,a表示音频的第a帧,k表示频域中的第k条谱线,n为咳嗽信息的采样点数,i为虚数单位;

17、被转换为频域信号,转化公式如下步骤3.2:将频谱图通过梅尔滤波器组,得到音频的梅尔频谱图a1j,其转换公式如下:

18、

19、其中,m代表转换后的梅尔频率,f代表音频的原本频率;

20、所述通道1的梅尔频谱图a1j尺寸为128*501;

21、步骤3.3:根据所述通道1中的生成方式计算通道2和通道3的帧长和帧移,经过分帧、加窗和梅尔滤波器处理后,得到通道2和通道3的梅尔频谱图a2j和a3j;

22、所述通道2和通道3的梅尔频谱图a2j和a3j的尺寸分别为128*201和128*101。

23、将a1j、a2j和a3j进行拼接,得到音频j的三通道梅尔频谱图kj,不同尺度的梅尔频谱图确保三个通道具有不同的频率和时间信息;

24、所述三通道梅尔频谱图kj的大小重置为128×250;

25、步骤3.4:重复步骤3.1、3.2、3.3,得到音频的梅尔图谱特征矩阵集合k,k={k1,k2,…,kj};

26、步骤4:采集咳嗽的声音音频数据;采集刷牙、大笑、打呼噜、打喷嚏和喝水的动作的声音音频数据;对所述的咳嗽的声音音频数据和动作的声音音频数据进行统一处理和标注,形成带标签的标准数据集csc4;

27、所述的咳嗽的声音音频数据和动作的声音音频数据进行统一处理为时长5秒、单通道、位深度16、采样率44.1hz的音频。

28、步骤5:搭建基于通道注意力的卷积神经网络模型,提取三通道梅尔频谱图的特征,具体步骤如下:

29、步骤5.1:搭建卷积神经网络模型,该模型包含输入层、5个隐藏层、全连接层、dropout层和输出层;隐藏层由卷积、归一化、激活函数和最大池化的操作构成,激活函数采用relu;卷积层输出按如下公式计算得到;

30、

31、其中,xlj为第j个神经元的输出;w(l)i,j为第l层第i类中第j个神经元的权重;b(l)i为第l层第i类的偏置;*为卷积操作;f(·)为模型的激活函数;

32、步骤5.2:通道注意力模型senet,其主要操作包括挤压sq、激励ex和点积scale,各操作计算方式如下:

33、

34、sc=fex(zc,w)=σ(w2f(w1zc))

35、xc=fscale(uc,sc)=sc·uc

36、其中,zc表示经过全局平均池化后得到的第c个特征映射;sc表示输入特征层每个通道的权值;xc表示经过senet输出的特征矩阵;fsq,fex和fscale分别代表senet内部变换操作;c为通道数;h和w为特征图的高度和宽度;uc为输入特征经过卷积后的第c个特征图;为激活函数sigmoid,w1和w2为全连接层的权值矩阵;

37、将senet插入卷积神经网络网络的第1个隐藏层,形成基于通道注意力的卷积神经网络模型;

38、步骤5.3:采用五折交叉验证法将数据集csc4平均分为5份,轮流合并其中4份作为训练集,剩下的1份作为测试集;将基于通道注意力的卷积神经网络模型在csc4数据集上进行训练与验证,得到三通道梅尔频谱图的特征模型mweight;为了训练模型,使用交叉熵作为损失函数,表达式为:

39、

40、其中,l为损失值;w为权重;b为偏置值;d为样本总数;z为样本类别数;1{yr=c}为示性函数,当括号内值为真时输出为1,反之为0;pcr表示第r个样本预测为第c类的概率;ln为自然对数;

41、步骤6:将所述音频的梅尔图谱特征矩阵集合k作为mweight的输入,生成声音分类结果。

42、基于通道注意力和多尺度梅尔频谱图的声音分类系统,其中:应用上述的基于通道注意力和多尺度梅尔频谱图的声音分类方法,包括数据采集与降噪模块、咳嗽事件检测模块、自适应尺度音频特征提取模块、声音分类模块;

43、所述数据采集与降噪模块,用于采集咳嗽音频数据并对音频数据进行预处理;

44、所述咳嗽事件检测模块,对长时音频进行咳嗽事件检测并去除静音段,分割出包含咳嗽事件的短时音频,并对短时音频进行统一处理;

45、所述自适应尺度音频特征提取模块,用于生成音频的多通道梅尔频谱数据;

46、所述声音分类模块,搭建基于通道注意力的卷积神经网络模型,提取三通道梅尔频谱图的特征,构建三通道梅尔频谱图的特征模型,将数据输入三通道梅尔频谱图的特征模型,进行声音分类,输出声音分类结果。

47、本发明与现有技术的相比,具有明显的有益效果,由以上方案可知,自适应尺度音频特征提取:对统一处理的短时音频信号进行自适应尺度音频特征提取,生成所述音频的多通道梅尔频谱数据,该方法自动生成具有不同尺度的多通道梅尔频谱图(msmel-spectrogram),不同的尺度确保不同通道具有不同的信息。

48、搭建基于通道注意力的卷积神经网络模型,提取三通道梅尔频谱图的特征,能够充分利用特征通道之间的信息提高模型的准确性和鲁棒性。

49、基于通道注意力和多尺度梅尔频谱图的咳嗽声分类方法(cpcsc),包含基于通道注意力的cnn的分类模型和自适应音频特征提取算法。

50、总之,本发明具有成本低、精度高、快速的特点。

51、以下通过具体实施方式,进一步说明本发明的有益效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1