基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统

文档序号：37594305发布日期：2024-04-18 12:29阅读：来源：国知局

技术特征：

1.一种基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：该方法包括如下步骤：

2.如权利要求1所述的基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：在步骤1中，所述采集咳嗽音频，采用高保真麦克风，以降低信号的失真度。

3.如权利要求1所述的基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：在步骤1中，所述音频的降噪处理采用谱减法。

4.如权利要求1所述的基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：在步骤2中，所述短时音频信号为1-5秒。

5.如权利要求1所述的基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：在步骤1中，所述对短时音频信号进行统一处理为时长5秒、单通道、位深度16、采样率44.1hz的音频信号。

6.如权利要求1所述的基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：在步骤3.2中，所述通道1的梅尔频谱图a1j尺寸为128*501。

7.如权利要求1所述的基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：在步骤3.3中，所述通道2和通道3的梅尔频谱图a2j，a3j的尺寸分别为128*201和128*101。

8.如权利要求1所述的基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：在步骤3.3中，所述三通道梅尔频谱图kj的大小重置为128×250。

9.如权利要求1所述的基于通道注意力和多尺度梅尔频谱图的声音分类方法，其特征在于：在步骤4中，所述的咳嗽的声音音频数据和动作的声音音频数据进行统一处理为时长5秒、单通道、位深度16、采样率44.1hz的音频。

10.基于通道注意力和多尺度梅尔频谱图的声音分类系统，其特征在于：应用于权利要求1-10中任一项所述的基于通道注意力和多尺度梅尔频谱图的声音分类方法，包括：数据采集与降噪模块、咳嗽事件检测模块、自适应尺度音频特征提取模块、声音分类模块；

技术总结
本发明公开了一种基于通道注意力和多尺度梅尔频谱图的声音分类方法及系统，方法包括采集咳嗽音频数据，并进行音频的降噪处理；对长时音频进行咳嗽事件检测并去除静音段，分割出包含咳嗽事件的短时音频信号；对统一处理的短时音频信号进行自适应尺度音频特征提取，生成所述音频的多通道梅尔频谱数据，得到音频的梅尔图谱特征矩阵集合K；搭建基于通道注意力的卷积神经网络模型，提取三通道梅尔频谱图的特征；将音频的梅尔图谱特征矩阵集合K作为三通道梅尔频谱图的特征模型M<subgt;weight</subgt;的输入，生成声音分类结果。本发明具有成本低、精度高、快速识别咳嗽声音的特点。

技术研发人员：杨观赐,罗可欣,何玲,李杨,蓝善根,王阳,刘丹,胡丙齐
受保护的技术使用者：贵州大学
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

当前第2页1 2