一种基于轻量化ECAPA-TDNN神经网络的室内环境音自动分类方法

文档序号：33942014发布日期：2023-04-26 02:12阅读：145来源：国知局

本发明涉及环境音分类，具体为基于轻量级时延神经网络的室内复杂场景环境音精确分类技术。

背景技术：

1、声音作为一种重要的信息载体，由于其易收集、不受光线和空间角度限制等优点，常被用于辅助环境感知和信息决策，被普遍应用于智能家居安全检测领域。智能设备接收室内环境音频信号，通过环境音识别技术可以侦测判断出生命体事件，例如婴儿哭泣声、老人摔倒声和敲门声等，并能迅速地感知到环境中的变化，例如脚步声由远及近等，可以及时做出合理的反应与决策。因此，开发高精度的环境音识别技术显得十分重要。从目前技术发展现状看，基于深度学习的环境音识别方法是一种主流的环境音识别方法，但仍存在两大主要挑战：一、环境音类型复杂，不同原始环境音信号原始特征区分度较低，数据量较小，给后续分类标签任务造成困难；二、多数环境音分类相关的神经网络参数规模较大，运算复杂，不适用于终端部署。基于上述分析，本发明提出了一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法，以用于解决上述中提出的问题。

技术实现思路

1、本发明的旨在在于提供一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法，以解决上述背景技术提出的任一项问题。

2、为实现上述目的，本发明提供如下技术方案：一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法，包括如下步骤：

3、s1、音频预处理：将多通道环境音信号转化为固定通道数量并进行采样和标准化长度处理；

4、s2、数据增广：对s1的环境音信号进行时间屏蔽和频率屏蔽，并平移音频以增广环境音数据；

5、s3、特征提取：基于增广的环境音数据，对数据进行预加重并进行短时傅里叶变换(stft)，随后进行梅尔滤波，输出梅尔谱特征向量；采用倒谱平均减法对梅尔谱特征向量进行二次随机归一化处理，建立特征数据集并加载；

6、s4、构建ecapa-tdnn的分类器：将s3提取的环境音特征数据集输入卷积层(升维)，并使用kaiming归一化和偏差置零增加网络各层之间的非线性关系；经过批标准化之后进入卷积层迭代，当卷积层通道数量达到阈值后，输出至下一层；

7、s5、构建ecapa-tdnn分类器的压缩-激励(se)模块，池化与线性层模块：将s4的输出进行平均池化、卷积和非线性变化处理；

8、s6、训练阶段：将标签和提取的环境音频梅尔谱图特征数据输入网络对ecapa-tdnn网络模型进行结构和参数优化训练，经过反复迭代达到最大经验设置次数后完成对网络的训练；

9、s7、测试阶段：利用训练好的ecapa-tdnn分类器对测试样本数据集中的环境音特征进行分类，得到测试分类结果。

10、优选的，所述s3步骤中获得的log梅尔谱图上应用specaugment方法，该策略在时域随机屏蔽部分帧，在频域随机屏蔽部分通道。

11、优选的，所述s3步骤中提取的特征为梅尔谱图，并采用倒谱平均减法对梅尔谱图特征向量进行二次随机归一化处理。

12、优选的，所述s5步骤中了构建ecapa-tdnn的压缩、激励模块，将s4的输出进行平均池化、卷积和非线性变化处理。

13、优选的，所述s6步骤中的训练ecapa-tdnn网络分类模型的次数在450-500次。

14、优选的，所述训练ecapa-tdnn网络分类模型的训练次数在450-500次时，得到的损失率与准确率逐渐趋于收敛趋势，损失函数定义为

15、与现有技术相比，本发明的有益效果是：

16、本发明将每类不同的环境音信号实行梅尔谱图特征提取(例如常见环境音：电视音，炒菜音，流水音，报警音，小孩哭泣声，拉窗帘音等)；对提取完的梅尔谱图特征建立训练集和数据集并加载；构建ecapa-tdnn网络模型，训练ecapa-tdnn网络分类模型，完成分类识别。从环境音频中提取梅尔谱图特征，用于训练ecapa-tdnn分类网络从而进行分类，对比于使用传统训练分类框架的环境音分类方法，本发明所提方法准确率更高、消耗计算资源更少。

技术特征：

1.一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法，其特征在于：所述s3步骤中获得的log梅尔谱图上应用specaugment方法，该策略在时域随机屏蔽部分帧，在频域随机屏蔽部分通道。

3.根据权利要求1所述的一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法，其特征在于：所述s3步骤中提取的特征为梅尔谱图，并采用倒谱平均减法对梅尔谱图特征向量进行二次随机归一化处理。

4.根据权利要求1所述的一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法，其特征在于：所述s5步骤中了构建ecapa-tdnn的压缩、激励模块，将s4的输出进行平均池化、卷积和非线性变化处理。

5.根据权利要求1所述的一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法，其特征在于：所述s6步骤中的ecapa-tdnn分类器结构和参数优化的训练次数在450-500次。

6.根据权利要求5所述的一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法，其特征在于：所述训练ecapa-tdnn分类器的损失函数定义为训练次数在450-500次时，得到的损失率与准确率逐渐趋于收敛。

技术总结
本发明公开了一种基于轻量化ECAPA‑TDNN神经网络的室内场景环境音自动分类方法，涉及环境音分类技术领域，包括以下步骤：第一步，通过时间屏蔽、频率屏蔽并平移音频数据完成对初始环境音数据的增广。第二步，通过预加重、短时傅里叶变换、梅尔滤波等步骤，对室内场景环境音数据进行梅尔谱图特征提取；将获取的环境音梅尔谱图特征特征数据分为训练集和测试集。第三步，构建ECAPA‑TDNN网络模型，通过训练集优化ECAPA‑TDNN网络神经元参数；再将训练好的神经网络用于环境音测试集分类。对比于使用传统的训练分类框架环境音分类方法，本发明所提方法准确率更高、适用性更广、消耗计算资源更少。

技术研发人员：杨俊杰,丁家辉,翁士龙,胡锦业,谢胜利,刘子瑜,李津
受保护的技术使用者：广东工业大学
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨俊杰丁家辉翁士龙胡锦业谢胜利刘子瑜李津
技术所有人：广东工业大学
我是此专利的发明人

上一篇：一种自动化交易方法、装置及可读存储介质与流程
上一篇：一种胫骨平台骨折微创复位植骨装置