一种融合自注意力和卷积操作的环境噪声识别方法及系统与流程

文档序号：33810351发布日期：2023-04-19 13:32阅读：41来源：国知局

本发明涉及声纹识别，特别是涉及一种融合自注意力和卷积操作的环境噪声识别方法及系统。

背景技术：

1、随着城市化进程的发展，噪声污染日益严重，已成为影响城市居民身体健康和生活质量的重要环境因素，对于噪声污染的监测和治理也逐渐成为人们关心的问题。

2、最新研究表明，人们对声音的舒适度不仅取决于噪音的分贝数，还取决于噪声源，如铁路、公路、飞机的交通噪声，邻里之间的噪声和工业噪声等对人体健康和生活质量的影响并不相同。因此，忽略噪声源信息仅基于平均时间内加权声压的测量噪声进行监测的方法并不能满足实际应用需求，反之，若能采用声音内容的分类技术来识别噪声源信息及相对应的强度信息，可以更好的了解影响居民日常生活的声音问题，对噪声进行更加有效的评估，便于对症下药，找到精准的声学解决方案，进而极大促进城市噪声的管理，提高居民的城市生活质量。

3、现有噪声智能识别方法通常是基于卷积神经网络模型对噪声进行分类识别。尽管卷积神经网络在环境音频的特征提取方面表现不错，但当城市噪声类别增多且背景声复杂时，使用这种将声学信号直接转化成声谱图，再基于声谱图进行图像识别的方式所得到的分类准确率并不高，并且泛化能力也较弱，并不能对复杂多变的城市音频数据进行准确有效的分类识别，也不能为城市噪声管理提供可靠依据，亟需进一步提升和优化。

技术实现思路

1、本发明的目的是提供一种融合自注意力和卷积操作的环境噪声识别方法，通过考虑城市环境噪声的特性，针对性设计采用自注意力机制和卷积操作融合对声谱图进行特征提取，采用奇异值分解对声谱图特征进行个性特征筛选，以及采用基于注意力的双向门控循环单元网络进一步提取时序特征的全新声纹识别模型，解决现有待分析环境噪声数据识别的缺陷，在有效保证声纹特征提取的高效、全面且精准的基础上，还增加了特征的本质性和区分度，进而有效提高环境噪音识别的鲁棒性、精准性和高效性。

2、为了实现上述目的，有必要针对上述技术问题，提供了一种融合自注意力和卷积操作的环境噪声识别方法及系统。

3、第一方面，本发明实施例提供了一种融合自注意力和卷积操作的环境噪声识别方法，所述方法包括以下步骤：

4、获取待分析环境噪声数据；

5、对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图；

6、将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果；所述环境噪声识别网络模型包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和mlp分类器。

7、进一步地，所述对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图的步骤包括：

8、将所述待分析环境噪声数据进行短时傅立叶变换处理，得到对应的能量谱图；

9、计算所述能量谱图的delta信息，并采用γ型滤波器对所述能量谱图进行滤波处理，得到γ频谱图；

10、将所述delta信息和所述γ频谱图串联，得到对数γ频谱图；

11、将所述对数γ频谱图按照预设时间间隔进行分割，得到若干个对数γ频谱分割图；

12、将所述对数γ频谱分割图的分割时序作为第三维次数，并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列，得到所述声音频谱图。

13、进一步地，所述声纹特征提取模块为acmix模型；所述上下文特征提取模块包括依次连接的带注意力机制的双向门控循环单元网络和自注意力网络；所述带注意力机制的双向门控循环单元网络包括双向门控循环单元网络和注意力机制模块。

14、进一步地，所述将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果的步骤包括：

15、将所述声音频谱图输入所述声纹特征提取模块进行基于自注意力和卷积的融合特征提取，得到初始声纹特征；

16、将所述初始声纹特征输入所述奇异值分解特征精炼模块进行特征去冗余处理，得到声纹精炼特征；

17、将所述声纹精炼特征输入所述上下文特征提取模块进行上下文信息提取，得到声纹上下文特征向量；

18、将所述声纹上下文特征向量输入所述mlp分类器进行分类预测，得到所述声纹识别结果。

19、进一步地，所述将所述初始声纹特征输入所述奇异值分解特征精炼模块进行特征去冗余处理，得到声纹精炼特征的步骤包括：

20、获取所述初始声纹特征中各个特征图对应的特征矩阵集；

21、对各个特征矩阵集里的各个初始特征矩阵进行奇异值分解，得到对应的主成分特征向量；所述主成分特征向量为所述初始特征矩阵的最大奇异值对应的特征向量；

22、根据所述主成分特征向量，将对应的初始特征矩阵进行去冗余处理，得到所述精炼特征矩阵；所述精炼特征矩阵表示为：

23、

24、其中，和分别表示初始特征矩阵和精炼特征矩阵；表示最大奇异值，和分别表示初始特征矩阵的最大奇异值对应的左奇异向量和右奇异向量；

25、将各个精炼特征矩阵进行标准化处理，得到标准化特征矩阵；

26、将各个标准化特征矩阵组合，得到所述声纹精炼特征。

27、进一步地，所述将所述声纹精炼特征输入所述上下文特征提取模块进行上下文信息提取，得到声纹上下文特征向量的步骤包括：

28、将所述声纹精炼特征输入所述双向门控循环单元网络进行双向编码处理，得到隐状态表示向量；

29、将所述隐状态表示向量输入所述注意力机制模块进行帧级别注意力融合，得到初始上下文特征向量；

30、将所述初始上下文特征输入所述自注意力网络进行优化处理，得到所述声纹上下文特征向量。

31、进一步地，所述将所述初始上下文特征向量输入所述自注意力网络进行优化处理，得到所述声纹上下文特征向量的步骤包括：

32、根据所述初始上下文特征向量，得到上下文特征矩阵；所述上下文特征矩阵表示为：

33、

34、其中，表示第t个时间步的初始上下文特征向量；

35、将所述上下文特征矩阵中的各个行向量采用softmax函数进行归一化处理，得到优化上下文特征矩阵；所述优化上下文特征矩阵表示为：

36、

37、其中，和分别表示上下文特征矩阵和优化上下文特征矩阵的第i个行向量；

38、根据所述优化上下文特征矩阵，计算得到所述声纹上下文特征向量；所述声纹上下文特征向量表示为：

39、=

40、其中，表示优化上下文特征矩阵；表示第t个时间步的声纹上下文特征向量。

41、第二方面，本发明实施例提供了一种融合自注意力和卷积操作的环境噪声识别系统，所述系统包括：

42、数据采集模块，用于获取待分析环境噪声数据；

43、预处理模块，用于对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图；

44、声纹识别模块，用于将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果；所述环境噪声识别网络模型包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和mlp分类器。

45、第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

46、第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

47、上述本技术提供了一种融合自注意力和卷积操作的环境噪声识别方法及系统，通过所述方法，实现了预先构建依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和mlp分类器的环境噪声识别网络模型，并在对获取的待分析环境噪声数据进行预处理得到对应的声音频谱图后，将声音频谱图输入至环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果的技术方案。与现有技术相比，该融合自注意力和卷积操作的环境噪声识别方法，通过考虑城市环境噪声的特性，针对性设计采用自注意力机制和卷积操作融合对声谱图进行特征提取，采用奇异值分解对声谱图特征进行个性特征筛选，以及结合基于注意力的双向门控循环单元网络进一步提取时序特征的全新声纹识别模型，在有效保证声纹特征提取的高效、全面且精准的基础上，增加特征的本质性和区分度，进而有效提高环境噪音识别的鲁棒性、精准性和高效性，为城市噪声管理提供可靠依据。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑建辉
技术所有人：广州声博士声学技术有限公司
我是此专利的发明人