一种基于3D卷积的生态环境鸟类鸣声识别方法与流程

文档序号:39185980发布日期:2024-08-27 18:53阅读:241来源:国知局

本技术涉及语音处理,具体涉及一种基于3d卷积的生态环境鸟类鸣声识别方法。


背景技术:

1、鸟类鸣声识别作为一项重要的生物声学研究领域,对于生物多样性保护、生态系统监测、科学研究以及环境技术发展等方面均具有较强的现实意义。基于滑动窗口与3d卷积的鸟类鸣声识别方法能够适应不同类型的鸟类鸣声,有效地从自然环境中提取有用的声音片段,同时处理音频信号的时间和频率特征,提高识别的准确性。

2、自然环境中的音频信号复杂多样,如何提取复杂环境下的鸟类音频特征成为了鸟类鸣声识别效果是否准确的重要前提,自然环境中无处不在的噪声干扰,复杂环境中存在其余周期性较强的音频信号,大大提高了复杂环境下鸟类音频特征的提取难度。维纳滤波去噪算法能够对自然环境中的音频信号进行较好的去噪处理,但是传统的维纳滤波算法未考虑到自然环境中音频信号的复杂性,统一设置平滑系数,导致难以在保留鸟类鸣声细节信息的同时兼顾对自然环境中音频信号的去噪效果,使得对自然环境中鸟类鸣声识别的准确性不高。


技术实现思路

1、为了解决上述技术问题,本技术提供一种基于3d卷积的生态环境鸟类鸣声识别方法,以解决现有的问题。

2、本技术的一种基于3d卷积的生态环境鸟类鸣声识别方法采用如下技术方案:

3、本技术一个实施例提供了一种基于3d卷积的生态环境鸟类鸣声识别方法,该方法包括以下步骤:

4、s1,采集自然环境音频数据,获取有效音频信号;

5、s2.1,根据有效音频信号划分滑动窗口,获取每个滑动窗口的信号周期;基于每个滑动窗口中所有信号周期的有效音频信号的复杂程度以及相似程度获取鸟鸣置信系数;

6、s2.2,根据所有滑动窗口的鸟鸣置信系数构建鸟鸣增强信号,计算音节杂乱因子;基于音节杂乱因子、鸟鸣增强信号中每个信号周期内以及所有信号周期之间有效音频信号的特征差异获取鸟鸣受扰系数;

7、s3,根据鸟鸣受扰系数以及鸟鸣增强信号中的有效音频信号确定平滑系数,获取鸟类鸣声识别结果。

8、可选的,所述根据有效音频信号划分滑动窗口,获取每个滑动窗口的信号周期,包括的具体方法为:

9、采用短时自相关分析将有效音频信号划分为多个矩形短时窗口,将所有矩形短时窗口的长度的最小值作为最佳窗长,将有效音频信号等间隔划分为多个长度为最佳窗长的滑动窗口;

10、对每个滑动窗口中的有效音频信号进行傅里叶变换,输出音频信号基频,将音频信号基频的倒数作为每个滑动窗口的信号周期。

11、可选的,所述获取鸟鸣置信系数,包括的具体方法为:

12、基于每个滑动窗口中所有信号周期的有效音频信号的复杂程度获取振幅变异因子以及音频过零复杂指数;

13、基于每个滑动窗口中所有信号周期的有效音频信号的相似程度获取音频结构单调因子;

14、将每个滑动窗口的音频过零复杂指数与音频结构单调因子的比值作为音频复杂系数,将每个滑动窗口中所有信号周期的振幅变异因子之和作为窗内振幅变异系数,将音频复杂系数于窗内振幅变异系数的乘积的归一化值记为鸟鸣置信系数。

15、可选的,所述获取振幅变异因子以及音频过零复杂指数,包括的具体方法为:

16、将每个滑动窗口中每个信号周期内的有效音频信号的振幅按照时间顺序升序排列,作为每个滑动窗口中每个信号周期内的有效振幅序列;

17、将每个滑动窗口中每个信号周期与该滑动窗口中其余信号周期的有效振幅序列之间的点积相似度之和加上预设调参因子,作为每个滑动窗口中每个信号周期的信号振幅相似指数,将每个滑动窗口中每个信号周期内的有效振幅序列的极差与信号振幅相似指数的比值作为振幅变异因子;

18、将每个滑动窗口中所有信号周期内的有效音频信号的过零率按照时间顺序升序排列,作为有效过零率序列,将有效过零率序列的近似熵作为每个滑动窗口的音频过零复杂指数。

19、可选的,所述获取音频结构单调因子,包括的具体方法为:

20、计算每个滑动窗口中所有信号周期内的有效音频信号的梅尔频率倒谱系数之间的dtw距离的平均值,将以自然常数为底数、以所述平均值的相反数为指数的指数函数的计算结果作为音频结构单调因子。

21、可选的,所述根据所有滑动窗口的鸟鸣置信系数构建鸟鸣增强信号,包括的具体方法为:

22、对所有滑动窗口的鸟鸣置信系数进行归一化处理,将每个所述鸟鸣置信系数的归一化结果作为对应滑动窗口的置信比例;

23、将每个滑动窗口中有效语音信号的语谱图作为输入,采用irm算法基于所述滑动窗口的置信比例得到每个滑动窗口中有效音频信号的增强结果;

24、将所有滑动窗口中有效音频信号的增强结果按照时间顺序拼接所得信号作为鸟鸣增强信号。

25、可选的,所述获取鸟鸣受扰系数,包括:

26、对鸟鸣增强信号中每个信号周期内的有效音频信号进行傅里叶变换,输出每个信号周期的鸟鸣频谱图;将鸟鸣频谱图中每个信号包络内的有效音频信号的最大值记为每个信号包络的能量特征值,计算每个信号周期的鸟鸣频谱图中每个信号包络的3db带宽;

27、根据每个信号周期的鸟鸣频谱图中所有信号包络的能量特征值以及3db带宽获取频域受扰因子;根据鸟鸣增强信号中所有信号周期的有效音频信号以及鸟鸣频谱图中每个信号包络的能量特征值获取鸟鸣信号差异因子;

28、计算鸟鸣增强信号中所有信号周期的频域受扰因子的累加和与所有信号周期的鸟鸣信号差异因子的累加和之间的乘积的归一化值作为鸟鸣受扰系数。

29、可选的,所述获取频域受扰因子,包括:

30、将每个信号周期的鸟鸣频谱图中所有信号包络的3db带宽按照对应的频率升序排列,作为带宽序列,将带宽序列的信息熵作为带宽杂乱指数;

31、对于鸟鸣增强信号中的各信号周期,将每个信号周期的鸟鸣频谱图中基频信号包络与其余信号包络的能量特征值的差值之和加上预设调参因子,作为每个信号周期的周期能量差异,将每个信号周期的鸟鸣频谱图中基频信号包络与其余信号包络的3db带宽的差值的绝对值之和的相反数作为鸟鸣带宽相似指数,将以自然常数为底数、以鸟鸣带宽相似指数为指数的指数函数作为带宽受扰指数;

32、将带宽杂乱指数与周期能量差异的比值乘以带宽受扰指数,作为频域受扰因子。

33、可选的,所述获取鸟鸣信号差异因子,包括的具体方法为:

34、采用emd经验模态分解算法将鸟鸣增强信号中每个信号周期的有效音频信号分解为多个内涵模态分量,将鸟鸣增强信号中所有信号周期的内涵模态分量的个数的平均值作为鸟鸣分量均数,将每个信号周期的内涵模态分量的个数与鸟鸣分量均数的差值作为每个信号周期的鸟鸣信号分量差异;

35、对于鸟鸣增强信号中的各信号周期,将每个信号周期的鸟鸣频谱图中所有信号包络的能量特征值按照对应的频率升序排列,作为每个信号周期的鸟鸣能量序列,将每个信号周期与其余信号周期的鸟鸣能量序列之间的余弦相似度之和加上预设调参因子作为每个信号周期的窗口能量相似指数;

36、将以自然常数为底数、以鸟鸣信号分量差异为指数的指数函数的计算结果作为分量差异因子,将分量差异因子与窗口能量相似指数的比值作为鸟鸣信号差异因子。

37、可选的,所述确定平滑系数,获取鸟类鸣声识别结果,包括的具体方法为:

38、将数值0.5与鸟鸣受扰系数之和乘以预设原始平滑系数作为改进后的维纳滤波算法中的平滑系数,采用改进后的维纳滤波算法对鸟鸣增强信号进行去噪,得到鸟类鸣声净化信号,对鸟类鸣声净化信号进行分帧,对每一帧鸟类鸣声净化信号进行傅里叶变换,输出鸟鸣净化频谱图;

39、将所有帧的鸟鸣净化频谱图按照时间顺序组成3维特征图并将其作为dnn深度神经网络中全连接层的输入,输出鸟类鸣声识别结果。

40、本技术的有益效果是:对滑动窗口中有效音频信号的时域振幅以及音频复杂结构特征进行综合分析,基于每个滑动窗口中所有信号周期的有效音频信号的复杂程度以及相似程度获取鸟鸣置信系数,更精确的反映了滑动窗口中包含鸟类鸣声的可能性;其次,根据滑动窗口的鸟鸣置信系数对每个滑动窗口内的有效音频信号进行增强获得鸟鸣增强信号,能够保持鸟鸣声的音调、音色、以及音节之间的规律等重要鸣叫特征在后续去噪过程中不会被过度损害,利用irm算法增强时能够对语谱图中鸟鸣信号与噪声之间的能量比调整滑动窗口每帧信号上每个频率处的能量大小,进一步地提高语音信号的质量和可理解程度;随后,对鸟鸣增强信号中各个信号周期的频域能量特征以及信号成分带宽特征进行分析,基于鸟鸣增强信号中每个信号周期内以及所有信号周期之间有效音频信号的特征差异获取鸟鸣受扰系数,在分析信号周期内频域能量差异的基础上考虑噪声干扰程度对于信号成分带宽的影响,更精确的反映了鸟类鸣声受自然环境噪声干扰的程度,并以此为依据对维纳滤波算法中的平滑系数进行自适应的调整,避免了维纳滤波算法中平滑系数过大或过小影响算法去噪效果,在尽可能地保留鸟类鸣声细节信息的同时对自然环境中的音频信号进行去噪,提高了对自然环境中的音频信号的去噪效果;最终,通过基于3d卷积的神经网络对鸟类鸣声进行识别处理,提高了在复杂的自然环境中对鸟类鸣声识别的准确性。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1