一种基于时频特征的环境噪声下海豚声音端点检测方法

文档序号:32400241发布日期:2022-12-02 18:46阅读:225来源:国知局
一种基于时频特征的环境噪声下海豚声音端点检测方法

1.本发明涉及被动声学技术领域,特别是涉及一种基于时频特征的环境噪声下海豚声音 端点检测方法。


背景技术:

2.海豚是鲸类哺乳动物,广泛生活于全球各大海域,在内海及入海口附近的咸淡水中也 有分布,是我国国家重点保护野生动物之一。海豚的声音信号主要分为三类:回声定位信 号(click)、脉冲信号(burst-pulse)、通讯信号(whistle),whistle信号主要集中在 8k~15khz,burst-pulse信号主要集中在15k~30khz,click信号主要集中在100k~150khz。 其中回声定位信号是海豚捕食、定位等活动的声音信号,对于保护海豚种群和相关资源调 查具有重要的意义。
3.海洋环境噪声场是海洋环境中普遍存在而又不期望出现的背景声场。它是由风浪、降 雨、航船、海洋生物、人类工业活动等因素产生的,是主、被动声纳的主要声学背景干扰。 海洋环境的声学构成相对复杂,涵盖各个频段并且能量较大。因此,海洋环境噪声场的存 在,导致识别海洋中目标动物的声音较为困难。虽然目前有许多研究通过绘制信号光谱图, 将声音问题转化为图像问题,再使用深度学习或机器学习等方式进行识别,但无论是使用 声学方式处理还是转化为图像处理,都包含大量噪声的干扰,因此数据的预处理变得尤为 重要。除海洋环境的噪声干扰外,另一难点是海豚有三种声音信号,其中回声定位信号的 频率往往超过人耳听力范围,声音的传播特性又使得高频分量衰减的更加迅速,导致人工 处理信号制作数据集变得困难,使用深度学习的方法识别难以进行。
4.常用的端点检测方法有:双门限法端点检测,利用短时能量和短时过零率,短时能量 计算公式为:式中,ei是第i帧的短时能量,n是单帧信号的采样点数, xn(m)是每一个采样点的振幅大小。根据短时能量和短时过零率设定两个门限可以较好的 区分浊音、清音和静音,但是在海洋环境中噪声场和其他生物发声同样会导致过零率产生 变化,不能作为海豚声音检测的参数;
5.谱质心法,谱质心计算公式为:式中,f为信号频率;e(n)为 连续信号短时傅里叶变换后对应频率的谱能量。谱质心是频率成分的中心,能够表达声音 的频率分布情况,而海洋环境中存在很多发声频率高的动物以及高频噪声,不能完全表征 海豚发声行为;谱熵法,是根据熵来表示信号的有序程度,而海洋环境中的所有声音信号 都是无序的,熵不能够在复杂环境中区分出目标生物的声音。这些方法在物种信息多、频 率范围广、能量大和无序性的海洋环境中并不适用。


技术实现要素:

6.本发明所要解决的技术问题是提供一种基于时频特征的环境噪声下海豚声音端点检 测方法,能够在海洋环境中实时检测出海豚的声音信号。
7.本发明解决其技术问题所采用的技术方案是:提供一种基于时频特征的环境噪声下海 豚声音端点检测方法,包括以下步骤:
8.数据获取步骤:获取海洋中的声音数字信号;
9.数据预处理步骤:将获取的声音数字信号切割为一定长度的数字信号,并做归一化处 理;
10.信号分帧步骤:对每个归一化处理后的数字信号进行分帧处理;
11.特征提取步骤:对每一帧信号计算时域特征,并计算每一帧信号的短时能量;对每一 帧信号计算频域特征,并计算每一帧信号的加权谱质心,得到加权谱质心后,计算谱质心 二阶偏移率;
12.拟定阈值步骤:根据海洋环境噪声场和海豚声音的时频特征拟定短时能量阈值、谱质 心阈值和谱质心二阶偏移率阈值;
13.备用有效音段提取步骤:将高于短时能量阈值和谱质心阈值的帧提取出来作为备用有 效音段;
14.有效音段生成步骤:获取所述备用有效音段两端的谱质心二阶偏移率,当所述备用有 效音段两端的谱质心二阶偏移率高于所述谱质心二阶偏移率阈值时,将该帧作为海豚声音 的起始点和终止点,生成有效音段。
15.所述数据预处理步骤中将输入的声音信号的最大振幅为1做归一化处理。
16.所述信号分帧步骤中,对每个归一化处理后的数字信号选择方形窗函数,采用步长等 于窗长的方法对每个数字信号进行分帧处理。
17.当检测海豚声音为海豚发出的回声定位信号时,所述窗长选择为10ms,当海豚声音为 海豚发出的脉冲信号和通信信号时,所述窗长选择为20ms-50ms。
18.所述特征提取步骤中计算每一帧信号的加权谱质心时,先对每一帧信号进行短时傅里 叶变换,设置海豚声音频谱范围的权重和其他频谱范围的权重,再通过 计算每一帧信号的加权谱质心,其中,ci表示 第i帧信号的加权谱质心,q1表示海豚声音频谱范围的权重,q2表示其他频谱范围的权 重,f
k1
为海豚声音的频率;x
k1
为连续信号短时傅里叶变换后对应的海豚声音的频率的谱 能量,n1表示海豚声音的频率范围,f
k2
为其他声音的频率;x
k2
为连续信号短时傅里叶 变换后对应的其他声音的频率的谱能量,n2表示其他声音的频率范围。
19.所述特征提取步骤中通过计算谱质心二阶偏移率,其中,bi表示第i帧 信号的谱质心二阶偏移率,si表示第i帧信号的谱质心偏移率,ci表示第 i帧信号的加权谱质心。
20.所述拟定阈值步骤中将计算出的短时能量数据中的2/3位数和均值进行求和再除
以2 作为短时能量阈值,将计算出的谱质心数据中的3/4位数作为谱质心阈值,将计算出的谱 质心二阶偏移率数据中的3/4位数作为谱质心二阶偏移率阈值。
21.所述备用有效音段提取步骤中,当相邻的备用有效音段之间的间隔不超过n帧时,将 相邻的备用有效音段合并为一段备用有效音段,其中,n=4~6。
22.有益效果
23.由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果: 本发明使用谱质心二阶偏移率,并且将短时能量和谱质心结合应用于水生生物端点检测, 基于被动声学技术,不会对海豚和海洋其他生物造成影响;本方法使用的三种特征,短时 能量和加权谱质心能够分别检测出海洋环境中符合发声行为能量特征的信号、符合海豚声 音频率范围的信号,二者互相验证即可得到符合海豚声音频率的发声行为,再通过谱质心 二阶偏移率检测出该发生行为的起始点和终止点,根据海豚发声的持续时间特性,提取出 完整的海豚声音,这三种特征互相补充,降低检测的局限性;本方法能够在检测中不断检 验各个特征的阈值,当出现异常值时,能够及时纠正,随着检测时间增加,阈值越来越贴 合海洋环境中噪声时频特征的分界线,检测效果越来越好;本方法在读取环境样本时,具 有较强的适应性,能够满足不同信噪比条件下的海豚声音端点检测,检测准确率可以达到 95%以上;使用本方法可以保护海豚、分析海豚发声习性,为深度学习研究海豚声音制作 数据集奠定基础。
附图说明
24.图1是本发明实施方式的流程图;
25.图2是海豚三种声音信号的光谱图;
26.图3是某段海豚声音的短时能量和谱质心变化图;
27.图4是三组不同阈值对同一段click信号检测的结果;
28.图5是不同信噪比条件下本方法的检测效果图;图6是谱质心一阶偏移率和二阶偏移率的对比图。
具体实施方式
29.下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而 不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人 员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定 的范围。
30.本发明的实施方式涉及一种基于时频特征的环境噪声下海豚声音端点检测方法,如图 1所示,包括以下步骤:
31.数据获取步骤:获取海洋中的声音数字信号;其中,声音数字信号中包含海豚回声定 位信号(click)、脉冲信号(burst-pulse)、通讯信号(whistle),这三种信号的谱图如图 2所示。
32.数据预处理步骤:将获取的声音数字信号切割为一定长度的数字信号,并做归一化处 理;由于声音数据时长不同影响观察信号光谱图,本实施方式将声音存储为一定长度的数 字信号,例如时长为1s,防止数据发生越界,以输入的声音信号的最大振幅为1做归一
化 处理。
33.信号分帧步骤:对每个归一化处理后的数字信号进行分帧处理;本步骤中对每个归一 化处理后的数字信号选择方形窗函数,采用步长等于窗长的方法对每个数字信号进行分帧 处理。对数字信号分帧实质上就是在时域加窗,再对加窗后的信号进行频域分析,帧长越 长,频率分辨率越高,时间分辨率越低。由于海豚声音中click信号持续时间为 10ms~183.5ms,频率集中在100~150khz,burst-pulse信号和whistle信号持续时间为0.3~0.9s,频率集中在8000~20000hz,提取海豚信号对时间分辨率的要求高于对时间分辨 率的要求,因此帧长应当尽量选择较小值,本实施方式为了适应不同海豚声音信号选择了 10ms作为提取click信号时的窗长,选择了20ms-50ms作为提取burst-pulse信号和whistle 信号时的窗长。
34.特征提取步骤:对每一帧信号计算时域特征,并计算每一帧信号的短时能量;对每一 帧信号计算频域特征,并计算每一帧信号的加权谱质心,得到加权谱质心后,计算谱质心 二阶偏移率。短时能量法和谱质心法通常应用于语音端点检测,不能够适应海洋环境下的 端点检测,并且对于声音的起始点和终止点检测模糊。本实施方式使用谱质心二阶偏移率, 并与短时能量和谱质心结合对海豚声音进行端点检测,短时能量和谱质心可以相互验证, 找到符合海豚声音频率范围并且能量增大的信号,再根据本实施方式中的谱质心二阶偏移 率,检测出谱质心即将发生变化的时间点,以此检测出海豚发声的起始点和终止点。计算 谱质心时,考虑到海豚声音范围较为集中,对不同频率范围进行加权,在海豚声音频谱范 围权重设为0.6,非海豚声音频率范围权重设为0.4,得加权后的谱质心,以增大区分度。
35.其中,短时能量、加权谱质心、谱质心二阶偏移率计算公式如下:
36.短时能量:
37.其中,ei是第i帧的短时能量,n是单帧信号的采样点数,xn(m)是每一个采样点的 振幅大小。
38.加权谱质心:
39.其中,ci表示第i帧信号的加权谱质心,q1表示海豚声音频谱范围的权重,本实施方 式中设为0.6,q2表示其他频谱范围的权重,本实施方式中设为0.4,f
k1
为海豚声音的频 率;x
k1
为连续信号短时傅里叶变换后对应的海豚声音的频率的谱能量,n1表示海豚声音 的频率范围,f
k2
为其他声音的频率;x
k2
为连续信号短时傅里叶变换后对应的其他声音 的频率的谱能量,n2表示其他声音的频率范围。
40.因为信号成分复杂、信号中的波形函数未知,而且在时域上每一帧之间的时间间隔很 小,所以直接通过每一帧的谱质心进行计算可近似得到二阶偏移率。谱质心二阶偏移率: 其中,bi表示第i帧信号的谱质心二阶偏移率,si表示第i帧信号的谱质心 偏移率,ci表示第i帧信号的加权谱质心。
41.拟定阈值步骤:根据海洋环境噪声场和海豚声音的时频特征拟定短时能量阈值、谱质 心阈值和谱质心二阶偏移率阈值。通过观察海洋环境中的噪声场,噪声场通常均匀分布在 时间轴上,能量大,频谱分布范围广且稳定。海豚声音在时域上一般为短暂的突发事件, 在时间轴上占比很少,在频域上相对于噪声频谱分布的范围更高更集中。因此,本步骤可 根据噪声分布特性,通过比较短时能量和谱质心的波动范围确定阈值。考虑到声音的传播 特性,高频分量衰减的速度更快,本步骤中拟定的短时能量阈值为整段信号能量的均值与 短时能量的2/3位数之和的一半,拟定的谱质心阈值以及谱质心二阶偏移率阈值为整段信 号谱质心的3/4位数和谱质心二阶偏移率的3/4位数。
42.备用有效音段提取步骤:将高于短时能量阈值和谱质心阈值的帧提取出来作为备用有 效音段。本步骤中将短时能量和谱质心高于阈值的帧提取作为备选有效音段,设置最大静 音长度为5帧,即如果相邻的备选有效音段之间间隔不超过5帧,将其合并为一段备用有 效音段。
43.有效音段生成步骤:获取所述备用有效音段两端的谱质心二阶偏移率,当所述备用有 效音段两端的谱质心二阶偏移率高于所述谱质心二阶偏移率阈值时,将该帧作为海豚声音 的起始点和终止点,生成有效音段。在每一段备选有效音段的两端比较谱质心偏移率的大 小,当谱质心二阶偏移率出现突然增大时,表明这一时刻谱质心即将大幅升高,海豚在这 一时刻发声即将开始,当谱质心二阶偏移率突然减小时,表明这一时刻谱质心即将大幅下 降,海豚在这一时刻发声即将终止,因此可以通过本步骤的方式来检验海豚声音的起始点 和终止点。
44.下面通过一个具体实例来进一步说明本发明。
45.1.获取数据
46.实验数据源来自于“voice in the sea”(https://voicesinthesea.ucsd.edu/)、“whoi
”ꢀ
(https://cis.whoi.edu/science/b/whalesounds/index.cfm)、“dolphins underwater soundsdatabase”(https://ieee-dataport.org/)等国外数据集。本实施例的实验平台为python和 audition,选取了海豚三种声音信号进行实验。考虑到海豚回声定位信号为10.5~183.5ms, 将音频统一切割为1s。为了减少计算机的计算量,防止数据发生越界,以输入的声音信号 的最大振幅为1做归一化处理。
47.2.数据分析及处理
48.为了比较不同窗长对检测结果的影响。根据海豚发声时的光谱图可以发现海豚声音的 音节持续时间为10ms~1s。结合窗长越长,时域分辨率越低、频域分辨率越高的规律。而 本文方法中对时域分辨率要求高于频域分辨率要求,所以分别选择了10ms,20ms,50ms 窗长进行检测,得到的短时能量和谱质心变化如图3所示。结果表明,窗长越短,短时能 量和谱质心的变化越急促,对声音的变化越敏感;窗长越长,短时能量和谱质心的变化越 平滑。检测海豚回声定位信号时需要更高的时域分辨率,更高的灵敏度,窗长应当选取较 小值;当检测海豚脉冲信号和通讯交流信号时可以采用稍长的窗长。
49.本实施例检测海豚声音的回声定位信号,因此按照10ms帧长进行分帧,计算出每一 帧的短时能量,对每一帧做短时傅里叶变换,得到每一帧信号对应的频率分量的能量,其 中8k~30khz、100k~150khz权重为0.6,其他频率范围权重为0.4,计算出加权后的谱质 心,并且计算加权后的谱质心的二阶偏移率。
50.确定阈值,当检测海豚click信号时,容易受到突发高频噪声的干扰,因此实验不同 阈值对端点检测精准度的影响。实验选取了三组不同的阈值:(1)短时能量的55%分界 值、谱质心2/3位数、谱质心二阶偏移率的2/3位数;(2)短时能量的均值与2/3位数之 和的均值、谱质心3/4位数、谱质心二阶偏移率的3/4位数;(3)短时能量的2/3位数、 谱质心2/3位数与谱质心3/4位数的均值,谱质心二阶偏移率的2/3位数与谱质心二阶偏移 率3/4位数的均值,分别对同一段海洋环境下海豚click信号进行端点检测,检测结果如图 4所示。第1组阈值对信号的变化过于敏感,将信号切割地非常零散,第3组阈值丢失了 部分click信号音段,最终选择第2组阈值作为检测阈值。
51.为了测试端点检测的适应性,分别选择了25db、-10db、-24db信噪比的环境下的声 音进行实验,实验数据通过audition软件筛选,分别为“voice in the sea”中的6102500q、
ꢀ“
whoi”中的61025008、“whoi”中的61025004,得到的结果如图5所示,其中,(a)为25db 信噪比的环境下的检测结果,(b)为-10db信噪比的环境下的检测结果,(c)为-24db 信噪比的环境下的检测结果。结果表明本实施例使用的基于时频特征地环境噪声下海豚声 音端点检测方法,能够降低突发噪声的干扰,即使在低信噪比的环境下依然能够有良好的 表现。
52.提取备用有效音段,将超出短时能量和谱质心阈值的帧提取加入备选有效音段,当备 选有限音段之间间隔不超过5帧时,将相邻的备选有效音段合并为一段。
53.为了找到海豚发声的起始点和终止点,引入谱质心一阶偏移率,即每一帧谱质心相对 于上一帧谱质心的变化,谱质心二阶偏移率,即谱质心变化的变化趋势,如图6所示。可 以发现当某一时刻谱质心发生变化时,谱质心一阶偏移率尚没有发生变化,对于该变化的 表达存在滞后性,而二阶偏移率在该点已经达到峰值可以表现出这一时刻谱质心的变化趋 势,以此检测出海豚发声的起始点和终止点。
54.在备选有效音段两端向外比较谱质心二阶偏移率,当谱质心二阶偏移率大于阈值时, 将其加入备选有效音段作为起始点和终止点,生成完整有效音段。
55.3.检测过程中对阈值校核
56.记录下每一帧的短时能量、谱质心和谱质心二阶偏移率的阈值,每10s校核一次阈值, 当阈值出现异常值时,取之前10s的阈值平均值作为该帧的检测阈值和下一次校核的起始 值。
57.4.生成有效音段
58.把处理完成的数字信号缓存按照检测出的有效音段切割,切割出的文件转存至有效音 段文件夹,删除数字信号缓存,从缓存文件列表中删除,加快下一次读取缓存文件夹的速 度。处理结束后,统计结果如表1所示。
59.表1端点检测结果
[0060][0061]
不难发现,本发明实施方式的方法简单,不会对海豚产生影响;本实施方式的方法能 够适应不同信噪比海洋环境下的海豚声音端点检测;本实施方式的方法可以避免部分
突发 高频噪声对检测的干扰,速度快、误差小且不需要人工干预,提高海豚声音检测的效率。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1