一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法

文档序号：35967430发布日期：2023-11-09 07:45阅读：51来源：国知局

本发明属于智能识别，具体公开了一种基于mel声谱图与改进seresnet的鱼类行为识别方法。背景介绍精准养殖是鱼类养殖的新趋势，鱼类行为识别为精准养殖提供技术支持，目前鱼类行为监测主要采用计算机视觉技术量化和识别鱼类的多种行为，但目前鱼类行为声音信息难采集、频率波动大和特征差异小等特点使得目标特征信息难以捕捉，赵梦等将sknet注意力机制与yolov5融合，构成了关注像素级信息的特征提取网络，有效的增强了检测效果；韦思学等提出通道非降维双重注意力机制ecbam，对降维操作进行了优化，进一步提高了识别精度。然而，在规模化、集约化等更为复杂的养殖环境中，计算机视觉方法仍有局限性，一些研究者考虑到声波在水中衰减小且不受水体浑浊影响、传播范围更广，开始将深度学习引入声音识别领域，kong等提出了在大规模audioset数据集上训练的预训练音频神经网络panns，并证明可以将神经网络转移到其他音频相关任务，但网络提取声音特征能力受限；desplanques等提出利用1d卷积神经网络融合res2net和se模块以聚合声音不同层次的特征，增强特征通道相互依赖性，但这种方法难以处理声音细节特征。在鱼类行为识别领域中，同样可使用声学特征，meng等提出将鱼类摄食音频转换为声音特征信息，使用卷积神经网络cnn模型对鱼的摄食强度进行分类，但卷积神经网络cnn对鱼类细粒度声音信息提取能力有限；胥婧雯等采用能对鱼类声音特征进行细粒度分类的resnet网络，实现低维细节特征与高维语义特征融合，但样本种类较少，且深度残差网络中有大量冗余层、网络提取关键信息少。针对上述存在的问题，研究设计一种新型的基于mel声谱图与改进seresnet的鱼类行为识别方法，克服现有鱼类行为识别方法中所存在的问题是十分必要的。

背景技术：

技术实现思路

1、本发明为解决现有鱼类行为识别方法中存在的提取声音特征能力受限、难以处理声音细节特征而导致识别精度低的问题提出了一种基于mel声谱图与改进seresnet的鱼类行为识别方法。

2、本发明提供了一种基于mel声谱图与改进seresnet的鱼类行为识别方法，包括如下步骤：

3、s1.采集养殖水域中的鱼类音频信号，对鱼类音频信号进行预处理；

4、s2.通过mel声谱图特征提取方法对所述步骤1预处理后的鱼类音频信号进行声音特征提取，得到鱼类音频的mel声谱图特征信息；

5、s3.构建tap-seresnet模型，所述tap-seresnet模型包括seresnet模块、se注意力机制模块、tap模块、全连接层模块和softmax分类器模块；

6、s4.将所述步骤s2得到的mel声谱图特征信息输入所述步骤s3构建的tap-seresnet模型中，通过seresnet模块的残差连接，得到鱼类原始声音特征，通过嵌入的se注意力机制模块对mel声谱图特征信息进行关键特征加权计算，获得鱼类声音关键信息，将获得的所述鱼类声音关键信息和所述鱼类原始声音特征相加，得到鱼类声音信息特征；

7、s5.将所述步骤s4得到的所述鱼类声音信息特征输入所述tap模块，所述鱼类声音信息特征经过卷积处理后得到特征向量，将所述特征向量同时进行平均池化和最大池化，将平均池化和最大池化的输出结果进行拼接，得到深层声音特征向量；

8、s6.将所述步骤s5得到的所述深层声音特征向量输入所述全连接层模块进行信息整合，得到声音特征整合信息；

9、s7.将所述步骤s6得到的所述声音特征整合信息输入所述softmax分类器模块进行分类，输出鱼类行为识别结果。

10、根据本技术一些实施例的一种基于mel声谱图与改进seresnet的鱼类行为识别方法，所述步骤s1中，通过水听器采集养殖水域中的鱼类音频信号，鱼类每个行为采集时长为120s，将采集到的鱼类音频信号按照每段2s进行人工切分并编号，另设一组空白噪声对照组同步采集环境噪声，所述空白噪声对照组用于区分有效鱼类音频信号和噪声音频信号，将编号后的鱼类音频信号中的噪声音频信号去除，得到预处理后的鱼类音频信号。

11、根据本技术一些实施例的一种基于mel声谱图与改进seresnet的鱼类行为识别方法，所述步骤s2中，所述mel声谱图特征提取方法包括通过mel滤波器对鱼类音频信号进行傅里叶变换，将能量非线性映射到频域梅尔刻度上，提取出傅里叶变换后的鱼类音频信号中的重要频率特征，在频率轴上对鱼类音频信号进行压缩，提取出鱼类细粒度声音信息，得到鱼类音频的mel声谱图特征信息。

12、根据本技术一些实施例的一种基于mel声谱图与改进seresnet的鱼类行为识别方法，所述步骤s3中，

13、所述se注意力机制模块包括：

14、池化层模块，用于获取mel声谱图特征信息中的全局信息；

15、第一全连接层模块，用于顺着空间维度对mel声谱图特征信息中的特征进行特征压缩，降低特征维度；

16、relu层模块，用于进行非线性操作；

17、第二连接层模块，用于还原特征维度并拟合通道间的相关性得到卷积特征，

18、激活函数模块，采用sigmoid函数，与卷积特征进行逐空间位置相乘，得到鱼类声音关键信息；

19、所述tap模块包括：

20、卷积层模块，用于对所述鱼类声音信息特征经过卷积处理得到特征向量；

21、平均池化模块，用于将特征向量平均池化，提供区域内特征的整体趋势和背景信息；

22、最大池化模块，用于将特征向量最大池化，捕捉输入区域内的最显著特征，保留重要局部细节并去除冗余信息；

23、拼接模块，用于拼接平均池化和最大池化的输出结果。

24、根据本技术一些实施例的一种基于mel声谱图与改进seresnet的鱼类行为识别方法，所述步骤s4中，所述se注意力机制模块通过所述池化层模块进行全局平均池化获取mel声谱图特征信息的全局信息，通过第一全连接层模块顺着空间维度对mel声谱图特征信息进行特征压缩，使特征维度降低，通过relu层模块进行非线性操作，经过全连接层将特征维度还原并拟合通道间复杂的相关性卷积特征，最后使用sigmoid函数激活，与所述卷积特征进行逐空间位置相乘，得到所述鱼类声音关键信息。

25、根据本技术一些实施例的一种基于mel声谱图与改进seresnet的鱼类行为识别方法，所述步骤s5中，设所述鱼类声音信息特征经过卷积处理后的特征向量为ht，如公式(1)所示：

26、ht＝(h1,h2,...,ht) (1)

27、其中，hi(i＝1,2,...,t)是特征向量分量，t为总时间维度；

28、沿着总时间维度t，将特征向量同时进行平均池化μ和最大池化f(x)，平均池化μ如公式(2)所示：

29、

30、最大池化f(x)如公式(3)所示：

31、f(x)＝max(0,hi) (3)

32、其中，max表示取特征向量最大值，

33、将平均池化和最大池化的输出结果进行拼接，得到深层声音特征向量e，如公式(4)所示：

34、e＝[μ,f(x)] (4)

35、其中，[,]表示拼接操作。

36、根据本技术一些实施例的一种基于mel声谱图与改进seresnet的鱼类行为识别方法，所述步骤s7中，输出的鱼类行为识别结果包括摄食行为、游泳行为和跳跃行为。

37、本发明提出的一种基于mel声谱图与改进seresnet的鱼类行为识别方法，提出基于mel声谱图和改进seresnet的鱼类行为识别模型tap-seresnet，鱼类声音信息由mel声谱图特征提取方法进行特征提取，通过mel声谱图特征提取方法对频率特征进行非线性映射，提升网络对鱼类声音高级语义特征提取能力，通过融合时序聚合池化层tap模块保留鱼类声音的局部关键信息和整体背景信息，使seresnet保留最佳声音特征信息，也能够减少关键信息丢失，且能够处理声音细节特征，提高seresnet模型识别能力，使鱼类行为识别精度提高，为研究鱼类行为识别领域提供技术支持，有助于在鱼类养殖过程中对鱼类行为实现精准识别。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于红杨雨欣杨宗轶涂万张鑫林远山
技术所有人：大连海洋大学
我是此专利的发明人