一种基于深度学习的供水管道漏水音频的识别方法

文档序号:32307200发布日期:2022-11-23 10:23阅读:348来源:国知局
一种基于深度学习的供水管道漏水音频的识别方法

1.本发明涉及管道检漏技术领域,更具体地,涉及一种基于深度学习的供水管道漏水音频的识别方法及系统、计算机可读存储介质。


背景技术:

2.随着城市的发展,城市供水管网铺设越来越秘密集,部分供水管网因为铺设的时间较早或者因为其他外力原因难免会出现滴水或者漏水的现象。
3.地下管道漏水由于水压会产生不同的声音,听音探查方法是供水管道漏点主动探测和漏点定位的常规技术手段,原理简单,工程应用历史悠久,在国内外供水行业均被广泛采用。目前我国大部分城市管网漏损巡查还都离不开人工听漏的办法,即使应用相关仪等设备,也需要在开挖前利用人工听音来缩小定位范围。在进行泄漏检测调查时,工作人员使用机械式听漏棒或便携式测量设备来获取声音检测漏水。
4.现有技术公开了一种基于神经网络的带压运行供水管道漏水音智能判别方法,该方法包括:收集目标带压运行供水管道的声音与环境音频,得到音频文件;对所得音频文件进行预处理,包含带通滤波以及berouti谱减法降噪;对过滤后的信号提取梅尔刻度频谱,将管道声制成对应的数字特征数据;将所述数字特征数据输入预设混合分类预测模型,输出分类结果。该方案是通过混合分类模型进行分类识别,检测精度受限。


技术实现要素:

5.本发明提供了一种基于深度学习的供水管道漏水音频的识别方法,提高了管道漏水检测效率和检测精度。
6.本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
7.本发明第一方面提供了一种基于深度学习的供水管道漏水音频的识别方法,包括以下步骤:
8.s1、采集供水管道内音频数据;
9.s2、对所述音频数据进行预处理得到音频数据的梅尔语谱图;
10.s3、利用梅尔语谱图数据训练改进的mobilenetv3模型,得到训练好的mobilenetv3模型;
11.s4、实时采集供水管道的音频数据并进行预处理,将预处理后的实时音频数据输入至训练好的mobilenetv3模型,输出识别结果。
12.进一步的,步骤s1中采集供水管道内音频数据通过带有音频采集模块的水下机器人进行数据采集。
13.进一步的,对所述音频数据进行预处理得到音频数据的梅尔语谱图,具体过程为:
14.s201、将获取的供水管道内音频数据按预设的时间长度进行分帧,获得同等时间间隔的数据;
15.s202、将分帧后的数据通过时移的方式进行数据增强;
16.s203、提取增强后音频数据的梅尔语谱图。
17.进一步的,所述预设的时间长度为1秒。
18.进一步的,步骤s203的具体过程为:将增强后的数据依次进行分帧、加窗、傅里叶变换、取功率谱、构造mel滤波器组并与功率谱进行点积运算,得到增强后音频数据的梅尔语谱图。
19.进一步的,所述改进的mobilenetv3模型是将现有的mobilenetv3模型中bneck结构的senet注意力机制单元替换为cbam注意力机制单元。
20.进一步的,所述改进的mobilenetv3模型包括有11个bneck结构,其中,第1、2、3个bneck结构使用3x3的卷积,其余bneck结构使用5x5的卷积;第1、4、5、6、7、8、9个bneck使用cbam结构,其余不使用;第1、2、3个bneck结构使用relu激活函数,其余bneck结构使用h_swish激活函数;第1、2、4、9个bneck结构步长为2,其余bneck结构步长为1。
21.本发明第方面提供了一种基于深度学习的供水管道漏水音频的识别系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于深度学习的供水管道漏水音频的识别方法程序,所述一种基于深度学习的供水管道漏水音频的识别方法程序被所述处理器执行时实现如下步骤:
22.进一步的,步骤s1中采集供水管道内音频数据通过带有音频采集模块的水下机器人进行数据采集。
23.本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于深度学习的供水管道漏水音频的识别方法程序,所述基于深度学习的供水管道漏水音频的识别方法程序被处理器执行时,实现所述的一种基于深度学习的供水管道漏水音频的识别方法的步骤。
24.与现有技术相比,本发明技术方案的有益效果是:
25.本发明通过对mobilenetv3模型进行改进,替换bneck模块中的se注意力机制单元,将供水管道内音频数据处理为梅尔语谱图并输入至利用改进后的模型进行漏水检测,本发明能够在减少注意力机制模块的使用次数的同时,使模型的注意力机制更集中于音频特征处,从而提高了管道漏水检测效率和检测精度。
附图说明
26.图1为本发明一种基于深度学习的供水管道漏水音频的识别方法流程图。
27.图2为本发明实施例供水管道内音频数据波形图。
28.图3为本发明实施例cbam注意力机制单元结构示意图。
29.图4为本发明实施例改进mobilenetv3模型结构示意图图。
30.图5为本发明实施例为供水管道漏水音频波形图。
31.图6为本发明实施例供水管道漏水音频的梅尔语谱图。
32.图7为本发明实施例供水管道不漏水音频波形图。
33.图8为本发明实施例供水管道不漏水音频的梅尔语谱图。
具体实施方式
34.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实
施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
35.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
36.实施例1
37.如图1所示,本发明第一方面提供了一种基于深度学习的供水管道漏水音频的识别方法,包括以下步骤:
38.s1、采集供水管道内音频数据;
39.需要说明的是,在本发明中可以通过音频采集模块来获取供水管道内的音频数据,所述的音频采集模块可以设置在水下探测器上或者水下机器人,本发明并不限定音频采集模块的所设置的具体具体水下装置,需要说明的是,所述音频采集模块还包括有通信单元,所采集的音频数据可通过通信单元进行传输,例如传输只现场的上位机或者远端的后台,进而上位机或远端后台进行数据的处理与分析,在一个具体的实施例中,音频采集模块以44100的采集速率进行音频采集,即一秒内采集44100个音频的值,采集的上述数据是离散的,这些值通过零阶保持,平滑最终形成常见的声音波形图,如图所示2。
40.s2、对所述音频数据进行预处理得到音频数据的梅尔语谱图;
41.需要说明的是,音频数据进行预处理过程具体为:
42.s201、将获取的供水管道内音频数据按预设的时间长度进行分帧,获得同等时间间隔的数据;其中,预设的时间长度可以设置为1秒。
43.s202、将分帧后的数据通过时移的方式进行数据增强;
44.需要说明的是,在本发明中在对分帧后的数据进行时移时可在一定比例范围内随机偏移,而不是使用固定的时间偏移,同时在时移进行的循环移动而不是空隙零填充。
45.s203、提取增强后音频数据的梅尔语谱图。
46.更具体的,将增强后的数据依次进行分帧、加窗、傅里叶变换、取功率谱、构造mel滤波器组并与功率谱进行点积运算,得到增强后音频数据的梅尔语谱图。
47.在一个具体的实施例中,进行分帧处理即将信号分成短时帧,通常分帧区间为20-40ms,优选的可以选择帧长为25ms。所述加窗即对每个帧乘以一个窗函数,达到减少频谱泄露的效果;所述傅里叶变换是将时域信号转换为频域上的能量分布,需要说明的是,本发明中的傅里叶变换为短时傅里叶变换;然后对傅里叶变换得到的频谱取模平方得到功率谱,再将功率谱与mel滤波器组点积得到语谱图。
48.s3、利用梅尔语谱图数据训练改进的mobilenetv3模型,得到训练好的mobilenetv3模型;
49.需要说明的是,所述改进的mobilenetv3模型是将现有的mobilenetv3模型中bneck结构的senet注意力机制单元替换为cbam。
50.需要说明的是,mobilenetv3网络模型的bneck结构是有senet注意力机制的,但senet注意力机制的性能不如cbam注意力机制,所以我使用cbam注意力机制代替了其原有的senet注意力机制。在mobilenet网络结构中并不是每一个bneck结构都使用了senet注意力机制,因为在不同的识别类别中,不同的类别在原图所占像素的不同,跟原mobilenetv3
不同的是,为了让注意力机制更加好的集中在音频的特征上,我在第10、11个bneck中均未使用cbam注意力机制,因为当特征图上采样至4x4时,已无法寻找到音频特征,所以不使用cbam注意力机制可以降低参数量而不影响检测精度。
51.进一步的,所述改进的mobilenetv3模型包括有11个bneck结构,其中,第1、2、3个bneck结构使用3x3的卷积,其余bneck结构使用5x5的卷积;第1、4、5、6、7、8、9个bneck使用cbam结构,其余不使用;第1、2、3个bneck结构使用relu激活函数,其余bneck结构使用h_swish激活函数;第1、2、4、9个bneck结构步长为2,其余bneck结构步长为1。如图3所示为cbam注意力机制单元结构示意图。
52.在一个具体的实施例中,如图4所示为改进mobilenetv3模型结构示意图,梅尔语谱图数据首先通过步长为2的3x3卷积,接着经过11个bneck结构:所述改进的mobilenetv3模型包括有11个bneck结构,其中,第1、2、3个bneck结构使用3x3的卷积,其余bneck结构使用5x5的卷积;第1、4、5、6、7、8、9个bneck使用cbam结构,其余不使用;第1、2、3个bneck结构使用relu激活函数,其余bneck结构使用h_swish激活函数;第1、2、4、9个bneck结构步长为2,其余bneck结构步长为1。通过上述11个bneck结构后得到特征图,再通过一个1x1卷积改变通道数,再经过一个最大池化,而后再经过一个1x1卷积改变通道数,再通过一个1x1卷积得到分类。
53.需要说明的是,供水管道内音频数据中包括漏水时管道内的音频与不漏水时管道内的音频。训练时需要对数据集进行漏水与不漏水的划分,不需要类似目标检测中的打标,只需把漏水音频与不漏水音频放入不同的文件夹,编写程序去读取分割训练即可。
54.s4、实时采集供水管道的音频数据并进行预处理,将预处理后的实时音频数据输入至训练好的mobilenetv3模型,输出识别结果。
55.如图所示,图5为供水管道漏水音频波形图,图6为供水管道漏水音频的梅尔语谱图,如图7所示为供水管道不漏水音频波形图,图8为供水管道不漏水音频的梅尔语谱图。
56.本发明第二方面提供了一种基于深度学习的供水管道漏水音频的识别系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于深度学习的供水管道漏水音频的识别方法程序,所述一种基于深度学习的供水管道漏水音频的识别方法程序被所述处理器执行时实现如下步骤:
57.s1、采集供水管道内音频数据;
58.需要说明的是,在本发明中可以通过音频采集模块来获取供水管道内的音频数据,所述的音频采集模块可以设置在水下探测器上或者水下机器人,本发明并不限定音频采集模块的所设置的具体具体水下装置,需要说明的是,所述音频采集模块还包括有通信单元,所采集的音频数据可通过通信单元进行传输,例如传输只现场的上位机或者远端的后台,进而上位机或远端后台进行数据的处理与分析,在一个具体的实施例中,音频采集模块以44100的采集速率进行音频采集,即一秒内采集44100个音频的值,采集的上述数据是离散的,这些值通过零阶保持,平滑最终形成常见的声音波形图,如图所示2。
59.s2、对所述音频数据进行预处理得到音频数据的梅尔语谱图;
60.需要说明的是,音频数据进行预处理过程具体为:
61.s201、将获取的供水管道内音频数据按预设的时间长度进行分帧,获得同等时间间隔的数据;其中,预设的时间长度可以设置为1秒。
62.s202、将分帧后的数据通过时移的方式进行数据增强;
63.需要说明的是,在本发明中在对分帧后的数据进行时移时可在一定比例范围内随机偏移,而不是使用固定的时间偏移,同时在时移进行的循环移动而不是空隙零填充。
64.s203、提取增强后音频数据的梅尔语谱图。
65.更具体的,将增强后的数据依次进行分帧、加窗、傅里叶变换、取功率谱、构造mel滤波器组并与功率谱进行点积运算,得到增强后音频数据的梅尔语谱图。
66.在一个具体的实施例中,进行分帧处理即将信号分成短时帧,通常分帧区间为20-40ms,优选的可以选择帧长为25ms。所述加窗即对每个帧乘以一个窗函数,达到减少频谱泄露的效果;所述傅里叶变换是将时域信号转换为频域上的能量分布,需要说明的是,本发明中的傅里叶变换为短时傅里叶变换;然后对傅里叶变换得到的频谱取模平方得到功率谱,再将功率谱与mel滤波器组点积得到语谱图。
67.s3、利用梅尔语谱图数据训练改进的mobilenetv3模型,得到训练好的mobilenetv3模型;
68.需要说明的是,所述改进的mobilenetv3模型是将现有的mobilenetv3模型中bneck结构的senet注意力机制单元替换为cbam。
69.需要说明的是,mobilenetv3网络模型的bneck结构是有senet注意力机制的,但senet注意力机制的性能不如cbam注意力机制,所以我使用cbam注意力机制代替了其原有的senet注意力机制。在mobilenet网络结构中并不是每一个bneck结构都使用了senet注意力机制,因为在不同的识别类别中,不同的类别在原图所占像素的不同,跟原mobilenetv3不同的是,为了让注意力机制更加好的集中在音频的特征上,我在第10、11个bneck中均未使用cbam注意力机制,因为当特征图上采样至4x4时,已无法寻找到音频特征,所以不使用cbam注意力机制可以降低参数量而不影响检测精度。
70.进一步的,所述改进的mobilenetv3模型包括有11个bneck结构,其中,第1、2、3个bneck结构使用3x3的卷积,其余bneck结构使用5x5的卷积;第1、4、5、6、7、8、9个bneck使用cbam结构,其余不使用;第1、2、3个bneck结构使用relu激活函数,其余bneck结构使用h_swish激活函数;第1、2、4、9个bneck结构步长为2,其余bneck结构步长为1。如图3所示为cbam注意力机制单元结构示意图。
71.在一个具体的实施例中,如图4所示为改进mobilenetv3模型结构示意图,梅尔语谱图数据首先通过步长为2的3x3卷积,接着经过11个bneck结构:所述改进的mobilenetv3模型包括有11个bneck结构,其中,第1、2、3个bneck结构使用3x3的卷积,其余bneck结构使用5x5的卷积;第1、4、5、6、7、8、9个bneck使用cbam结构,其余不使用;第1、2、3个bneck结构使用relu激活函数,其余bneck结构使用h_swish激活函数;第1、2、4、9个bneck结构步长为2,其余bneck结构步长为1。通过上述11个bneck结构后得到特征图,再通过一个1x1卷积改变通道数,再经过一个最大池化,而后再经过一个1x1卷积改变通道数,再通过一个1x1卷积得到分类。
72.需要说明的是,供水管道内音频数据中包括漏水时管道内的音频与不漏水时管道内的音频。训练时需要对数据集进行漏水与不漏水的划分,不需要类似目标检测中的打标,只需把漏水音频与不漏水音频放入不同的文件夹,编写程序去读取分割训练即可。
73.s4、实时采集供水管道的音频数据并进行预处理,将预处理后的实时音频数据输
入至训练好的mobilenetv3模型,输出识别结果。
74.如图所示,图5为供水管道漏水音频波形图,图6为供水管道漏水音频的梅尔语谱图,如图7所示为供水管道不漏水音频波形图,图8为供水管道不漏水音频的梅尔语谱图。
75.本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于深度学习的供水管道漏水音频的识别方法程序,所述基于深度学习的供水管道漏水音频的识别方法程序被处理器执行时,实现所述的一种基于深度学习的供水管道漏水音频的识别方法的步骤。
76.显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1