一种基于音视频耦合的鸣笛车辆定位方法及系统

文档序号:33540529发布日期:2023-03-22 09:08阅读:103来源:国知局
一种基于音视频耦合的鸣笛车辆定位方法及系统

1.本发明涉及计算机技术领域,尤其是一种基于音视频耦合的鸣笛车辆定位方法及系统。


背景技术:

2.近年来,城市交通噪声污染问题日益凸显,汽车鸣笛问题呈现泛滥之势。违章鸣笛所带来的噪声污染会影响到人们生活质量的提高,尤其在特殊场所比如学校、居民区、医院等区域,有效遏制汽车违章鸣笛变得尤为重要。目前,噪声污染管控已成为我国环保部门的重点任务之一,相关政策明确规定禁止机动车在禁鸣路段鸣笛,越来越多的城市也将违法鸣笛纳入管理常态。但汽车鸣笛噪声较强的移动性和实时性给交通噪声执法监管带来很大困难。
3.实现车辆鸣笛车辆识别定位系统需要解决的关键问题是鸣笛声的识别与鸣笛声的定位。其中,鸣笛声的识别涉及声音识别技术,鸣笛声的定位涉及声源定位技术。
4.当前主流的声音识别技术是通过从目标声音中获取声音特征并对其进行分析,然后从多类别声音中分辨和提取出目标声源。对鸣笛声的提取本质上一种分类问题,国内外针对声音的分类和识别技术的研究方法也是多种多样,一些常用的分类器包括:神经网络,隐马尔可夫模型,支持向量机,高斯混合模型等。其中神经网络是近年较为热门的方式,这种方法主要通过模拟人脑的神经系统来实现对复杂信息的处理。近些年,来神经网络已在众多领域得到了广泛的运用,它能自行提取输入数据(音频时序数据)中深层次,高语义的特征,相较于普通模板匹配的方法,神经网络的方法往往能获得更高的分类准确率,但针对不同的问题,我们仍需选择合适的特征作为网络输入,应用于特定的网络结构,并对网络进行调整以及对所选特征进行组合优化,才能使神经网络达到最好的性能。目前声音识别技术研究领域主要存在的难点有:各种声源特征如何进行组合选取;多种复杂模糊的声音样本如何匹配;声音受到环境影响导致测量误差如何减少;如何在有限的算力下尽可能提升声音识别的准确度。
5.这里的声源定位技术指的是基于麦克风阵列声源定位技术,即使用麦克风阵列,利用多个麦克风在空间中的不同位点对声信号进行测量。由于声信号到达各麦克风的时间有不同程度的延迟,利用算法对测量到的多通道声信号进行处理,由此获得声源点相对于麦克风的到达方向(包括方位角、俯仰角)和距离等。声源定位中需要考虑的因素有定位的精度和算法的实时性,同时这也是当前研究的重点和难点。传统的基于麦克风阵列的声源定位方法大致基于以下三种:基于波束形成器、基于高分辨谱估计、基于时延差(tdoa)。基于深度学习的声源定位方法则是通过对大量已知数据的学习,训练模型来描述声源位置和阵列信号特征之间的映射关系。传统声源定位方法是对接收信号进行处理,估计声源的位置信息。其中,基于tdoa的方法和基于可控波束形成的方法研究较多。然而,传统定位算法容易受到实际环境中存在的混响,噪声等影响(经典的波束形成方法无法克服运动噪声存在的多普勒效应)且传统定位算法的频谱分析对系统计算量需求较大,难以满足系统的实
时性要求。相比之下,基于深度学习的声源定位算法,通过对大量数据的学习得到环境的先验信息,能够提升系统的鲁棒性,但仍需传统处理方法进行特征提取,且存在着模型选择,数据集难以获取等问题。
6.现有的技术一般直接采用声学摄像头直接耦合视频的方式进行鸣笛车辆识别和执法,这种成本高,处理运算要求高,且不易维护。现有技术的缺点:
7.1、成本高。现有技术直接采用声学摄像头直接耦合视频的方式进行鸣笛车辆识别。声学摄像头一般采用30个以上的麦克风,完成极高精度的声源定位,但是初期构建成本极高,且在鸣笛声识别中不需要使用到这么高精度的设备。因此,我们采用成本相对现有方案要低很多的线性麦克风阵列给出一个低成本方案。
8.2、处理运算要求高。现有方案采用的声学摄像头直接耦合视频的方式进行鸣笛车辆识别,路侧运算设备需要实时计算起码30通道麦克风的数据,还要进行视频耦合,对路侧处理器有较高的处理运算要求,且功耗较低。而采用线性麦克风阵列,只需运算6-10通道的麦克风数据并采用降低一个维度的谱峰搜索算法,减少了处理运算所需资源,降低了系统整体能耗。
9.3、维护复杂。现有技术采用的声学摄像头耦合视频的声学摄像头设备仅适用于工业上低使用频率和良好环境的使用场景在鸣笛车辆识别的场景中,设备需要长期暴露在户外,这使得现有的设备需要维护的次数更多。且现有方案采用的设备,一般使用30麦克风以上的声学摄像头,使得他较难维护。而我们采用的线性麦克风阵列,麦克风数量较少,且功耗较低,在使用场景中维护更少,更加简便。


技术实现要素:

10.有鉴于此,本发明实施例提供一种成本低、计算量小且准确率高的,基于音视频耦合的鸣笛车辆定位方法及系统。
11.本发明实施例的一方面提供了一种基于音视频耦合的鸣笛车辆定位方法,包括:
12.获取待分析音频数据和待分析视频数据;
13.提取所述待分析音频数据的时域特征和频域特征,根据所述时域特征和所述频域特征识别得到鸣笛声的音频片段;根据所述鸣笛声的音频片段确定鸣笛的声源方向;
14.根据所述待分析视频数据确定鸣笛车辆位置;
15.根据所述声源方向和所述鸣笛车辆位置,确定鸣笛车辆信息。
16.可选地,所述获取待分析音频数据和待分析视频数据,包括:
17.采用线性麦克风阵列从道路交通环境中采集原始音频数据,并通过小波阈值去噪算法去除所述原始音频数据中的交通环境噪声,得到所述待分析音频数据;
18.采用摄像头采集待分析视频数据。
19.可选地,所述通过小波阈值去噪算法去除所述原始音频数据中的交通环境噪声,得到所述待分析音频数据,包括:
20.通过小波阈值去噪算法对所述原始音频数据进行降噪处理;
21.在完成所述降噪处理后,对所述原始音频数据进行分帧和加窗处理,并对处理后的音频数据进行归一化处理,得到所述待分析音频数据。
22.可选地,所述提取所述待分析音频数据的时域特征和频域特征,包括:
23.在时间域中,计算所述待分析音频数据的短时过零率和短时能量,确定所述时域特征;
24.在频谱域中,计算所述待分析音频数据的基于傅里叶变换的梅尔频率倒谱系数特征和基于小波变换的梅尔频率倒谱系数特征,确定所述频域特征;
25.将所述频域特征中基于傅里叶变换的梅尔频率倒谱系数特征与所述时域特征中的短时过零率进行拼接,得到第一张量;
26.将所述频域特征中基于小波变换的梅尔频率倒谱系数特征与所述时域特征中的短时能量进行拼接,得到第二张量;
27.将所述第一张量和所述第二张量进行拼接,得到融合后的音频时频域特征。
28.可选地,所述根据所述时域特征和所述频域特征识别得到鸣笛声的音频片段,包括:
29.通过修改resnet50网络的网络参数和网络结构,构建目标深度神经网络;其中,所述网络参数包括输入尺寸、中间层数量或输出尺寸;所述目标深度神经网络的输入尺寸与所述音频时频域特征的尺寸适配;
30.将音频分成多个子片段,将每个子片段输入所述目标深度神经网络,得到各个子片段被判断为鸣笛声的判定概率;
31.根据所述判定概率确定鸣笛声出现的时间。
32.可选地,所述根据所述鸣笛声的音频片段确定鸣笛的声源方向,包括:
33.获取线性麦克风阵列的各个麦克风之间的距离参数以及实时环境声速;
34.采用基于二次相关的时延估计方法计算得到声音传播的时延信息;
35.根据所述距离参数、所述实时环境声速以及所述时延信息,计算所述声源方向的估计结果;
36.采用可控波束形成算法对所述声源方向的估计结果进行范围扫描,得到目标声源方向。
37.可选地,所述采用基于二次相关的时延估计方法计算得到声音传播的时延信息,包括:
38.对采集到的第一源信号和第二源信号进行相关性处理,得到自相关序列和互相关序列;
39.将所述自相关序列和所述互相关序列视为关于时间的序列,对所述自相关序列和所述互相关序列再次进行互相关处理,得到二次相关结果;
40.对所述二次相关结果进行广义加权处理,得到功率谱,并对所述功率谱进行反傅里叶变换处理后,找到所述二次相关结果中最大值对应的时间点,确定为声音传播的时延估计结果。
41.可选地,所述采用可控波束形成算法对所述声源方向的估计结果进行范围扫描,得到目标声源方向,包括:
42.根据接收到的快拍信号估计自相关矩阵;
43.计算所述自相关矩阵的逆矩阵;
44.根据线性麦克风阵列的集合形状构建相应的导向矢量;
45.使角度按照设定的步进,在以所述声源方向的估计结果为中心的角度范围内扫
描,计算capon波束形成法的功率谱;
46.对所述capon波束形成法的功率谱进行谱峰搜索,找出峰值点对应角度,作为目标声源方向。
47.本发明实施例的另一方面还提供了一种基于音视频耦合的鸣笛车辆定位系统,包括:
48.第一模块,用于获取待分析音频数据和待分析视频数据;
49.第二模块,用于提取所述待分析音频数据的时域特征和频域特征,根据所述时域特征和所述频域特征识别得到鸣笛声的音频片段;根据所述鸣笛声的音频片段确定鸣笛的声源方向;
50.第三模块,用于根据所述待分析视频数据确定鸣笛车辆位置;
51.第四模块,用于根据所述声源方向和所述鸣笛车辆位置,确定鸣笛车辆信息。
52.本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
53.所述存储器用于存储程序;
54.所述处理器执行所述程序实现如前面所述的方法。
55.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
56.本发明的实施例首先获取待分析音频数据和待分析视频数据;接着提取所述待分析音频数据的时域特征和频域特征,根据所述时域特征和所述频域特征识别得到鸣笛声的音频片段;根据所述鸣笛声的音频片段确定鸣笛的声源方向;然后根据所述待分析视频数据确定鸣笛车辆位置;最后根据所述声源方向和所述鸣笛车辆位置,确定鸣笛车辆信息。本发明的成本低、计算量小且准确率高。
附图说明
57.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
58.图1为本发明实施例提供的整体步骤流程图;
59.图2为总体流程图中的各个模块包含的子模块结构图;
60.图3为总体流程图中识别模块的子模块时频域特征提取与融合过程的流程图;
61.图4为总体流程图中识别模块的时频域特征融合方法图;
62.图5为识别模块的深度神经网络horn-detect net的结构图;
63.图6为线性麦克风阵列架构与远场声源模型示意图;
64.图7为基于二次相关的时延估计的流程图;
65.图8为可控波束形成算法求声源方向的流程图;
66.图9为耦合模块的原理示意图。
具体实施方式
67.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
68.针对现有技术存在的问题,本发明实施例的一方面提供了一种基于音视频耦合的鸣笛车辆定位方法,包括:
69.获取待分析音频数据和待分析视频数据;
70.提取所述待分析音频数据的时域特征和频域特征,根据所述时域特征和所述频域特征识别得到鸣笛声的音频片段;根据所述鸣笛声的音频片段确定鸣笛的声源方向;
71.根据所述待分析视频数据确定鸣笛车辆位置;
72.根据所述声源方向和所述鸣笛车辆位置,确定鸣笛车辆信息。
73.可选地,所述获取待分析音频数据和待分析视频数据,包括:
74.采用线性麦克风阵列从道路交通环境中采集原始音频数据,并通过小波阈值去噪算法去除所述原始音频数据中的交通环境噪声,得到所述待分析音频数据;
75.采用摄像头采集待分析视频数据。
76.可选地,所述通过小波阈值去噪算法去除所述原始音频数据中的交通环境噪声,得到所述待分析音频数据,包括:
77.通过小波阈值去噪算法对所述原始音频数据进行降噪处理;
78.在完成所述降噪处理后,对所述原始音频数据进行分帧和加窗处理,并对处理后的音频数据进行归一化处理,得到所述待分析音频数据。
79.可选地,所述提取所述待分析音频数据的时域特征和频域特征,包括:
80.在时间域中,计算所述待分析音频数据的短时过零率和短时能量,确定所述时域特征;
81.在频谱域中,计算所述待分析音频数据的基于傅里叶变换的梅尔频率倒谱系数特征和基于小波变换的梅尔频率倒谱系数特征,确定所述频域特征;
82.将所述频域特征中基于傅里叶变换的梅尔频率倒谱系数特征与所述时域特征中的短时过零率进行拼接,得到第一张量;
83.将所述频域特征中基于小波变换的梅尔频率倒谱系数特征与所述时域特征中的短时能量进行拼接,得到第二张量;
84.将所述第一张量和所述第二张量进行拼接,得到融合后的音频时频域特征。
85.可选地,所述根据所述时域特征和所述频域特征识别得到鸣笛声的音频片段,包括:
86.通过修改resnet50网络的网络参数和网络结构,构建目标深度神经网络;其中,所述网络参数包括输入尺寸、中间层数量或输出尺寸;所述目标深度神经网络的输入尺寸与所述音频时频域特征的尺寸适配;
87.将音频分成多个子片段,将每个子片段输入所述目标深度神经网络,得到各个子片段被判断为鸣笛声的判定概率;
88.根据所述判定概率确定鸣笛声出现的时间。
89.可选地,所述根据所述鸣笛声的音频片段确定鸣笛的声源方向,包括:
90.获取线性麦克风阵列的各个麦克风之间的距离参数以及实时环境声速;
91.采用基于二次相关的时延估计方法计算得到声音传播的时延信息;
92.根据所述距离参数、所述实时环境声速以及所述时延信息,计算所述声源方向的估计结果;
93.采用可控波束形成算法对所述声源方向的估计结果进行范围扫描,得到目标声源方向。
94.可选地,所述采用基于二次相关的时延估计方法计算得到声音传播的时延信息,包括:
95.对采集到的第一源信号和第二源信号进行相关性处理,得到自相关序列和互相关序列;
96.将所述自相关序列和所述互相关序列视为关于时间的序列,对所述自相关序列和所述互相关序列再次进行互相关处理,得到二次相关结果;
97.对所述二次相关结果进行广义加权处理,得到功率谱,并对所述功率谱进行反傅里叶变换处理后,找到所述二次相关结果中最大值对应的时间点,确定为声音传播的时延估计结果。
98.可选地,所述采用可控波束形成算法对所述声源方向的估计结果进行范围扫描,得到目标声源方向,包括:
99.根据接收到的快拍信号估计自相关矩阵;
100.计算所述自相关矩阵的逆矩阵;
101.根据线性麦克风阵列的集合形状构建相应的导向矢量;
102.使角度按照设定的步进,在以所述声源方向的估计结果为中心的角度范围内扫描,计算capon波束形成法的功率谱;
103.对所述capon波束形成法的功率谱进行谱峰搜索,找出峰值点对应角度,作为目标声源方向。
104.本发明实施例的另一方面还提供了一种基于音视频耦合的鸣笛车辆定位系统,包括:
105.第一模块,用于获取待分析音频数据和待分析视频数据;
106.第二模块,用于提取所述待分析音频数据的时域特征和频域特征,根据所述时域特征和所述频域特征识别得到鸣笛声的音频片段;根据所述鸣笛声的音频片段确定鸣笛的声源方向;
107.第三模块,用于根据所述待分析视频数据确定鸣笛车辆位置;
108.第四模块,用于根据所述声源方向和所述鸣笛车辆位置,确定鸣笛车辆信息。
109.本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
110.所述存储器用于存储程序;
111.所述处理器执行所述程序实现如前面所述的方法。
112.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
113.下面结合说明书附图,对本发明的具体实现过程进行详细描述:
114.图1所示为一种基于线性麦克风阵列的音视频耦合的鸣笛车辆定位方法及系统的总体流程图。其主要由识别模块、定位模块和耦合模块这三大模块组成。将通过硬件设备获取的道路原始音频数据输入识别模块,得到鸣笛声出现的时间,然后定位模块根据鸣笛声出现的时间,从原始音频中定位鸣笛声的位置,最后结合通过硬件设备获取的道路原始视频数据,通过耦合模块,得到标记鸣笛车辆位置的视频。
115.图2所示为总体流程图中的各个模块包含的子模块结构图。其中,数据在各模块中的子模块间的具体交互如下。
116.识别模块主要由时频域特征提取与融合、深度神经网络识别这两个子模块组成。将通过硬件设备获取的道路原始音频数据经过时频域特征提取与融合子模块,对其进行初步的时频域特征提取与融合,得到融合后的音频的时频域特征;再将融合特征通过深度神经网络进行进一步特征提取和识别,从而标记原始音频中鸣笛声的出现时间。
117.定位模块主要由声达时间差算法、可控波束形成这两个子模块组成。通过声达时间差算法,根据不同通道音频信号的时间差,得到声源的估算角度,再通过可控波束形成算法,得到精确的声源定位角度。
118.耦合模块主要由坐标变换、车辆识别和置信判别这三个子模块组成。一方面,将通过定位模块获取的鸣笛声在空间中的位置数据经过坐标变换子模块,得到鸣笛声在视频图像中的位置数据;另一方面,将通过硬件设备获取的道路原始视频数据经过车辆识别网络子模块,得到所有车辆再视频图像中的位置;最后通过置信判别算法,将转换后的鸣笛声位置与视频中车辆的位置相匹配,以标记出视频中的鸣笛车辆。
119.图3所示为总体流程图中识别模块的子模块时频域特征提取与融合过程的流程图。该过程可以依次分成预处理、时频域特征提取、时频域特征融合等三个模块。其中,预处理指对音频数据进行初步的简单处理,减小干扰并对音频进行格式的规范化。时频域特征提取指分别提取音频在时间域和频谱域中有利于对音频进行识别的特征。时频域特征融合值使用决策级特征融合方法对时频域特征进行融合。
120.其中,各模块的交互如下:
121.s1:在预处理模块中,首先通过小波阈值去噪算法对音频数据进行简单的降噪,去除道路环境中高频的噪声,减少其带来的干扰;然后对音频进行分帧和加窗,目的是将长音频分成极短的片段使其具有短时平稳性,这是后续特征提取与识别所需要的必要环节。再对音频数据进行归一化,去除音量过大或过小对后续特征提取与识别的影响。
122.s2:对预处理后的音频数据进行特征提取,在时间域中,计算音频的短时过零率(单位时间内音频信号通过零值的次数)和短时能量(单位时间内音频信号的能量),这两个特征可以体现音频在时间域中的特点;在频谱域中,提取音频的mfcc特征(基于傅里叶变换的梅尔频率倒谱系数特征)和小波mfcc特征(基于小波变换的梅尔频率倒谱系数特征),这两个特征可以体现音频在频谱域中的特点。
123.s3:对提取的时频域特征进行融合。具体的融合方法如图4所示。图4所示为所述总体流程图中识别模块的时频域特征融合方法图。将提取到的mfcc特征(40x32x1)和短时过零率(40x 8x1)拼接成(40x40x1)的张量,小波mfcc特征(40x32x1)和短时能量(40x8x1)拼接成(40x40x1)的张量,再将这两个张量拼接成(40x40x2)的张量,得到融合后的音频时频
域特征。
124.图5所示为识别模块的深度神经网络horn-detect net的结构图。该网络是在深度学习领域经典网络resnet的基础上改造而成的。通过修改resnet50网络的输入尺寸、中间层数量和结构、输出尺寸等参数和结构,使其输入尺寸与前文提取的音频时频域特征(40x40x2)相适配,输出尺寸为(2x1)则表示该段音频被判断为鸣笛声的概率。将音频分成若干0.5s的小片段,以片段为单位使用深度神经网络进行判断,从而得到鸣笛声出现的时间。
125.图6所示为线性麦克风阵列架构与远场声源模型示意图。在远场声源模型中,声源发出的声波之间是平行关系,通过求声波与麦克风阵列的夹角θ实现对声源方向的定位。假设每个麦克风之间的距离为d,声速为c,接收信号的时延为t,可得:
[0126][0127]
记声波的频率为f,麦克风数量为m,以第一个阵元为参考点,那么每一个阵元相对于第一个阵元的相位差为:
[0128][0129]
记s(n)为声源信号,a(θ)为导向矢量,进而定义接收到的信号为:
[0130][0131]
图7所示为所述基于二次相关的时延估计示意图。包括以下步骤:
[0132]
s1:对源信号x1(t)与x2(t)进行相关处理,分别得到自相关和互相关序列r
11
(τ)与r
12
(τ),其中:
[0133]r11
(τ)=e[x1(n)x1(n-τ)]
[0134]r12
(τ)=e[x1(n)x2(n-τ)]
[0135]
s2:将r
11
(τ)与r
12
(τ)看作关于时间的序列,对r
11
(τ)和r
12
(τ)再做一次互相关得:
[0136][0137]
忽略信号和噪声之间的相关函数,上式可简化为:
[0138][0139]
式中,r
rs
表示纯信号做二次相关,r
rn
代表纯噪声做二次相关。
[0140]
s3:后对进行广义加权处理,得到功率谱并令功率谱做反傅里叶变换。
[0141]
s4:根据基本互相关原理,有r
rs
(τ)≤|r
rs
(0)|,可以推出τ-d=0时,取得最大值。对s3进行峰值检测,找到最大值对应的时间点,即可得到时延。
[0142]
图8所示为所述可控波束形成算法求声源方向的示意图。
[0143]
该方法包括以下步骤:
[0144]
s1:由接收到的快拍信号x(n)估计自相关矩阵r;
[0145]
s2:计算自相关矩阵r的逆矩阵r-1

[0146]
s3:根据阵列的集合形状构建相应的导向矢量a(θ);
[0147]
s4:使角度按照一定的步进,在以θ
τ
为中心的30
°
范围内进行扫描,并逐次计算p
θ

[0148]
s5:对p
θ
进行谱峰搜索,找出峰值点对应的角度记为θ
λ

[0149]
其中,p
θ
是capon波束形成法的功率谱,capon波束形成是一种基本的声源定位方法,其原理是将信号来向的响应设置为常量的约束条件下,选择能将阵列接收到的信号的功率到达极值的权值。
[0150]
图9所示为所述耦合模块的原理示意图。音视频耦合的具体方法如下。
[0151]
三个约束可以唯一确定三维平面中指定的点,对于三维的世界空间,需要三个参数来确定鸣笛声位置。在本系统中,麦克风阵列和摄像头安装位置处于同一水平面内,且距离地面高度为0.8米(一般车载喇叭的高度),该高度作为第一个约束;前文中定位模块获得的方位角作为第二个约束;由于从三维空间到二维平面的经历了降维过程,会损失掉一个维度的约束信息,且定位方位角的角顶点与摄像机焦点重合,故该约束可以忽略,由此可以得到鸣笛声在世界坐标系中的坐标。
[0152]
基于相机透视投影的成像原理,物体在世界坐标系中绝对坐标可以通过矩阵乘法进行坐标转换,转换成视频图像的像素坐标系中的像素坐标。具体为:
[0153][0154]
其中m
int
为相机的内在参数,可以通过相机标定获得,为世界坐标系和相机坐标系之间的齐次变换矩阵,由相机和麦克风阵列的相对位置决定。通过上述公式,可以将定位模块得到的鸣笛声在世界坐标系中的绝对坐标转换到像素坐标系中,即得到视频图像上的鸣笛声位置。
[0155]
使用当前经典目标检测网络yolo结合deepsort追踪算法,可以实现车辆的检测与识别,在视频图像中检测出车辆的位置。由于存在一定的误差或干扰,通过坐标转换得到的鸣笛声位置可能不会网络检测出来的车辆位置完全重合,此时通过置信判别算法基于一定的置信度进行鸣笛车辆位置的判别。具体指的是,找出距离鸣笛位置点距离最近的车辆并计算距离,若距离小于允许阈值则判定该车辆鸣笛,进而将该车辆进行标记。
[0156]
因此,本发明提供的一种基于线性麦克风阵列的音视频耦合的鸣笛车辆定位方法及系统,关键点在于基于时频域融合的深度学习识别方法和减少一个维度的音视频耦合方法。
[0157]
其中,基于时频域融合的深度学习识别方法具有如下优点:
[0158]
1、创新的特征提取和融合方法。本发明在对道路音频数据进行特征提取时,从时间域和频率域分别提取能代表音频不同方面特点的特征,并将其融合让特征更加丰富,与现有的只使用单一特征的方法相比更加全面,有利于识别准确率的提高。
[0159]
2、加快识别速度,减小算力负担。本发明对道路音频数据先进行显式的特征提取与融合之后,再通过深度神经网络进行隐式的特征提取与识别,可以减少网络模型的参数
量,与现有的将原始音频直接输入网络的模型相比更加轻便,有利于提高算法识别的速度,减小硬件算力的负担。
[0160]
减少一个维度的音视频耦合方法具有如下优点:
[0161]
1、降低技术难度,减少设备成本。基于车辆鸣笛声与测量设备位于同一个水平面的假设,只需要声源的方位角的输入即可完成音视频耦合,降低了校准与耦合的难度。减少一个维度的耦合方法也能够支持构造更加简单,造价更加低廉的一维线性麦克风阵列,简化了tdoa算法中阵列模型和波束形成中导向矢量的计算。
[0162]
2、提高定位精度。本方法减少了定位模块在俯仰角方面的自由度,在音视频耦合时,使用一个假想的和设备等高的水平面作为补偿,有两个优点。其一是在交通场景中,此模型假设与实际车辆鸣笛出现方位契合度较高,结合车辆检测算法,能够有效避免俯仰角方面的误差。其二是能够将原本用于纵向定位的麦克风用于横向定位,结合trimmean和置信等方法增加硬件的容错。
[0163]
3、提高算法效率。由于定位模块只输出方位角,可控波束形成算法只需要在一个维度中计算功率谱并进行谱峰搜索,相对于常规的二维全域的谱峰搜索而言直接降低了一层复杂度,大幅度提高了算法效率。
[0164]
综上所述,本发明采用了线性麦克风阵列给出一个更低成本的方案。这主要体现在三个方面:其一,使用线性麦克风阵列代替构造复杂的声学探头,降低初期构建成本。其二,硬件设备中只需处理6-10通道的麦克风数据并采用了多钟高效率低复杂度的算法(如使用toda确定大致角度范围后再进行波峰搜索),减少了处理运算所需资源。其三,对于设备需要长期暴露在户外的交通场景而言,麦克风数量较少,且功耗较低,减少了维护所需的人力物力。
[0165]
同时,本发明采用了短时能量,短时过零率,mfcc和小波mfcc四个时域+频域的声音特征共同作为深度神经网络的输入,将人耳的听觉感知特性和语音的产生机制相结合,有效分析出声音特征的同时也压缩了数据维度。具有节约算力资源,提高识别准确率的优点。小波mfcc(基于小波变换的梅尔频率倒谱系数特征)也补足了mfcc(基于傅里叶变换的梅尔频率倒谱系数特征)的鲁棒性缺陷,使得识别算法更具抵抗噪声能力。
[0166]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0167]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特
定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0168]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0169]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0170]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(ram)、只读存储器(rom)、可擦除可编辑只读存储器(eprom或闪速存储器)、光纤装置以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0171]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0172]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0173]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0174]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1