一种基于音频与视频信号的鸟类定位方法与流程

文档序号:33534114发布日期:2023-03-22 08:18阅读:49来源:国知局
一种基于音频与视频信号的鸟类定位方法与流程

1.本发明属于航空器安全领域,具体涉及一种基于音频与视频信号的鸟类定位方法。


背景技术:

2.近年来,鸟撞是航空器运行的一个重要的安全隐患,机场周边的鸟类定位是解决鸟撞的一种重要手段。目前鸟类定位主要是通过工作人员亲自到达监测点,并在监测点通过肉眼或望远镜观察鸟类的位置。
3.但是,目前这种鸟类定位方法存在如下问题:
4.1,工作人员看到鸟后,需要估测一个鸟与工作人员的位置关系,如距离方位等信息,但是目前这些信息都需要靠人来估测;
5.2,准确性较低:很多机场周边植被茂盛,这种地方经常会出现只能听到鸟叫声,但是看不到鸟的情况,这种情况下是很难找到鸟的,因此加大了鸟类定位的难度。


技术实现要素:

6.本发明的目的在于解决上述现有技术中存在的难题,提供一种基于音频与视频信号的鸟类定位方法,提高鸟类定位的效率与准确率,且降低了工作人员的劳动强度。
7.本发明是通过以下技术方案实现的:
8.本发明提供了一种基于音频与视频信号的鸟类定位方法,所述方法包括:
9.步骤s1,采集视频信号和音频信号;
10.步骤s2,视频定位:利用视频信号获得视频定位结果;
11.步骤s3,音频定位:利用音频信号获得音频定位结果。
12.步骤s4,信息融合:融合视频定位结果与音频定位结果,获得鸟类目标与观测者之间的距离。
13.本发明的进一步改进在于:
14.所述步骤s1的操作包括:利用双目摄像头采集视频信号,同时利用麦克风阵列模块采集音频信号。
15.本发明的进一步改进在于:
16.所述步骤s2的操作包括:
17.s2-1:对视频信号进行检测,判断是否检测到鸟类目标,如果是,则获得鸟类目标检测框,然后转入步骤s2-2,如果否,则转入步骤s2-3;
18.s2-2:获取鸟类目标检测框中的鸟类目标与双目摄像头之间的距离,将该距离作为视频有效距离,即视频定位结果,然后转入步骤s2-4;
19.s2-3:输出-1,表示结果无效;
20.s2-4:结束。
21.本发明的进一步改进在于:
22.所述步骤s3的操作包括:
23.所述步骤s2-1中是采用基于深度学习的目标检测算法对视频信号进行检测;
24.所述步骤s2-2中是采用双目测距算法获得鸟类目标检测框中的鸟类目标与双目摄像头之间的距离。
25.本发明的进一步改进在于:
26.s3-1:获得声源与麦克风阵列模块之间的距离;
27.s3-2:判断音频信号是否是鸟叫声,如果是,则转入步骤s3-3,如果否,则转入步骤s3-4;
28.s3-3:将步骤s3-1获得的声源与麦克风阵列模块之间的距离作为音频有效距离,即音频定位结果,然后转入步骤s3-5;
29.s3-4:输出-1,表示结果无效;
30.s3-5:结束。
31.本发明的进一步改进在于:
32.所述步骤s3-1中是利用音频定位算法获得声源与麦克风阵列模块之间的距离;
33.所述步骤s3-2中是利用nlp相关算法判断音频信号是否是鸟叫声。
34.本发明的进一步改进在于:
35.所述步骤s4的操作包括:
36.s4-1:对连续的n帧图像分别进行视频定位,然后计算获得视频有效距离的均值m1、方差v1;如果视频有效距离的数量n1大于n/2,且方差v1小于设定的阈值,则判定m1、v1有效,否则判定m1、v1无效;
37.s4-2:对连续的n段音频分别进行音频定位,然后计算获得音频有效距离的均值m2、方差v2;如果音频有效距离的个数n2大于n/2,且方差v2小于阈值,则判定m2、v2有效,否则判定m2、v2无效。
38.s4-3:融合视频定位结果与音频定位结果,获得鸟类目标与观测者之间的距离。
39.本发明的进一步改进在于:
40.所述步骤s4-3的操作包括:
41.如果m1、m2均无效,则输出-1,表示没有检测到鸟类目标;
42.如果m1有效,m2无效,则输出m1,即鸟类目标与观测者之间的距离为m1;
43.如果m1无效,m2有效,则输出m2,即鸟类目标与观测者之间的距离为m2;
44.如果m1、m2均有效,则利用下式进行计算获得鸟类目标与观测者之间的距离d:
[0045][0046]
与现有技术相比,本发明的有益效果是:
[0047]
1、本发明通过将视频信号和音频信号进行融合获得鸟类的位置;
[0048]
2、本发明在进行视频定位时先采用目标检测算法检测出视频中的鸟类位置,避免了全图搜索,极大降低了计算量;
[0049]
3、本发明分别采用音频信号与视频信号进行独立定位,当缺失某一个信号时也能
成功完成定位;
[0050]
4、相对于人工方法,本发明提高了鸟类定位的效率与准确率,且降低了工作人员的劳动强度。
附图说明
[0051]
图1本发明基于音频与视频信号的鸟类定位方法的步骤框图;
[0052]
图2本发明基于音频与视频信号的鸟类定位方法中的视频定位的步骤框图;
[0053]
图3本发明基于音频与视频信号的鸟类定位方法中的音频定位的步骤框图;
[0054]
图4本发明基于音频与视频信号的鸟类定位方法中的信息融合的步骤框图。
具体实施方式
[0055]
下面结合附图对本发明作进一步详细描述:
[0056]
如图1所示,本发明提供了一种基于音频与视频信号的鸟类定位方法,该方法的主要功能如下:
[0057]
1.能够看到鸟,且听到鸟叫时:采用双目定位算法与音频定位算法分别算出鸟类位置,然后融合两种信息得到最终的结果;
[0058]
2.能看到鸟类,但是听不到鸟叫时:此时一般鸟类距离较远,无法获得清晰的鸟类音频信号,此时只采用双目视觉定位的方法,计算出鸟类的位置;
[0059]
3.能听到鸟叫,但是看不到鸟时:此时一般鸟类被树林遮挡,无法定位,此时采用音频定位的方法完成鸟类定位;
[0060]
本发明方法的实施例如下:
[0061]
【实施例一】
[0062]
所述方法包括:
[0063]
步骤s1,采集视频信号和音频信号:
[0064]
利用双目摄像头采集视频信号,同时利用麦克风阵列模块采集音频信号。双目摄像头包括两个摄像头,麦克风阵列模块包括多个排成阵列的麦克风。双目摄像头、麦克风阵列模块均为现有的成熟产品,在此不再赘述。
[0065]
步骤s2,视频定位:利用视频信号获得视频定位结果。
[0066]
如图2所示,步骤s2具体包括:
[0067]
s2-1:采用基于深度学习的目标检测算法对视频信号进行检测,判断是否检测到鸟类目标,如果是,则获得鸟类目标检测框(如果有鸟类目标,则目标检测算法的检测结果为鸟类目标检测框),然后转入步骤s2-2,如果否,则转入步骤s2-3。
[0068]
所述基于深度学习的目标检测算法是现有成熟算法,例如采用yolo,rcnn,ssd,retinanet等均可,在此不再赘述。
[0069]
s2-2:获取鸟类目标检测框中的鸟类目标与双目摄像头之间的距离,将该距离作为视频有效距离,即视频定位结果,然后转入步骤s2-4:
[0070]
采用双目测距算法获得鸟类目标检测框中的鸟类目标与双目摄像头之间的距离,这样可以极大的减少搜索目标的计算量。双目测距算法可以参考https://blog.csdn.net/u013832707/article/details/53781810。通常的双目测距算法需要先找到点p在两个相机
上的成像点p,p’的位置,一般是通过全图搜索匹配点来完成的,但是本发明中检测的只是鸟,因此可以先检测出鸟类在两个摄像头中的位置,获取鸟类目标检测框,然后只匹配两个检测框内的像素即可。一般来说一张图像的像素为1920*1080,而一张鸟的像素大概100*100,如果整张图参与计算则1920*1080个像素都需要参与计算,但是本发明只需要100*100个像素参与计算,因此,本发明减少了很多计算量,进而大大提升了计算速度。
[0071]
s2-3:输出-1,表示结果无效;
[0072]
s2-4:结束。
[0073]
步骤s3,音频定位:利用音频信号获得音频定位结果。
[0074]
如图3所示,步骤s3具体包括:
[0075]
s3-1:利用音频定位算法获得声源与麦克风阵列模块之间的距离。音频定位算法是现有算法,例如gcc-phat、srp-phat等均可采用。
[0076]
s3-2:判断音频信号是否是鸟叫声,如果是,则转入步骤s3-3,如果否,则转入步骤s3-4;
[0077]
步骤s3-2中,利用nlp相关算法判断音频信号是否是鸟叫声。nlp相关算法是现有算法,例如efficientnet等均可采用。
[0078]
s3-3:将步骤s3-1获得的声源与麦克风阵列模块之间的距离作为音频有效距离,即音频定位结果,然后转入步骤s3-5。
[0079]
s3-4:输出-1,表示结果无效;
[0080]
s3-5:结束。
[0081]
步骤s4,信息融合:融合视频定位结果与音频定位结果,获得鸟类目标与观测者之间的距离。
[0082]
如图4所示,步骤s4具体包括:
[0083]
s4-1:采用步骤s2的方法对连续的n帧图像分别进行视频定位,然后计算获得视频有效距离的均值m1、方差v1(采用现有的计算均值、方差的公式计算即可,在此不再赘述。方差越小,可信度越高),如果视频有效距离的数量n1大于n/2,且方差v1小于设定的阈值,则判定m1、v1有效,否则判定m1、v1无效;
[0084]
s4-2:采用步骤s3的方法对连续的n段音频分别进行音频定位,然后计算获得音频有效距离的均值m2、方差v2(采用现有的计算均值、方差的公式计算即可,在此不再赘述。方差越小,可信度越高)。如果音频有效距离的个数n2大于n/2,且方差v2小于阈值,则判定m2、v2有效,否则判定m2、v2无效。
[0085]
实际采集时,视频信号采集与音频信号采集的时间均比较短,都是毫秒级别的,交替采集视频信号与音频信号即可。
[0086]
s4-3:融合视频定位结果与音频定位结果,获得鸟类目标与观测者之间的距离:
[0087]
如果m1、m2均无效(对应既看不到鸟,又听不到鸟叫的情况),则输出-1,表示没有检测到鸟类目标;
[0088]
如果m1有效,m2无效(对应能看到鸟,但听不到鸟叫的情况),则输出m1,即鸟类目标与观测者之间的距离为m1;
[0089]
如果m1无效,m2有效(对应不能看到鸟,但听到鸟叫的情况),则输出m2,即鸟类目标与观测者之间的距离为m2;
[0090]
如果m1、m2均有效(对应能看到鸟,且听到鸟叫的情况),则利用下式进行计算获得鸟类目标与观测者之间的距离d:
[0091][0092]
为了方便,实际使用本发明方法时,可以在监测点设置监测架或者利用现有的一些树木、支架等,在监测架(或树木、支架)的上端设置球机摄像机和麦克风阵列模块,球机摄像机采用双目摄像头,球机摄像机、麦克风阵列模块的安装方式可以采用现有的多种安装方式,保证双目摄像头能够采集鸟类视频、麦克风阵列模块能够采集鸟类音频即可。
[0093]
双目摄像头负责采集鸟类视频,麦克风阵列模块负责采集鸟类音频,同时,通过有线网络或者无线网络将双目摄像头和麦克风阵列模块采集到的信号传输到工作人员的工作室内的计算机上,在计算机上进行上述步骤2、3、4的运算,步骤2获得的是鸟类目标与双目摄像头之间的距离,步骤3获得的是鸟类目标与麦克风阵列模块之间的距离,由于双目摄像头和麦克风阵列模块位于同一个位置处,因此将两种距离均作为鸟类目标与观测者之间的距离,并经过步骤2、3、4的运算后获得了最终的鸟类目标与观测者之间的距离。如果需要采集多个监测点的信号,则在每个监测点均进行上述设置即可,每个监测点均将信号发送给计算机,计算机经过计算获得每个监测点的鸟类定位信息。这样,工作人员在计算机上即可看到监测点处的鸟类定位信息。
[0094]
本发明结合视频处理与音频定位技术完成鸟类定位,将视频定位信息与音频定位信息进行融合,并采用目标检测减少双目视觉算法复杂度,通过基于nlp算法与音频定位相结合的方法来实现鸟类目标的定位。
[0095]
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0096]
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施例所描述的技术方案,因此前面描述的只是优选的,而并不具有限制性的意义。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1