基于AI训练的危险词声源定位摄像头监控系统的制作方法

文档序号:37439887发布日期:2024-03-28 18:23阅读:11来源:国知局
基于AI训练的危险词声源定位摄像头监控系统的制作方法

本发明涉及视频监控,具体涉及基于ai训练的危险词声源定位摄像头监控系统。


背景技术:

1、ai是人工智能的简称,指的是由人制造出来的具有一定智能的系统。ai通常包括感知、推理、学习和决策等能力,可以模拟人类的思维和行为。近年来,随着计算机科学、神经科学、心理学等领域的不断发展,ai取得了显著的进步。人工智能的应用领域非常广泛,例如语音识别、自然语言处理、机器翻译、智能推荐、自动驾驶、医疗诊断、金融风控等。目前,ai已经取得了良好的发展,并在某些领域表现出超过人类的水平。然而,ai仍然存在一些挑战和问题,如数据隐私、算法偏见、人类道德等问题。未来,随着技术的不断进步和社会的不断发展,ai将会在更多领域发挥重要作用,为人类带来更多的机遇和挑战。

2、视频监控是通过安装在特定区域摄像头来实时获取该区域的视频信息,并将其传输到监控中心,以便进行实时监控和分析。视频监控广泛应用于安全监控、交通监控、企业监控等领域,以提高安全、提高效率和减少犯罪率为目标。视频监控系统通常包括摄像头、视频传输设备、监控软件等部分组成。摄像头通过传感器捕捉图像和视频信息,通过视频传输设备传输视频信息到监控中心,监控软件则对视频信息进行处理和分析,以便实现实时监控和视频报警等功能。随着人工智能和大数据技术的发展,视频监控系统已经越来越智能化和自动化。

3、现有的监控系统基本上是对监控区域进行无差别监控,造成人为筛选难度大,监控能力差,无法实现智能监控。


技术实现思路

1、为解决上述技术问题,本发明提供基于ai训练的危险词声源定位摄像头监控系统用于对监控环境进行关键词识别,并进行跟踪监控,所述的基于ai训练的危险词声源定位摄像头监控系统包括:

2、音频获取模块,覆盖监控区域,音频获取模块用于获取监控区域内的音频并进行存储。所述的音频获取模块可以识别声源方向,所述的音频获取模块可以是麦克风、录音器、音频采集卡等,具体在此不做赘述。所述的音频获取模块设置一个或者多个,设置多个时,可以阵列式的设置在监控区域内,可以对监控区域进行全面的音频采集覆盖,由于音频的传播范围广,可以通过实际的监控需要对音频获取模块的安装密度进行调整。

3、视频获取模块,用于追踪获取监控区域内的监控视频。所述的视频获取模块可以是一个摄像头或者是摄像头阵列,具体的可以根据监控区域的面积和摄像头的覆盖面积而定,如果监控区域的面积小于或者等于摄像头的覆盖面积,则需要一个摄像头即可。如果监控区域的面积大于摄像头的覆盖面积,则需要多个摄像头组合对监控区域进行覆盖铺设。对于视频监控覆盖,视频获取模块可以是拍摄画面全面覆盖,还可以是通过角度调节转动角度实现360全方位监控的摄像头,这种监控设备和监控方式可以提高监控范围和监控质量,具体在此不做赘述。在需要多个摄像头进行组合铺设时,所述的摄像头阵列可以按照拍摄密度进行设定,可以通过人工经验进行安装,还可以通过各个安装点的重要程度进行安装,具体在此不做赘述。

4、坐标系构建模块,用于构建一个坐标系,并覆盖整个监控区域,确定音频获取模块和视频获取模块坐标。所述的坐标系可以是空间坐标系,也可以是平面坐标系,具体何种坐标系可以根据监控需求而定,一般可以根据安装经验设计,具体在此不做赘述。

5、坐标确定模块,用于对音频进行提取,并判断音频中是否存在危险词,如果否,则判定为非危险词汇,如果是,则判定为危险词汇,然后对危险词汇进行定位获得危险词声源坐标。

6、视频调节模块,用于调控视频获取模块对危险词声源坐标进行跟踪监控。具体的视频调节模块选取方法可以包括:以危险词声源坐标为中心获得距离最近的视频获取模块作为选用视频调节模块,如果同一个视频调节模块被多个危险词声源坐标选用,则对监控危险值最大值的危险词声源坐标进行监控。

7、优选的:所述的音频获取模块的安装密度可以根据设备的监控功能进行设置,对于一种音频获取模块的安装间距可以固定设置,当然还可以根据计算获得。所述的音频获取模块的安装密度其中μ为环境干扰因子,具体可以根据实际使用环境的干扰程度,具体与使用环境有关,例如在噪音多、建筑复杂环境μ的数值就较大,在空旷无噪音的环境中μ=1,其他的环境在此不做赘述。r为音频获取模块的有效获取半径。

8、优选的:音频获取模块的有效获取半径r具体的可以根据音频获取模块的设备参数而定,如果设备参数没有给出,还可以通过实验获得。实验获得的具体步骤可以将所述的音频获取模块安装在空旷的环境中,然后从近到远按照一个预设标准词汇集进行音频输出,具体的可以根据一个预设的间距设置输出点,且每个输出点将所述的预设标准词汇集输出一遍,通过所述的音频获取模块对输出的预设标准词汇集进行识别,获得音频识别集,并对音频识别集进行编号i。所述的音频识别集编号与输出点编号一致,对获得的音频识别集与预设标准词汇集进行扫描,然后计算音频识别集与预设标准词汇集的重合度ci,其中,i为输出点或音频识别集编号,将两个词汇集进行对比为现有技术,具体内容在此不做赘述。判断重合度ci是否大于一个预设的标准重合度c标,如果是,则进行下一个输出点移动测试,如果否,则将i-1编号的输出点作为有效输出点,然后计算获得有效获取半径r=r0+(i-2)δr,其中r0为首次输出半径,即为第一个实验输出点与音频获取模块之间的距离,一般的首个输出半径较大,这样就可以大大的减少输出点个数和实验的次数。r0可以根据设备能力和经验获得,一般为10-50m,具体在此不做赘述。δr为各个输出点之间的距离,此方法要求各个输出点之间的距离相同。

9、优选的:为了使有效获取半径更加准确,还可以将输出点的间距随着距离增加而逐渐减小,具体的可以为δri为编号i输出点到编号i+1输出点之间的距离,其中r为标准间距,可以是一个固定值,一般为0.5-5m,ɑ为间距调节系数,可以根据设备能力设定,一般为1,具体在此不做赘述。计算获得有效获取半径其中n为有效输出点个数。当然音频获取模块的安装密度或者安装方式还可以有其他方法,具体在此不做赘述。

10、优选的:坐标系是空间坐标系或者平面坐标系可以通过计算获得,具体的可以计算获得监控高度比例其中h为视频获取模块的安装高度,h为监控目标经验高度,对于本技术可以是人的平均身高,可以取值1.7-1.8m。当然也可以是其他值,具体在此不做赘述。判断监控高度比例p是否大于一个预设比例标准p标,如果是,所述的坐标系可以设置为平面坐标系,如果否,则可以设置为空间坐标系。所述的比例标准p标可以根据实际监控情况而定,一般为3-6。获得音频获取模块和视频获取模块坐标的方法有多种,具体的可以将音频获取模块和视频获取模块上安装为定位元件,通过定位元件植入到坐标系中,从而获得各个音频获取模块和视频获取模块在坐标系中的坐标,当然还可以通过人工计算获得后人工植入,具体内容在此不做赘述。

11、优选的:所述的危险词的判定方法可以包括:

12、1、音频预处理,音频预处理主要是将语音信息凸显出来,从而更方便识别和提取。所述的音频预处理包括:对音频进行频率分析,并将音频中的不属于一个预设监控音频频段的音频段去除掉,从而获得分析段音频。所述的预设监控音频频段可以通过监控对象进行设计,本技术主要监控对象是人,所以预设监控音频频段可以是60hz-1.2khz,当然还可以根据人群分类进行分类监控,具体在此不做赘述;然后通过的滤波器对分析段音频进行处理去除掉噪音获得去噪音频,该滤波器能够有效地去除音频信号中的噪声。常用的滤波器设计方法包括低通滤波器、高通滤波器、带通滤波器、带阻滤波器等,具体在此不做赘述。

13、2、音频特征提取:将去噪音频进行编号处理,获得音频帧信号,并通过音频帧信号组合获得词组音频信号,将音频帧信号组合获得词组音频信号这个过程也是基于ai训练获得,为现有技术,具体在此不做赘述。具体的可以将音频信号看作是一个时-空信号,通过音频信号这个时-空特征,可以很轻松的将每个信号帧分离开来,具体在此不做赘述,每个音频帧都是一个特征,从而可以得到各个音频帧信号,并将这些音频帧信号按照时间顺序编号从而获得音频帧信号。特征提取方法有多种,可以包括fft、mfcc、ce、wp等。

14、3、关键词对比:将当前获得词组音频信号向前一个预设的编号数量n-1内的组成的音频帧信号构成对比音频帧集,并将对比音频帧集中的词组音频信号与一个预先的危险词库进行对比,获得危险词及危险的危险权重wj,其中,j是词组音频信号在对比音频帧集中的编号,所述的危险词库可以根据应用场景进行预先的人为设计,没有不是危险词的危险权重为0,也可以是不是危险词库内的词库每个音频帧信号可以不进行组词,具体在此不做赘述。例如,在对一个办公楼进行监控时,我们可以把一些关于该办公区域的商业秘密内容设计成危险词库,还可以将危险动作词汇设计为危险词库,所述的危险词库包括危险词的内容以及其危险权重。比如:{....偷盗-3;翻墙-2;....},具体在此不做赘述。

15、4、计算获得监控危险值a。

16、5、判断监控危险值a是否大于一个预先设置的危险标准值a标,如果是,则判定为危险词汇,如果否,则判定为非危险词汇。所述的危险词声源坐标获得方法包括:提取获得危险词汇的音频获取模块坐标并构建分析音频集,提取其检测获得危险词汇的音量,获得音频获取模块指向声源的方向向量,并从分析音频集中任意选择两个音频获取模块计算分析参考值,所述的分析参考值为两个音频获取模块对应的危险词汇的音量之积除以向量之积,并将分析参考值的最大值对应的两个音频获取模块作为计算坐标,然后将过两个音频获取模块坐标的向量交叉点作为危险词声源坐标,具体计算在此不做举例。通过考量危险词汇的音量之积和向量之积,危险词汇的音量可以选择出相对较近的音频获取模块,从而可以减少距离上的计算误差,通过向量之积可以考量音频获取模块相对声源的夹角,以此可以最大限度的选择夹角较大的向量,综合考量两个参考量,可以使危险词声源坐标定位更加准确。当然危险词声源坐标还有其他的获得方法,例如,基于图像的声源定位方法:该方法通过识别声源在图像中的位置来确定声源坐标。这种方法适用于在平滑图像上进行定位的方法。基于声音特征的声源定位方法:该方法通过分析声音特征来确定声源坐标。这种方法包括对声音信号进行频谱分析、对时间域信号进行谱聚类等。基于深度学习的声源定位方法:该方法通过学习声源和语音数据之间的映射关系来确定声源坐标。这种方法适用于在复杂环境中进行定位的方法。

17、优选的:所述的监控危险值a获得方法包括,先计算当前危险值然后计算监控危险值其中,m为非重合且连续的对比音频帧集的编号,可以将当前的对比音频帧集为m总数,之前的一个编号数量n的音频帧信号构成的对比音频帧集编号为m-1,当前的对比音频帧集编号总数m,以此进行类推,m-m为音频帧集距离长度。为累计危险值,主要表征是历史的危险词对监控危险的影响量,距离当前对比音频帧集距离越长,影响越小,能更好的表征危险值;β为历史影响系数,一般为0.5-1。具体在此不做赘述。

18、本发明的技术效果和优点:通过选用最近的视频获取模块可以保证监控的质量,并在多个危险词声源出现时,可以最大限度的对危险源进行选择,选择能力强。通过声源的危险词进行筛选,可以实现智能选取,并进行跟踪,监控能力强,避免了无用监控。通过累计危险和当前危险综合计算,可以持续评价,评价能力强。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1