本发明涉及计算机视觉与音频信号处理,尤其涉及一种基于音视频特征联合判断的打架识别方法。
背景技术:
1、在公共场所,如商场、学校、街道等,打架行为时有发生,及时识别并制止打架行为对于维护社会秩序和保障人身安全至关重要。现有对打架识别,依赖于视频图像中的特征分析,包括人体姿态、运动轨迹等。
2、但是现有在识别打架斗殴时,在复杂环境中易受光照、遮挡、视角变化的因素影响,会导致识别精度下降,且准确捕捉到打架斗殴时的音频特征,无法全面反映事件的全貌,误报率较高。
技术实现思路
1、本发明的目的在于提供一种基于音视频特征联合判断的打架识别方法,旨在解决现有技术中的在识别打架斗殴时,在复杂环境中易受光照、遮挡、视角变化的因素影响,会导致识别精度下降,且准确捕捉到打架斗殴时的音频特征,无法全面反映事件的全貌,误报率较高的技术问题。
2、为实现上述目的,本发明采用的一种基于音视频特征联合判断的打架识别方法,包括如下步骤:
3、通过音频处理对监控环境中的声音进行实时分析,判断是否存在打架斗殴时发出的嘈杂异响;
4、进行异常声音检测;
5、在检测到嘈杂异响,抓取当前摄像头画面,并应用人体检测与姿态识别算法对画面中的多人进行识别;
6、将音频和视频特征联合进行判断。
7、其中,在通过音频处理对监控环境中的声音进行实时分析,判断是否存在打架斗殴时发出的嘈杂异响的步骤中:
8、提取音频信号的特定特征,并对原始音频信号进行去噪和平滑处理,特定特征包括频率、音量、持续时间;
9、对处理后的信号进行傅里叶变换以得到频谱,计算频谱的能量分布,选择出能量集中的频率范围;
10、通过计算信号的均方根值得到音量;
11、根据设定的能量阈值,找到信号能量超过该阈值的起始和结束时间,得到持续时间;
12、比较特征是否满足预设的打架斗殴音频特征最低阈值,判断是否存在嘈杂异响。
13、其中,在进行异常声音检测的步骤中:
14、在音频中识别突然出现尖叫声、撞击声和打斗声的异常声音,作为打架事件的初步判断依据;
15、对音频信号进行短时傅里叶变换,将音频划分为多个短时片段,将短时片段称为帧,并对每个帧执行傅里叶变换,以计算其频谱信息,提取每帧的功率谱,用于表示信号在不同频率上的能量分布,应用梅尔滤波器组,对频率进行非线性变换,并对每个滤波器输出取对数,生成最终的对数梅尔频谱图;
16、使用高斯混合模型实现对数梅尔频谱数据训练并通过分析正常声音的异常分数分布,确定一个合适的阈值;
17、当得到实时对数梅尔频谱图数据,计算对数梅尔频谱的异常分数,使用阈值来判定新的音频样本是否为异常音。
18、其中,在检测到嘈杂异响,抓取当前摄像头画面,并应用人体检测与姿态识别算法对画面中的多人进行识别的步骤中:
19、通过视频处理技术,保持至少每秒5帧的频率,全图采集摄像头实时画面,并对图像进行预处理以提高后续处理的精度;
20、通过图像去噪来提高图像的质量,采用旋转来减少后续处理可能的误差;
21、基于自主训练的深度学习模型;
22、采用网络公开数据集与现场真实场景数据集混合训练,得到最优模型,并用以检测画面中的人员并持续跟踪其运动轨迹,对每个人的行为进行实时监控;
23、收集打架斗殴相关的网络公开数据集与现场真实场景数据集,使用人员检测进行初步筛选,使用iou计算过滤人员坐标无交集数据,针对剩余数据集进行相关自主标注训练以得到深度学习模型,用以检测画面中多名人员的攻击性肢体接触行为;
24、当检测到攻击性肢体接触,系统对攻击行为进行计数,并根据设置的次数阈值判定已记录的攻击行为次数是否达到了规定的阈值要求,若超过规定次数则判定为打架事件。
25、其中,在基于自主训练的深度学习模型的步骤中:
26、深度学习模型包含输入段、主干网络、颈部网络和检测头,其内由多个卷积神经网络层组成。
27、其中,在采用网络公开数据集与现场真实场景数据集混合训练的步骤中:
28、数据集总量超过十万张,训练时采用子集训练的方式由少到多逐步扩大得到阶段性的模型,在训练过程中针对阶段模型展现的问题不断调整后续训练,从而得到最优模型。
29、其中,在收集打架斗殴相关的网络公开数据集与现场真实场景数据集,使用人员检测进行初步筛选,使用iou计算过滤人员坐标无交集数据,针对剩余数据集进行相关自主标注训练以得到深度学习模型,用以检测画面中多名人员的攻击性肢体接触行为的步骤中:
30、深度学习模型包含输入段、主干网络、颈部网络和检测头,其内由多个卷积神经网络层组成,训练时采用子集训练的方式由少到多逐步扩大得到阶段性的模型,在训练过程中针对阶段模型展现的问题不断调整后续训练,从而得到最优模型。
31、其中,在将音频和视频特征联合进行判断的步骤中:
32、通过结合音频特征中的嘈杂异响和视频特征中的攻击性肢体接触,全面捕捉打架事件的相关信息;
33、通过对音频、视频数据流单元分别添加统一的时间信息,使音频和视频数据在时间上对应一致;
34、将采集音频与图像数据交由算法模型处理,在汇合音频、图像识别结果时对齐时间信息,将时间信息一致的音频、图像结果进行and逻辑计算得出最终判定结果。
35、其中,在将采集音频与图像数据交由算法模型处理,在汇合音频、图像识别结果时对齐时间信息,将时间信息一致的音频、图像结果进行and逻辑计算得出最终判定结果的步骤中:
36、音频特征提供了打架斗殴的直接证据,而视频特征则提供了多人之间攻击性肢体接触的直观展示。
37、本发明的一种基于音视频特征联合判断的打架识别方法,首先通过音频处理对监控环境中的声音进行实时分析,判断是否存在打架斗殴时发出的嘈杂异响,并进行异常声音检测,在检测到嘈杂异响,抓取当前摄像头画面,并应用人体检测与姿态识别算法对画面中的多人进行识别,之后将音频和视频特征联合进行判断,通过上述方式,结合音频与视频特征进行联合判断,能够更全面地捕捉打架事件的相关信息。音频特征提供了嘈杂异响的直接证据,而视频特征则提供了攻击性肢体接触的直观展示,另外对多人之间连续的攻击性肢体接触检测,实现了能够提高打架识别的精度,能全面反映事件的全貌,降低了误报率。
1.一种基于音视频特征联合判断的打架识别方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于音视频特征联合判断的打架识别方法,其特征在于,在通过音频处理对监控环境中的声音进行实时分析,判断是否存在打架斗殴时发出的嘈杂异响的步骤中:
3.如权利要求1所述的基于音视频特征联合判断的打架识别方法,其特征在于,在进行异常声音检测的步骤中:
4.如权利要求1所述的基于音视频特征联合判断的打架识别方法,其特征在于,在检测到嘈杂异响,抓取当前摄像头画面,并应用人体检测与姿态识别算法对画面中的多人进行识别的步骤中:
5.如权利要求4所述的基于音视频特征联合判断的打架识别方法,其特征在于,在基于自主训练的深度学习模型的步骤中:
6.如权利要求5所述的基于音视频特征联合判断的打架识别方法,其特征在于,在采用网络公开数据集与现场真实场景数据集混合训练的步骤中:
7.如权利要求6所述的基于音视频特征联合判断的打架识别方法,其特征在于,在收集打架斗殴相关的网络公开数据集与现场真实场景数据集,使用人员检测进行初步筛选,使用iou计算过滤人员坐标无交集数据,针对剩余数据集进行相关自主标注训练以得到深度学习模型,用以检测画面中多名人员的攻击性肢体接触行为的步骤中:
8.如权利要求1所述的基于音视频特征联合判断的打架识别方法,其特征在于,在将音频和视频特征联合进行判断的步骤中:
9.如权利要求8所述的基于音视频特征联合判断的打架识别方法,其特征在于,在将采集音频与图像数据交由算法模型处理,在汇合音频、图像识别结果时对齐时间信息,将时间信息一致的音频、图像结果进行and逻辑计算得出最终判定结果的步骤中: