基于轻量化双帧速率网络异常行为识别方法、装置和系统

文档序号:30509603发布日期:2022-06-25 01:30阅读:198来源:国知局
基于轻量化双帧速率网络异常行为识别方法、装置和系统

1.本发明涉及深度学习视频行为识别技术领域,具体地,涉及一种基于轻量化双帧速率网络的异常行为识别方法和装置。


背景技术:

2.过去ai必须依靠强大的云端计算能力进行数据分析与算法的运作。随着技术的成熟以及新应用的出现,芯片能力不断提升、边缘计算平台成熟,边缘计算产生原因主要还是云计算的服务不足。云计算大多采用集中式管理的方法,这使云服务创造出较高的经济效益,而在万物互联的背景下,应用服务需要低延时、高可靠性以及数据安全,而传统云计算无法满足这些需求。
3.随着边缘ai的发展,机器学习预测有一个明显的趋势,即向下移动到更接近用户、不需要网络连接并且可以实时解决复杂问题(例如异常行为检测)的嵌入式硬件。那么设计能够在边缘ai平台上运行的异常行为识别方法也是本发明需要解决的问题。
4.异常行为识别,是指从监控的视频流中识别出在高层语义理解中超出正常范围的人的行为活动,具体例如:行人在街道上正常行走、站立接打电话等等行为活动,这些行为活动都是正常范围的行为活动;若街道上两人或多人发生肢体冲突等打架行为、或推倒街道上的垃圾桶等等损坏公物行为,或偷窃街道上的汽车、摩托车等等偷窃行为,那么以上行为就被认为是超出正常范围的异常行为,此时需要发出告警信息以便片区管理人员及时制止违法违规行为;若行人正常行走,那么该行为就被认为是没有超出正常范围的正常行为,则无需告警。
5.目前,深度学习卷积神经网络在人体异常行为识别领域取得了较好的效果,例如,循环神经网络,双流网络和3d卷积神经网络。
6.基于循环神经网络的方法适用于骨架等简单的序列数据,有人研究了人体骨架的空间表达能力增强方法,将原始骨架关节三维坐标转移到人体坐标系后进行尺度变换,进而输入到改进的残差独立循环神经网络对人体骨架序列行为进行识别,在ntu rgb+d数据集上表现良好,但是提出的网络缺乏空间建模能力。
7.基于双流网络的方法通过对视频序列中每两帧计算密集光流,得到密集光流的序列;然后对视频图像和密集光流分别训练cnn模型,两个分支的网络分别对动作的类别进行判断;最后直接对两个网络的训练结果进行融合,得到最终的分类结果。有人提出了一种基于双流卷积神经网络的视频异常行为检测方法,该方法分别使用rgb图像与视频帧间的光流信息作为两个网络分支的输入来学习空间信息与时间信息,并使用长短时神经网络来建模长时视频帧间的依赖关系,从而得到最终的行为分类结果,在shanghai tech、ucsd ped1和pedestrian 2数据集上均取得了较好的识别效果,但是模型提取的时空特征是独立的,容易忽略其内在联系。
8.基于3d卷积神经网络的方法,由于可以直接从原始视频中提取空间和时间特征,显著提高了动作识别和检测领域的性能。有人在原始i3d的基础上对inception结构进行改
进,利用卷积核替换的原理将原始inception结构中的卷积核用两级卷积核进行替换。并且借鉴通道混合的思想,将通道混合策略融合到改进的i3d神经网络中,提出一种i3d-shufflenet的新型3d网络模型,虽然该模型速度较快但模型参数呈指数增长。


技术实现要素:

9.针对现有技术中的缺陷,本发明的目的是提供一种基于轻量化双帧速率网络异常行为识别方法、装置和系统。
10.根据本发明的第一个方面,提供一种基于轻量化双帧速率网络的异常行为识别方法,包括:
11.原始视频数据输入轻量化双帧速率卷积神经网络;
12.所述轻量化双帧速率卷积神经网络的低帧率分支网络捕获所述原始视频数据的空间语义信息;
13.所述轻量化双帧速率卷积神经网络的高帧率分支网络捕获所述原始视频数据的运动信息;
14.使用横向连接将所述低帧率分支网络和高帧率分支网络的各个阶段进行特征融合;
15.所述低帧率分支网络和所述高帧率分支网络各自输出的特征向量进行合并,获得合并特征;
16.将所述合并特征输入分类器,得到异常行为识别分类结果。
17.优选地,所述低帧率分支网络按照间隔16帧的低帧率采样视频帧图像;
18.所述高帧率分支网络按照间隔2帧的高帧率采样视频帧图像。
19.优选地,所述低帧率分支网络,包括五层级联的广义卷积层,分别为:第一广义卷积层a1、第二广义卷积层a2、第三广义卷积层a3、第四广义卷积层a4和第五广义卷积层a5;
20.其中:
21.所述第一广义卷积层a1包括:1个3
×3×
3的卷积层和1个3
×3×
3的最大池化层;
22.所述第二广义卷积层a2依次包括:1个分支1和3个分支2;
23.所述第三广义卷积层a3依次包括:1个分支1和7个分支2;
24.所述第四广义卷积层a4依次包括:1个分支1和3个分支2;
25.所述第五广义卷积层a5依次包括:1个1
×1×
1的卷积层和1个8
×1×
1的平均池化层。
26.优选地,所述分支1划分为两个通路,其中:
27.第一个通路包括:1个步长为2的3
×3×
3的深度卷积层、2个批量归一化、1个1
×1×
1的卷积层和1个激活层;
28.第二个通路包括:2个1
×1×
1的卷积层、3个批量归一化、2个激活层、1个步长为2的3
×3×
3的深度卷积层和1个压缩激励模块;
29.所述压缩激励模块包括:1个自适应平均池化层、2个全连接层和2个激活层;
30.将所述两个通路输出的特征向量在通道维度上进行拼接,拼接后通过通道混洗操作后输出;
31.所述分支2通过通道分割操作划分成两个通路,即,将输入分支2的特征向量按照
通道数平均分成两部分,一个部分作为第一个通路的输入,另一个部分作为第二个通路的输入,其中:
32.第一个通路包括:恒等映射的快捷连接;
33.第二个通路包括:2个1
×1×
1的卷积层、3个批量归一化、2个激活层、1个步长为1的3
×3×
3的深度卷积层和1个压缩激励模块;
34.所述压缩激励模块包括:1个自适应平均池化层、2个全连接层和2个激活层;
35.将所述两个通路输出的特征向量在通道维度上进行拼接,拼接后通过通道混洗操作后输出。
36.优选地,所述高帧率分支网络包括五层级联的广义卷积层,分别为第一广义卷积层b1、第二广义卷积层b2、第三广义卷积层b3、第四广义卷积层b4和第五广义卷积层b5;
37.其中:
38.第一广义卷积层b1依次包括:1个3
×3×
3的卷积层和1个3
×3×
3的最大池化层;
39.第二广义卷积层b2依次包括:1个分支1和3个分支2;
40.第三广义卷积层b3依次包括:1个分支1和7个分支2;
41.第四广义卷积层b4依次包括:1个分支1个3个分支2;
42.第五广义卷积层b5依次包括:1个1
×1×
1的卷积层和1个8
×1×
1的平均池化层。
43.优选地,所述分支1划分为两个通路,其中:
44.第一个通路包括:1个步长为2的3
×3×
3的深度卷积层、2个批量归一化、1个1
×1×
1的卷积层和1个激活层;
45.第二个通路包括:2个1
×1×
1的卷积层、3个批量归一化、2个激活层、1个步长为2的3
×3×
3的深度卷积层和1个压缩激励模块;
46.所述压缩激励模块包括:1个自适应平均池化层、2个全连接层和2个激活层;
47.将所述两个通路输出的特征向量在通道维度上进行拼接,拼接后通过通道混洗操作后输出;
48.所述分支2通过通道分割操作划分成两个通路,即,将输入分支2的特征向量按照通道数平均分成两部分,一个部分作为第一个通路的输入,另一个部分作为第二个通路的输入,其中:
49.第一个通路包括:恒等映射的快捷连接;
50.第二个通路包括:2个1
×1×
1的卷积层、3个批量归一化、2个激活层、1个步长为1的3
×3×
3的深度卷积层和1个压缩激励模块;
51.所述压缩激励模块包括:1个自适应平均池化层、2个全连接层和2个激活层;
52.将所述两个通路输出的特征向量在通道维度上进行拼接,拼接后通过通道混洗操作后输出。
53.优选地,所述横向连接包括四个卷积层,分别为第一卷积层c1、第二卷积层c2、第三卷积层c3和第四卷积层c4,其中:
54.第一卷积层c1包括:1个步长为4的5
×1×
1的卷积层;
55.第二卷积层c2包括:1个步长为4的5
×1×
1的卷积层;
56.第三卷积层c3包括:1个步长为4的5
×1×
1的卷积层;
57.第四卷积层c4包括:1个步长为4的5
×1×
1的卷积层;
58.在融合之前匹配特征的大小,包括:
59.低帧率分支网络的特征尺寸为{t,s2,c},
60.高帧率分支网络的特征尺寸为{αt,s2,βc},
61.t表示时间长度,s2表示特征图的高度和宽度,α表示高帧率分支网络采样密度和低帧率分支网络采样密度之比,β表示高帧率分支网络的通道数和低帧率分支网络的通道数之比,c表示通道数;
62.将高帧率分支网络的特征进行3d卷积,输出通道数为2βc,步长为α;
63.所述高帧率分支网络的输出结果通过拼接融合到低帧率分支网络,包括:
64.第一广义卷积层b1的输出作为第一卷积层c1的输入,第一卷积层c1的输出和第一广义卷积层a1的输出融合后作为第二广义卷积层a2的输入;
65.第二广义卷积层b2的输出作为第二卷积层c2的输入,第二卷积层c2的输出和第二广义卷积层a2的输出融合后作为第三广义卷积层a3的输入;
66.第三广义卷积层b3的输出作为第三卷积层c3的输入,第三卷积层c3的输出和第三广义卷积层a3的输出融合后作为第四广义卷积层a4的输入;
67.第四广义卷积层b4的输出作为第四卷积层c4的输入,第四卷积层c4的输出和第四广义卷积层a4的输出融合后作为第五广义卷积层a5的输入。
68.优选地,所述将两个分支网络最终输出的特征向量进行合并作为分类器的输入,得到异常行为识别分类结果,包括:
69.两个分支网络在经过卷积运算后,将最终输出的包含特征参数的向量串联后输入全连接层;
70.所述全连接层将计算后的特征向量输入sigmoid回归层进行回归计算,得到分类结果。
71.根据本发明的第二个方面,提供一种基于轻量化双帧速率网络的异常行为识别装置,包括:
72.提取视频设备,所述提取视频设备获取视频;
73.处理器,所述处理器根据所述视频进行加载处理,得到异常行为识别结果;
74.存储器,所述存储器内存储所述处理器执行的轻量化双帧速率网络模型,所述存储器机器可读指令被所述处理器执行时执行权利要求1-8任一项所述的方法。
75.根据本发明的第三个方面,提供一种基于轻量化双帧速率网络的异常行为识别系统,包括:
76.低帧率分支网络,所述低帧率分支网络捕获原始视频数据的空间语义信息;
77.高帧率分支网络,所述高帧率分支网络捕获所述原始视频数据的运动信息;
78.横向连接,所述横向连接将所述低帧率分支网络和高帧率分支网络进行特征融合;
79.合并网络,所述合并网络合并所述低帧率分支网络和所述高帧率分支网络各自输出的特征向量获得合并特征;
80.分类网络,所述合并特征输入所述分类网络得到异常行为识别分类结果。
81.与现有技术相比,本发明具有如下的有益效果:
82.本发明实施例提供的一种基于轻量化双帧速率网络的异常行为识别方法,其中,
轻量化双帧速率网络识别模型包含低帧率分支网络、高帧率分支网络和横向连接,低帧率分支网络使用一个较大的时间跨度,即每秒提取的帧数,例如按照间隔16帧的速率提取图像帧,目的在于捕获稀疏帧提供的空间语义信息,高帧率分支网络使用一个较小的时间跨度,例如按照间隔2帧的速率提取图像帧,目的在于捕获快速变化的时间语义信息,通过横向连接,融合低帧率分支网络和高帧率分支网络的特征;
83.此外,两分支网络采用轻量化网络作为基础网络,在保持低帧率分支网络提取类别空间语义的能力以及高帧率分支网络提取时间语义信息的同时,大大提高了检测效率。
附图说明
84.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
85.下面结合附图对本发明的实施方式作进一步说明:
86.图1为本发明一实施例提供的基于轻量化双帧速率网络结构图;
87.图2为本发明一实施例提供的异常行为识别方法流程示意图;
88.图3为本发明一实施例提供的通道混洗操作示意图;
89.图4为本发明一实施例提供的轻量化双帧速率网络分支1的结构示意图;
90.图5为本发明一实施例提供的轻量化双帧速率网络分支2的结构示意图;
91.图6为本发明一实施例提供的基于轻量化双帧速率网络的异常行为识别方法处理视频过程图;
92.图7为本发明一实施例提供的电子装置的结构示意图。
具体实施方式
93.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
94.在介绍本技术一实施例提供的人体异常行为识别方法之前,先介绍该人体异常行为识别方法适用的应用场景,应用场景包括但不限于:通过公共场所摄像头拍摄的视频来识别人群中是否有异常行为。
95.如图1所示,为本技术一实施例提供的基于轻量化双帧速率网络结构图,该异常行为识别方法的主要思路包括:
96.从视频流中按照间隔16帧的采样速率采样图像帧作为低帧率分支网络的输入,按照间隔2帧的采样速率采样图像帧作为高帧率分支网络的输入,将高帧率分支网络各个阶段产生的特征与低帧率分支网络各个阶段的产生的特征融合,将低帧率分支网络最终的输出与高帧率分支网络最终的输出串联后预测分类结果,根据分类结果判断是否需要告警。
97.上述实施例,通过使用类两流的网络结构,不同于双流网络提取的时空特征是独立的特点,其提取的时空特征在提取的过程中会进行融合,克服了双流网络的缺点,采用轻量化3d卷积网络作为基础网络,从flops和内存访问的时间成本两方面出发来降低网络整体的计算量,克服采用3d网络模型计算量大的缺点,使其能够在边缘ai平台上使用。
98.如图2所示,为本发明提供的基于上述主要思路进一步优化的异常行为识别方法流程图,包括:
99.s11:获取监控视频样本数据集,对视频样本数据集进行标注,并进行预处理得到预处理视频数据集;
100.s12:对s11中的预处理视频数据划分为训练数据集和验证数据集;
101.s13:构建轻量化双帧速率卷积神经网络识别模型;
102.s14:利用s12中构建的训练数据集训练轻量化双帧速率卷积神经网络识别模型;
103.s15:获取监控视频数据,将其输入训练后的轻量化双帧速率卷积神经网络识别模型,得到异常行为识别分类结果。
104.本发明提供的一优选实施例中,s11获取监控视频样本数据集的实施方式有很多种,包括但不限于:
105.第一种获取方式,使用录像机、摄像机、或彩色照相机等采集设备对目标对象进行拍摄,获得视频样本数据集;然后采集设备发送视频样本数据集,电子设备接收采集设备发送的视频样本数据集;
106.第二种获得方式,从视频服务器的文件系统、数据库或者移动存储设备中获取视频样本数据集。
107.本发明提供的另一优选实施例中,s11和s12包括:选取当前已公开的犯罪视频数据集ucf-crime,从中选取三种类型(打架、偷窃、毁坏公物)的视频,对视频数据按照每秒1帧进行分帧预处理得到训练视频帧标记图像集,并对训练视频帧标记图像集中的每一训练视频帧图像中人体行为进行分类并赋予标签信息,其中训练集中包含8132个标签,验证集中包含2155个标签;
108.对视频数据按照每秒30帧进行分帧预处理共得到388357张图片,其中训练集有296350张图片,验证集有92007张图片。
109.为了能够克服双流网络中容易忽略特征其内在联系的缺点和克服采用3d网络模型计算量大的缺点,本发明提供一个优选实施例。s13中的构建轻量化双帧速率卷积神经网络识别模型,其网络结构如图1所示,包括低帧率分支网络、高帧率分支网络和横向连接,其中,高帧率分支网络是一个类似于低帧率分支网络的卷积网络,但是具有低帧率分支网络的β(β《1)通道的比率。在实施例中,典型值是β=1/8。公共层的计算(浮点数运算或flops)通常是通道缩放比率的二次方,故高帧率分支网络比低帧率分支网络更具计算效率。在实施例中,高帧率分支网络通常占总计算量的20%。
110.如图1所示,低帧率分支网络包括级联的第一广义卷积层a1、第二广义卷积层a2、第三广义卷积层a3、第四广义卷积层a4、第五广义卷积层a5,其中:
111.第一广义卷积层a1包括3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为24+3
×3×
3的最大池化层、步长为1
×2×
2;
112.第二广义卷积层a2包括4个部分(1个分支1和3个分支2),具体结构如下:
113.第一个部分(即1个分支1,分支1结构示意图如图4所示)包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,通道混洗操作示意图如图3所示,将分组卷积后的输出特征1通过通道混洗操作将来自不同组的信息“均匀地混洗”,在不增长计算量的情况下,保证分组卷积之后不同组的特征图之间的信息相互交流,
使通道充分融合。其中:
114.第一个通路包括:3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为30,group为30+批量归一化+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为88+批量归一化+relu激活函数;
115.relu激活函数为:
[0116][0117]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为88+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为88、group为88+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为88+批量归一化+relu激活函数;
[0118]
sigmoid激活函数为:
[0119][0120]
第二个部分、第三个部分和第四个部分(即3个分支2,分支2结构示意图如图5所示)为重复且并联的结构,具体结构如下:
[0121]
每个部分都包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0122]
第一个通路包括:恒等映射的快捷连接;
[0123]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为88+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×1×
1、卷积核个数为88、group为88+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为88+批量归一化+relu激活函数;
[0124]
第三广义卷积层a3包括8个部分(1个分支1和7个分支2),具体结构如下:
[0125]
第一个部分(即1个分支1)包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0126]
第一个通路包括:3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为220、group为220+批量归一化+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为176+批量归一化+relu激活函数;
[0127]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为176+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为176+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为176+批量归一化+relu激活函数;
[0128]
第二个部分至第八个部分(即7个分支2)为重复且并联的结构,具体结构如下:
[0129]
每个部分都包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0130]
第一个通路包括:恒等映射的快捷连接;
[0131]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为176+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×1×
1、卷积核个数为176,group为176+批量
归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为176+批量归一化+relu激活函数;
[0132]
第四广义卷积层a4包括4个部分(1个分支1和3个分支2),具体结构如下:
[0133]
第一个部分(即1个分支1)包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0134]
第一个通路包括:3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为440,group为440+批量归一化+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为352+批量归一化+relu激活函数;
[0135]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为352+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为352、group为352+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为352+批量归一化+relu激活函数;
[0136]
第二个部分、第三个部分和第四个部分(即3个分支2)为重复且并联的结构,具体结构如下:
[0137]
每个部分都包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0138]
第一个通路包括:恒等映射的快捷连接;
[0139]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为352+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×1×
1、卷积核个数为352、group为352+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为352+批量归一化+relu激活函数;
[0140]
第五广义卷积层a5包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为1024+8
×1×
1的平均池化层。
[0141]
如图5所示,高帧率分支网络包括级联的第一广义卷积层b1、第二广义卷积层b2、第三广义卷积层b3、第四广义卷积层b4、第五广义卷积层b5,其中:
[0142]
第一广义卷积层b1包括3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为3+3
×3×
3的最大池化层、步长为1
×2×
2;
[0143]
第二广义卷积层b2包括4个部分(1个分支1和3个分支2),具体结构如下:
[0144]
第一个部分(即1个分支1)包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0145]
第一个通路包括:3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为3,group为3+批量归一化+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为11+批量归一化+relu激活函数;
[0146]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为11+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为11、group为11+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为11+批量归一化+relu激活函数;
[0147]
第二个部分、第三个部分和第四个部分(即3个分支2)为重复且并联的结构,具体结构如下:
[0148]
每个部分都包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0149]
第一个通路包括:恒等映射的快捷连接;
[0150]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为11+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×1×
1、卷积核个数为11、group为11+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为11+批量归一化+relu激活函数;
[0151]
第三广义卷积层b3包括8个部分(1个分支1和7个分支2),具体结构如下:
[0152]
第一个部分(即1个分支1)包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0153]
第一个通路包括:3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为22、group为22+批量归一化+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为22+批量归一化+relu激活函数;
[0154]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为22+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为22+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为22+批量归一化+relu激活函数;
[0155]
第二个部分至第八个部分(即7个分支2)为重复且并联的结构,具体结构如下:
[0156]
每个部分都包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0157]
第一个通路包括:恒等映射的快捷连接;
[0158]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为22+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×1×
1、卷积核个数为22,group为22+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为22+批量归一化+relu激活函数;
[0159]
第四广义卷积层b4包括4个部分(1个分支1和3个分支2),具体结构如下:
[0160]
第一个部分(即1个分支1)包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0161]
第一个通路包括:3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为44,group为44+批量归一化+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为44+批量归一化+relu激活函数;
[0162]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为44+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×2×
2、卷积核个数为44、group为44+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为44+批量归一化+relu激活函数;
[0163]
第二个部分、第三个部分和第四个部分(即3个分支2)为重复且并联的结构,具体结构如下:
[0164]
每个部分都包含两个通路,两个通路的输出特征按通道数进行拼接,拼接后经过通道混洗操作后输出,其中:
[0165]
第一个通路包括:恒等映射的快捷连接;
[0166]
第二个通路包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为44+批量归一化+relu激活函数+3
×3×
3的卷积层、步长为1
×1×
1、卷积核个数为44、group为44+批量归一化+1
×1×
1的自适应平均池化层+全连接层+relu激活函数+全连接层+sigmoid激活函数+1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为11+批量归一化+relu激活函数;
[0167]
第五广义卷积层b5包括:1
×1×
1的卷积层、步长为1
×1×
1、卷积核个数为128+8
×1×
1的平均池化层。
[0168]
如图1所示,横向连接包括:第一卷积层c1、第二卷积层c2、第三卷积层c3、第四卷积层c4,具体结构如下:
[0169]
第一卷积层c1包括5
×1×
1的卷积层、步长为4
×1×
1、卷积核个数为6:融合第一广义卷积层b1输出特征和第一广义卷积层a1输出特征作为第二广义卷积层a2的输入;
[0170]
第二卷积层c2包括5
×1×
1的卷积层、步长为4
×1×
1、卷积核个数为44:融合第二广义卷积层b2输出特征和第二广义卷积层a2输出特征作为第三广义卷积层a3的输入;
[0171]
第三卷积层c3包括5
×1×
1的卷积层、步长为4
×1×
1、卷积核个数为88:融合第三广义卷积层b3输出特征和第三广义卷积层a3输出特征作为第四广义卷积层a4的输入;
[0172]
第四卷积层c4包括5
×1×
1的卷积层、步长为4
×1×
1、卷积核个数为176:融合第四广义卷积层b4输出特征和第四广义卷积层a4输出特征作为第五广义卷积层a5的输入。
[0173]
如图1所示,将低帧率分支网络的最终输出和高帧率分支网络的最终输出按照通道数进行拼接,作为全连接层的输入,全连接层将计算后的特征向量输入sigmoid回归层进行回归计算,得到分类结果。
[0174]
为了更好的进行分类识别,本发明提供一个优选实施例。在本实施例中s14利用s12中构建的训练数据集训练轻量化双帧速率卷积神经网络识别模型;
[0175]
s14进一步包括:如图6所示的本技术一实施例提供的视频处理过程的示意图,在具体的实践过程中,在nvidia jetson agx xavier(即图中的视频处理模块)上部署轻量化双帧速率卷积神经网络识别模型,第一步在主机上下载并安装sdk manager,第二步用usb数据线将主机和jetson agx xavier进行连接,第三步在主机和jetson agx xavier相连接之后进入recovery状态后进行安装启动,第四步登录nvidia账号后进入安装界面,首先选择下载路径,再烧录os镜像以及安装sdk组件,在烧录完成后,jetson agx xavier会自动开机,并进入ubuntu系统设置界面。设置完成后,jetson agx xavier会进入ubuntu系统,此时给该系统更换apt-get源,换成国内源。此时,jetson agx xavier上已经部署了基本的软件工具包,包括cuda、cudnn、opencv等,为网络模型的部署提供基础的环境。接下来,在jetson agx xavier上搭建网络模型所需要的环境:pytorch框架、numpy、detestron2等等。
[0176]
完成部署后,可通过视频采集设备将采集到的视频帧输入至视频处理模块(即nvidia jetson agx xavier)中,通过其内部部署的轻量化双帧速率卷积神经网络识别模型进行处理后,将最终分类的结果发送到本地(例如,打架、偷窃和毁坏公物等异常情况)。
[0177]
s15进一步包括:如图6所示,在实施例中,可通过外接摄像头,即视频采集模块采集视频帧,将64帧的图像帧(也可根据实际要求改变视频的长度,在本实施例中采用了64帧)作为一个视频片段输入至视频处理模块中的训练后的轻量化双帧速率卷积神经网络识别模型进行处理,其中,低帧率分支网络采样4帧作为输入,高帧率分支网络采样32帧作为
输入,处理后得到该视频片段的预测结果,并将结果上传至本地,判断这个视频片段中是否存在异常行为,接下来将前一视频片段中的32帧和接下来的32帧图像帧组合成共64帧的视频片段作为网络模型的输入,处理后得到该视频片段的处理结果,在预测时,重复以上操作处理视频片段。
[0178]
基于发明的相同构思,在本发明的其他实施例中提供一种基于轻量化双帧速率网络的异常行为识别电子装置一实施例,其结构如图7所示,包括:提取视频设备s11、处理器s12和存储器s13,存储器s13存储有处理器s12可执行的网络模型,机器可读指令被处理器s12执行时执行上述方法。通过设备s11将获取的视频输入至处理器s12中,在处理器s12中模型加载处理得到异常行为识别结果。
[0179]
基于本发明的相同构思,在本发明的其他实施例中提供一种基于轻量化双帧速率网络的异常行为识别系统,包括:低帧率分支网络、高帧率分支网络、横向连接、合并网络和分类网络;所述低帧率分支网络捕获原始视频数据的空间语义信息;所述高帧率分支网络捕获所述原始视频数据的运动信息;所述横向连接将所述低帧率分支网络和高帧率分支网络的各个阶段进行特征融合;所述合并网络合并所述低帧率分支网络和所述高帧率分支网络各自输出的特征向量获得合并特征;所述合并特征输入所述分类网络得到异常行为识别分类结果。
[0180]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的基于轻量化双帧速率网络的异常行为识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0181]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1