一种基于视频检测的卷积神经网络推断优化方法

文档序号:37118358发布日期:2024-02-22 21:19阅读:17来源:国知局
一种基于视频检测的卷积神经网络推断优化方法

本发明属于卷积神经网络算法领域。更具体地,涉及一种基于视频检测的卷积神经网络推断优化方法。


背景技术:

1、卷积神经网络(cnn,convolutional neural network)已成为deep learning(深度学习)领域中的代表。在卷积神经网络的发展过程中,研究人员为了提高网络模型的准确度,采用了更多层数、更加复杂的网络结构,导致模型的参数量和计算量不断增加,vgg16、vgg19等网络模型的计算量甚至超过了100gflops。当前,使用卷积神经网络对于视频进行推断时,会把视频的每一帧都送入网络模型进行推断计算,卷积神经网络的计算量就直接影响到了视频推断任务的处理效率。近些年来物联网飞速发展,为了快速响应用户请求,保护用户隐私数据,将卷积神经网络等深度学习算法部署到资源有限的物联网终端设备上并完成运算逐渐成为了发展趋势。因此需要保障模型精度损失在可接受范围内的同时,尽可能地缩小卷积神经网络模型计算量,降低内存占用以及减少模型推断时间。

2、当视频来源为实时视频监控系统时,图像序列中的像素在时间域上的变化以及相邻帧之间存在一定的相关性,具体表现为送入网络的连续帧在无明显运动物体时,存在着大量的相似场景,而当有物体运动时,相关的像素值就会发生较大的波动,这种相关性也被称为视频的时空局部性。目前,一些研究工作利用视频检测任务相邻帧的时空局部性来优化卷积神经网络的推断计算过程。主要有三类方案:一类是缓存关键视频帧每一层的计算结果,对视频帧进行分块搜索相似区域对相似区域进行中间结果重用;另一类也需要缓存关键视频帧每一层的计算结果,但是根据判断视频帧的变化像素仅更新变化像素对应区域的计算结果;还有一类是缓存部分关键中间计算结果,将中间计算结果与网络输出绑定,如果推理过程中有任何中间计算结果与之前的一致,则跳过剩余的计算直接输出结果。以上方案都采取了以空间换时间的方案,但是在对网络进行优化的同时,有的额外增加了大量缓存空间来存储数据,同时还增加了查找开销,有的建立哈希表结构对数据进行管理的同时,还增加了额外的模型缓存和模型学习成本。这些在对资源本身就有限的设备中部署时,都会带来一定的困扰与限制。


技术实现思路

1、1.要解决的技术问题

2、在大多数监控场景中,镜头在相当一部分时间都处于静止的状态,画面中没有什么运动的人或物体,而背景则处于一个静止或缓慢变化的状态。针对现有技术的不足,如何利用视频帧背景变化缓慢的特点,提出一个低缓存成本的卷积神经网络推断优化方案,从而减少卷积神经网络推断过程中的计算量,提升卷积神经网络推断计算的速度,降低对资源有限设备中内存的占用。

3、2.技术方案

4、本发明提供了一种基于视频检测的卷积神经网络推断优化方法,旨在利用监控视频帧之间的时空局部性,把视频内长时间静止的区域构建成视频的背景帧,缓存背景帧和卷积神经网络处理背景帧的最终推断结果,对当前视频帧中与背景帧进行的相似度对比,当相似度达到一定标准时,就直接复用背景帧最终推断结果,减少卷积神经网络处理视频数据的计算量,在微弱的精度损失代价下缩短视频帧推断时间。其优化示意图如图1所示,包括所述视频帧计数模块101,所述卷积神经网络推断计算模块102,所述相似度检测模块103和所述相关矩阵计算模块104。

5、■所述视频帧计数模块101,用于记录输入的总视频帧数量n和更新背景帧framebg后输入的视频帧数量n′,n初始值为0,n′初始值为0(背景帧不计入n′内)。n=1时,当前输入帧为第一个视频帧frame1,所述卷积神经网络推断计算模块102默认第一个视频帧frame1为初始背景帧,每输入一个视频帧,n的数值就加一。更新背景帧framebg之后每输入一个视频帧,n′的数值就加一,当所述卷积神经网络推断计算模块102里保存的背景帧framebg更新时,n′的值置为0;

6、■所述卷积神经网络推断计算模块102,用于存储背景帧framebg,计算并存储背景帧framebg的推断结果,记录更新背景帧framebg后到下一次更新背景帧framebg之间的时长time。从所述相似度检测模块103读取相似标记变量β的值。若β=0,则直接复用并输出所述卷积神经网络推断计算模块104存储的背景帧framebg推断结果。若β=1,则所述卷积神经网络推断计算模块104更新背景帧framebg,存储当前输入视频帧framen为背景帧framebg,通过运行卷积神经网络算法计算得到更新后背景帧framebg的推断结果,保存新的推断结果,删除之前保存的推断结果,time重置为0,重新开始计时。每处理完一帧都要判断time是否大于或等于设定的更新时长t。若time≥t,则根据所述相关矩阵计算模块104的累加帧

7、矩阵a∈rm×n计算历史平均帧,用历史平均帧更新为背景帧;

8、■所述相似度检测模块103,用于对比输入视频帧framen与背景帧framebg的相似度。相似度的对比计算方式是将输入视频帧framen与背景帧framebg的每一个对应像素点上的像素值相减,得到一个相似度矩阵s∈rm×n。与所述相关矩阵计算模块104里计算得到的阈值矩阵t∈rm×n进行逐个矩阵元素数值对比,统计相似度矩阵中元素数值大于阈值矩阵中对应位置元素数值的元素数量num。设定一个相似度临界值变量α(0≤α≤m×n,α是整数)和相似标记变量β(β初始设置为0,每次进行相似度评估前先重置β值为0),当num≤α时,则认为输入视频帧framen与背景帧framebg包含相同的物体,且物体的位移很小,输入视频帧framen与背景帧framebg的相似度很高,β=0;否则认为输入视频帧framen与背景帧framebg并不相似,设置β=1;

9、■所述相关矩阵计算模块104,用于计算阈值矩阵t∈rm×n和累加帧矩阵a∈rm×n(每个视频帧的尺寸为m×n)。为了评估输入视频帧framen与背景帧framebg之间的相似度,根据背景帧framebg到视频帧framen-1之间的n′个历史视频帧每个像素点上像素值的平均变化值计算得到阈值矩阵t。累加帧矩阵a∈rm×n根据视频帧frame1到framen之间的n个历史视频帧每个像素点上像素值的总和计算得到。

10、本发明提供了一种基于视频检测的卷积神经网络推断优化方法,其整体流程图如图2所示,具体步骤如下:

11、s1:输入视频帧frame,然后转入步骤s2;

12、s2:所述视频帧计数模块101输入的总视频帧数量n加1,当前视频帧为framen,然后转入步骤s3;

13、s3:判断n是否大于1,若n≤1,则转入步骤s4,若n>1,则转入步骤s10;

14、s4:所述卷积神经网络推断计算模块102设定n等于1时的视频帧为初始背景帧,视频帧framen作为背景帧framebg保存,计算framebg的推断结果并保存,time开始计时,然后转入步骤s5;

15、s5:所述相关矩阵计算模块104计算累加帧矩阵a∈rm×n,然后转入步骤s6;

16、s6:所述卷积神经网络推断计算模块102判断time是否大于或等于设定的更新时长t,若time<t,则转入步骤s7,若time≥t,则转入步骤s8

17、s7:判断是否还有视频帧输入,若是则转入s1,否则结束;

18、s8:所述卷积神经网络推断计算模块102读取所述相关矩阵计算模块104中的累加帧矩阵a∈rm×n计算并设定历史平均帧作为背景帧framebg保存,计算framebg的推断结果并保存,time置为0重新计时,然后转入步骤s9;

19、s9:所述相关矩阵计算模块104重置阈值矩阵t∈rm×n内的元素为0,然后转入步骤s20;

20、s10:所述视频帧计数模块101计算n'加1,然后转入步骤s11;

21、s11:判断n'是否大于1,若n'≤1,则转入步骤s15,若n'>1,则转入步骤s12;

22、s12:所述相似度检测模块103计算输入视频帧framen与背景帧framebg的相似度矩阵s∈rm×n,与阈值矩阵t∈rm×n逐元素对比,统计大于阈值矩阵的元素数量num,然后转入步骤s13;

23、s13:所述相似度检测模块103判断num是否大于相似度临界值变量α,若num≤α,则转入步骤s14,若num>α,则转入步骤s17;

24、s14:所述相似度检测模块103设置相似标记变量β为0,然后转入步骤s15;

25、s15:所述卷积神经网络推断计算模块102读取framebg的推断结果直接输出,然后转入步骤s16;

26、s16:所述相关矩阵计算模块104计算并更新阈值矩阵t∈rm×n和累加帧矩阵a∈rm×n,然后转入步骤s6;

27、s17:所述相似度检测模块103设置相似标记变量β为1,然后转入步骤s18;

28、s18:所述卷积神经网络推断计算模块102设定视频帧framen作为背景帧framebg保存,计算framebg的推断结果并保存,time置为0重新计时,然后转入到步骤s19;

29、s19:所述相关矩阵计算模块104重置阈值矩阵t∈rm×n内的元素为0,计算更新累加帧矩阵a∈rm×n,然后转入步骤s20;

30、s20:所述视频帧计数模块101置n'为0,然后转入步骤s6;

31、如图2中标识本发明的计算流程主要包含三个阶段:初始化阶段,相似帧处理阶段和背景帧更新阶段。初始化阶段主要包括步骤s4和s5,相似帧处理阶段主要包括步骤s14,s15和s16,背景帧更新阶段主要包括步骤s8,s9,s17,s18,s19和s20。

32、3.有益效果

33、本发明的优点在于:本发明无需重新训练卷积神经网络模型、无需使用大规模缓存空间、无需消耗大量搜索时间或学习成本,通过动态更新背景帧,对比背景帧和当前输入帧的相似度复用背景帧推断结果,在可接受的精度损失下缩短了基于视频任务的卷积神经网络推断时间,是一种低缓存成本的视频任务卷积神经网络推断优化方法。

34、与cbinfer和deepcache方法相比,本发明使用的缓存空间更小,无需额外增加大规模的缓存空间对重复计算的数据进行大规模缓存,且本发明将缓存的计算结果粒度更大,在复用数据的计算结果时,相似度对比的代价也更小。与gati方法相比,本发明使用的缓存空间更小,也无需建立学习缓存命中率的模型,增加额外学习代价来保留命中率高的结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1