结合时空记忆特征和运动感知的视频预测方法、系统

文档序号:36266413发布日期:2023-12-06 11:18阅读:29来源:国知局
结合时空记忆特征和运动感知的视频预测方法与流程

本发明属于电子通讯与信息工程领域,具体涉及结合时空记忆特征和运动感知的视频预测方法、系统。


背景技术:

1、视频预测是视频处理与分析中重要的研究内容之一。该任务旨在使用连续的视频帧输入估计未来视频帧中可能发生的情况,在事情发生之前做出预判,可以有效的节省资源并产生期望的结果。目前该技术已广泛应用于机器人控制、视频插值、自动驾驶、运动规划等研究领域。依靠动作条件下的视频预测,机器人能够成功地操纵以前看不见的物体,自动驾驶汽车能够提前对行人进行避让,该项技术不仅利于当下,更是利于未来,因此视频预测一直是计算机视觉领域的重要研究课题。随着不同传感器、设备和互联网在社会中的广泛使用,以及5g时代的到来,视频数据在人们的日常生活中随处可见,并日渐成为传递信息的重要载体。为了充分挖掘和利用这些视频数据中的宝贵信息,视频预测技术也越来越受到重视。如果能够对视频进行快速且有效的预测,就能提前做好预防和应对从而减少大量损失。

2、但是,对于视频预测任务来说,模型需要从图像中抽象出各种详细信息,其中不仅包含空间维度的静态信息,而且包含时间维度的动态信息。复杂的时空动态对视频预测任务有重大的影响。有限的动态输入序列和运动本身的复杂变化严重限制了模型捕帧间运动信息的表达能力以及复杂时空特征的转换能力。

3、目前对视频预测的常规方法主要是基于密集的运动或运动矢量的方法。特别是基于光流的方法已经被证明能够比较有效的实现视频预测。基于光流估计的视频预测方法是通过光流计算视频中每个像素的运动速度,并将光流信息作为输入特征加入模型中,增强了模型对运动变化的感知能力,提高了视频预测的精度。但是,光流方法往往需要计算两帧之间的像素点之间的运动,而这往往会受到图像区域纹理,光照等因素的干扰,因此不同纹理区域的运动估计可能会不准确。此外,在运动较快的视频序列中,由于相邻帧之间时间间隔较短,像素之间的位移变化也较快,因此很容易导致数据丢失,影响预测效果。


技术实现思路

1、本发明所要解决的技术问题是:提出了结合时空记忆特征和运动感知的视频预测方法、系统,将连续的视频帧作为模型的输入数据,送入结合运动梯度高速公路单元和四层堆叠的时空注意融合单元构建的新型循环神经网络完成编码和预测。这种预测结构减少了特征提取和记忆过程信息的缺失,使模型拥有更强的时空特征学习能力,大大提高模型的预测精度。

2、本发明为解决上述技术问题采用以下技术方案:

3、本发明提出的结合时空记忆特征和运动感知的视频预测方法,包括以下步骤:

4、s1、获取视频数据集进行预处理,转换为5d张量。

5、s2、构建时空注意融合单元。

6、s3、构建运动梯度高速公路单元。

7、s4、构建时空预测网络,并引入联合损失函数训练该网络,获得训练完成的时空预测网络,包含n个时间步的视频序列,每个视频序列包括4层时空注意融合单元和3层运动梯度高速公路单元。

8、s5、将步骤s1中的5d张量作为训练完成的时空预测网络的输入,输入到第一层时空注意融合单元中,得到最初的时空特征;最初的时空特征经过一层运动梯度高速公路单元自适应提取得到最初的时空运动特征。

9、s6、将步骤s5中最初的时空特征和最初的时空运动特征共同输入到第二层时空注意融合单元中,进行特征提取;为了提高特征信息的完整性和时效性将提取的特征分别沿纵向输入到当前时间步层间的运动梯度高速公路单元、沿横向输入到下一时间步的时空注意融合单元。依此方式处理直至在第四层时空注意融合单元获得最终的时空特征,输出最终的预测序列,并通过反卷积方法得到预测序列相应的单帧预测图片。

10、s7、将步骤s5中最初的时空特征和步骤s6最终的时空特征,输入到当前时间步的训练完成的时空预测网络的第一层时空注意融合单元中,并与步骤s1中的5d张量共同作为输入信息,再次重复进行步骤s5-s6,直到获得n个时间步的预测视频帧。

11、进一步的,步骤s2中,构建时空注意融合单元的具体步骤为:

12、s201、过去时间状态的同一层时空注意融合单元的输出和当前时间状态的输入作为时间输入信息,并利用注意力机制对其进行分配权重获得注意力特征,具体公式为:

13、

14、其中,hatt表示注意力特征,xt表示当前时间状态的输入,表示t-1时刻l层时空注意融合单元的隐藏状态,att表示注意力机制。

15、s202、时间输入信息分别经过重置门、调制门和更新门,获得不同的门控时空特征,具体公式为:

16、

17、

18、

19、其中,rt、gt和ut分别表示第t个时间步的重置门控特征、调制门控特征和更新门控特征;wxr、wxg和wxu分别表示第t个时间步时间输入信息在重置门、调制门和更新门中的权重;whr、whg和whu分别表示隐藏状态在重置门、调制门和更新门中的权重,bu表示更新门的偏置;σ表示sigmoid激活函数;tanh表示tanh激活函数。

20、s203、注意力特征与重置门控特征、调制门控特征结合后存入时间存储单元,具体公式为:

21、

22、其中,tm为时间存储单元。

23、s204、过去时间状态的顶层输出和当前时间状态的网络输入作为时空输入信息,分别利用注意力机制、重置门和更新门对其进行处理获得注意力特征、重置门控特征和更新门控特征;注意力特征和重置门控特征结合后存入时空存储单元,具体公式为;

24、

25、

26、

27、

28、其中,r′t和u′t分别表示第t个时间步时空输入信息下的重置门控特征与更新门控特征,matt表示时空状态下的注意力特征,表示第t个时间步l-1层的空间记忆信息,sm表示时空存储单元,w′xr、w′xu分别表示时空输入信息在重置门和更新门中的权重,w′mr、w′mu分别表示空间记忆信息在重置门和更新门中的权重,b′u表示更新门的偏置。

29、s205、将时间存储单元和时空存储单元经过门控机制进行融合,构建完整的时空注意融合单元。

30、进一步的,步骤s3中,构建运动梯度高速公路单元的具体内容为:

31、s301、引入编码模块对输入和输出特征进行编码。

32、s302、搭建标准的梯度高速公路单元。

33、s303、利用差分运算搭建运动感知模块,具体公式为:

34、dt=dt-1+α(tt-1-dt-1)

35、其中,dt是当前时间步的运动趋势,dt-1是过去时间步学习到的运动趋势,tt-1是上一个时间步滤波器捕获到的运动变化特征。

36、s304、将运动感知模块与梯度高速公路单元相连,具体公式为:

37、

38、其中,tt是当前时间步捕获的运动变化特征,pt是转换后的输入,st是控制开关。

39、s305、引入解码和调制模块构建完整的运动梯度高速公路单元。

40、进一步的,步骤s4中,构建训练完成的时空预测网络的具体步骤为:

41、s401、通过堆叠convlstm搭建基础的循环神经网络。

42、s402、为了保留完整的时间特征和空间特征,使用时空注意融合单元替换convlstm。

43、s403、为了避免多层时空注意融合单元堆叠导致的梯度爆炸,以及提高时空信息的完整度,在时空注意融合单元的层间插入运动梯度高速公路单元,并通过高速通道直连,完成时空预测网络的构建。

44、s404、引入联合损失函数训练时空预测网络,获得训练完成的时空预测网络;联合损失函数的具体公式为:

45、

46、其中,α为l1损失函数的权重,x为当前时间步的输入,为当前时间步的输出。进一步的,步骤s5中,获得最初的时空特征和最初的时空运动特征包括以下子步骤:

47、s501、为了保留完整的时间特征信息,将5d张量和过去时间状态的输出相结合,通过门控机制和注意力机制控制5d张量的保留量,并将其存储到时间存储单元中,作为时间记忆特征。

48、s502、为了保留完整的时空特征信息,将5d张量和过去时间的顶层时空信息融合,通过注意力机制和门控机制控制信息的保留,并存储到时空存储单元中,作为时空记忆特征。

49、s503、时间记忆特征和时空记忆特征经过卷积层降维和更新门调制后得到最初的时空特征,具体公式如下:

50、

51、s504、时空注意融合单元输出的最初时空特征经过编码后,与过去时间的运动信息结合作为输入,传输到梯度高速公路单元中,获得梯度特征信息。

52、s505、利用运动感知模块对过去时间的瞬态变化特征和运动变化趋势进行差分运算,获得运动变化特征。

53、s506、将梯度高速公路单元的梯度特征信息和运动变化特征进行加权融合,获得具有运动变化特征的时空特征信息。

54、s507、具有运动变化特征的时空特征信息经过双线性插值和解码调制后,获得最初的时空运动特征,具体公式如下:

55、mt=broadcast(σ(wm*enc(ht))

56、

57、gt=σ(wg*concat[dec(ht'),ht])

58、

59、其中,mt表示运动滤波器,broadcast表示广播操作,wm表示运动滤波器的权重,enc(ht)表示来自预测块的输入,concat表示在通道方向上叠加操作,ht'表示滤波和插值后的运动变化特征,wrap表示双线性插值的变化操作,wg表示调制门的权重。

60、进一步的,步骤s7中,通过反卷积方法将第四层时空注意融合单元提取的时空特征重新解码为每个时间步的状态,得到更精确的预测的视频序列;对预测的视频序列进行反卷积方法,映射回相应的单帧预测图片;同时,时空特征分别沿横向传输到下一时间步的顶层的时空注意融合单元和沿之字形,时空流传入下一时间步的底层时空注意融合单元,并在下一时间步作为输入信息之一,提高时空特征的时效性。

61、进一步的,本发明还提出了结合时空记忆特征和运动感知的视频预测系统,包括

62、视频数据集预处理模块,用于对获取视频数据集进行预处理,转换为5d张量。

63、时空注意融合单元构建模块,用于将时间存储单元和时空存储单元经过门控机制进行融合,构建完整的时空注意融合单元。

64、运动梯度高速公路单元构建模块,用于引入解码和调制模块构建完整的运动梯度高速公路单元。

65、时空预测网络构建模块,用于在时空注意融合单元的层间插入运动梯度高速公路单元,并通过高速通道直连,完成时空预测网络的构建,并引入联合损失函数训练该网络,获得训练完成的时空预测网络。

66、最初的时空运动特征提取模块,用于将视频数据集预处理模块中的5d张量作为训练完成的时空预测网络的输入,输入到第一层时空注意融合单元中,得到最初的时空特征;最初的时空特征经过一层运动梯度高速公路单元自适应提取得到最初的时空运动特征。

67、特征提取模块,用于将第一个运动梯度高速公路单元提取的最初时空运动特征和最初的时空运动特征提取模块中最初的时空特征共同输入到第二层时空注意融合单元中,进行特征提取。

68、单帧预测图片获取模块,用于重复操作最初的时空运动特征提取模块和特征提取模块两次,获得训练完成的时空预测网络中剩下层结构的时空特征,在第四层时空注意融合单元获得最终的时空特征,输出最终的预测序列,并通过反卷积方法得到预测序列相应的单帧预测图片。

69、预测视频帧获取模块,用于将最初的时空运动特征提取模块中最初的时空特征和单帧预测图片获取模块中最终的时空特征,输入到当前时间步的训练完成的时空预测网络的第一层时空注意融合单元中,并与视频数据集预处理模块中5d张量共同作为输入信息,再次重复操作最初的时空运动特征提取模块、特征提取模块和单帧预测图片获取模块,直到获得n个时间步的预测视频帧。

70、进一步的,本发明还提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前文所述的结合时空记忆特征和运动感知的视频预测方法的步骤。

71、进一步的,本发明还提出了一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,所述计算机程序被处理器运行时执行前文所述的结合时空记忆特征和运动感知的视频预测方法。

72、本发明采用以上技术方案与现有技术相比,具有以下技术效果:

73、本发明设计了一个结合时空记忆特征和注意力机制的时空注意融合单元,将其作为循环神经网络的基础构建单元,对过去状态时间信息和当前状态空间信息进行融合,强化运动信息感知的同时兼顾当前状态的空间静态特征信息,充分学习和保存了时空状态转换过程中的细节信息。此外,时空记忆使不同层次的rnn学习到的视觉动态进行通信,既保证了底层细节又保存了高层特征,利用注意力机制能更加充分的学习到视频帧的长期全局运动信息,在较低的计算负荷下获得更高的预测性能,减少资源的浪费,提高视频预测的准确性。

74、同时,在梯度高速公路单元的基础上引入运动感知,获得改进的运动梯度高速公路单元,学习到了帧间瞬态变化和运动趋势,并通过层间的跳跃连接,为梯度流从输出返回到之前的远程输入提供了更为高效的路线,减轻了反向传播的过程中梯度爆炸或梯度消失的影响。

75、本发明有效解决了视频长期特征缺失、时空依赖性差和视频预测精度低的问题。在对不同场景下对未来视频帧进行预测时,该方法的整体精确度明显优于其他预测方法,预测周期也更短。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1